@LogsOfWilson (Wilson Park) · virtual-insanity

@LogsOfWilson (Wilson Park) Anthropic이 Skill Creator Plug In의 기능을 업데이트했다는 소식에 '스킬 만들어주는 스킬이 그게 뭐 얼마나 대단할까'라는 생각으로 공식 블로그를 확인해봤습니다. 근데 이 녀석 물건입니다..!

테스트 케이스 작성, 벤치마크, A/B 비교 — 소프트웨어 개발 문화에서 쓰이던 검증 프레임워크를 코드 한 줄 없이 스킬에 적용할 수 있게 만들었습니다.

📍Anthropic은 왜 이러한 스킬 만드는 스킬을 만들었나? Anthropic이 알아차린 게 있습니다.

스킬을 만드는 사람 대부분이 개발자가 아니라 도메인 전문가인데 이들은 스킬이 새 모델에서도 작동하는지, 제때 트리거되는지, 수정 후 실제로 나아졌는지를 **판단할 도구가 없다는 것.

그래서 Anthropic이 개발 문화에서 쓰이는 평가 시스템을 Skill Creator에 붙였는데, 이게 멀티에이전트로 돌아갑니다. 병렬로 빠르게 돌리면서, 컨텍스트끼리 오염을 방지하기 위해서입니다.

궁극적으로 여러 테스트 케이스를 http://SKILL.md를 적용한 결과 vs 그리고 http://SKILL.md 없이 만든 결과를 에이전트들이 비교합니다:

1⃣ 독립 에이전트들이 병렬로, 각각 깨끗한 컨텍스트에서 테스트 케이스들을 빠르고 독립적으로 병렬 실행 2⃣ 비교만 담당하는 에이전트가 A/B 테스트를 진행. (두 버전 결과를 블라인드로 판정)

각각 독립 컨텍스트에서 병렬로 돌아가니 컨텍스트 오염이 없습니다.

직접 스킬 만들어 쓰는 입장에서, 저도 지금까지는 대충 지시한대로 돌아가는 거 같으니 만족하고 넘어갔었는데요, 이젠 이 플러그인을 안 쓸 이유가 없을 거 같습니다.

써보고 싶으면 http://Claude.ai 혹은 Cowork에서 "skill-creator 써줘"라고 하면 됩니다. Claude Code 쓰신다면 공식 플러그인 설치하면 되구요. 스킬 만들어본 분이라면 한 번 돌려볼 만합니다. ![[tweet_2029099331274588269_0.jpg]]