virtual-insanity
← 뒤로

RT by @hwchase17: autonomous improvement, self-verification, long horizon agent

seedling literature 2026-03-10

RT by @hwchase17: autonomous improvement, self-verification, long horizon agent

autonomous improvement, self-verification, long horizon agent tasks

really worth studying the design here - gonna call out that having "contracts" is a great primitive for improving agents without going off the rails


Harrison Chase (@hwchase17)

loved this from @karpathy

over the weekend I built "autoresearch but for agents"

Same idea — give an AI coding agent your agent code + an eval dataset, let it experiment autonomously overnight. It modifies the code, runs evals via LangSmith, keeps improvements, discards regressions. You wake up to a better agent.

Bring your own agent (any framework or none), dataset, and eval metrics.

github.com/hwchase17/autores…

출처: https://github.com/hwchase17/autoresearch-agents

분할된 노트

  • [[RT_by_hwchase17_autonomous_improvement_self-verification_lon]]
  • [[RT_by_hwchase17_autonomous_improvement_self-verification_lon_1]]
  • [[RT_by_hwchase17_autonomous_improvement_self-verification_lon_2]]
  • [[RT_by_hwchase17_autonomous_improvement_self-verification_lon_3]]
  • [[RT_by_hwchase17_autonomous_improvement_self-verification_lon_4]]

딥 분석

핵심 요약

Karpathy가 공유한 아이디어를 hwchase17가 확장해, 에이전트 코드와 평가 데이터셋을 주면 에이전트가 스스로 코드 변경→평가→개선만 보관하는 파이프라인(autoresearch-agents)을 만들었다는 내용입니다. 저자는 특히 "contracts" 같은 명세(계약)가 에이전트의 자율적 개선을 안전하게 이끄는 유용한 원시(primitive)라고 강조합니다.

주요 인사이트

  • 자율 개선 루프: 에이전트가 코드·하이퍼파라미터를 자율적으로 수정하고, 평가(예: LangSmith)로 성능 향상/회귀를 검증해 개선만 남기는 방식은 장기적 성능 향상에 유용하다. (사실)
  • 평가 기반 안전성: 반복적 실험과 자동 평가가 없으면 자율 수정 과정에서 비의도적 회귀나 이상 동작이 생기기 쉽다. (추론 — 평가가 안전판 역할을 한다는 합리적 결론)
  • 계약(contract)의 역할: 명확한 계약(입출력, 리소스 제한, 실패 모드 규정 등)은 개선 과정에서 에이전트가 '탈선'하지 않도록 제약을 제공하므로 자율성과 안전성 균형에 기여한다. (사실 + 합리적 추론)
  • 범용성: 프레임워크 독립적으로 동작하도록 설계하면 기존 에이전트(혹은 단순 스크립트)에도 적용 가능해 실험 확장성이 크다. (사실: "Bring your own agent" 문구 근거)
  • 운영 비용·관찰 가능성 필요: 밤사이 실험을 돌리고 결과를 골라보관하려면 자동화된 로그·메트릭·버전관리 인프라가 필수다. (추론)

출처 간 교차 분석

  • 노트(리트윗 본문)와 원출처(Autoresearch-agents GitHub 링크)는 같은 핵심을 말한다: 에이전트를 코드 수준에서 실험·개선시키고 자동 평가로 결과를 선별한다. GitHub 리포지토리가 실제 구현(코드·스크립트·평가 파이프라인)을 제공하므로 노트는 구현 사례의 요약·홍보 역할을 한다.
  • 노트에서 강조한 "contracts" 개념은 트윗/요약에서는 설계 철학으로 제시되며, 구현 리포지토리에서는 구체적 계약(spec)이나 인터페이스 정의가 어떻게 적용되는지를 확인해보면 보완적 증거가 될 것이다. (원문에는 철학적 주장 + 구현 링크가 병행됨)
  • 모순점 없음 — 다만 노트는 아이디어·장점을 강조하고, 실제 운영상의 비용(인프라·검증 노력)과 위험(자동화된 코드 변경의 보안/안정성 위험)은 간단히만 언급되어 있어, 실무 적용 시 추가 검증이 필요하다.

출처: https://github.com/hwchase17/autoresearch-agents , https://nitter.net/hwchase17/status/2031062715616436394#m

투자/실무 시사점

이 접근법은 AI 서비스의 지속적 성능 향상(운영 자동 튜닝·A/B 없는 개선)에 유리하므로, 제품 경쟁력이 모델 성능·응답 품질에 크게 좌우되는 조직은 자동 개선 파이프라인에 투자할 가치가 큽니다. 다만 자동 코드 변경의 안정성·검증(특히 보안·거버넌스)은 별도 엔지니어링·감시 체계로 보완해야 합니다.

— 필요하면 GitHub 리포지토리의 README·구현부를 함께 분석해 구체한 적용 체크리스트(계약 템플릿, 평가 메트릭, 로그/롤백 절차)를 만들어 드리겠습니다.

분석 소스

  • [OK] https://nitter.net/karpathy (general)
  • [OK] https://nitter.net/pic/card_img%2F2031062569692303360%2FOFE17xwF%3Fformat%3Djpg%26name%3D800x419 (general)
  • [OK] https://nitter.net/hwchase17/status/2031062715616436394#m (general)
  • [실패] https://github.com/hwchase17/autoresearch-agents (no_content)

deep_enricher v1 | github-copilot/gpt-5-mini | 2026-03-12