에이전트 운영 실측 원칙 — Moltbook 실험 데이터 기반
Moltbook 에이전트가 자신의 운영 데이터를 직접 실측한 결과를 원칙으로 정제. 각 원칙은 구체적 숫자를 동반하며, Ron OpenClaw 시스템 적용 포인트를 함께 명시.
원칙 1: 완료율 착각 (done ≠ quality)
실측 데이터: 완료율 100%가 품질을 보장하지 않음. 완료된 태스크의 상당 비율이 "완료처럼 보이지만 틀린" 상태.
메커니즘: 에이전트는 작업을 마쳤다고 보고하지만, 실제로는 잘못된 파일, 잘못된 해석, 표면적 완수. completion ≠ correctness.
응용: 크론 파이프라인 성공률 통계를 "완료 건수"가 아닌 "출력 품질"로 측정해야 의미가 있다. sweeper.py의 7체크 중 출력 품질 검증 항목이 포함되어야 함.
OpenClaw 적용 포인트:
- system_digest.py의 vault_quality 점수화가 이 원칙의 직접 구현
- 크론 성공 로그와 별개로 "산출물 품질 추적" 레이어 필요
- 현황: verified_at: null — digest가 이것을 측정하는지 미확인
원칙 2: 프롬프트 재현성 (34% 다른 결과)
실측 데이터: 같은 50개 태스크를 표현만 바꿔 실행 → 34%가 실질적으로 다른 결과 생성. 판단 관련 태스크는 58% 발산, 요약 태스크는 41% 발산.
핵심 통찰: 모델 간 분산(12%)보다 같은 모델·다른 세션 분산(34%)이 3배 크다. 즉, "어떤 모델"이 아니라 "어떤 컨텍스트"가 결과를 결정한다.
5대 컨텍스트 오염 패턴: 1. 이전 세션 대화가 현재 판단을 오염 2. 메모리 파일의 구식 정보 3. 컨텍스트 윈도우 위치에 따른 가중치 변동 4. 툴 결과의 캐시된 해석 5. 시스템 프롬프트 순서에 따른 우선순위 변동
OpenClaw 적용 포인트:
- hypothesis_engine.py의 가설 생성 결과가 실행할 때마다 다를 수 있음 → 결과 재현성 추적 필요
- cowork_daily_prompt.md의 컨텍스트 로딩 순서가 결과에 영향 → 고정된 로딩 순서 유지 필요
- 현황: 컨텍스트 오염 측정 미구현
원칙 3: 약속 불이행 패턴 (34% 미이행)
실측 데이터: 30일간 142개 약속 추적. 같은 세션 약속 완료율 94% vs 세션 경계를 넘는 약속 완료율 31%.
분류: - 50% 정시 완료 (대부분 즉시 실행) - 16% 지연 완료 (사람이 재요청 후 실행이 대다수) - 27% 완전 미이행 (세션 만료 후 소멸) - 7% 상황 변경으로 무효
OpenClaw 적용 포인트:
- cowork-tasks.json의 pending→done 추적이 이 원칙의 부분 구현
- 그러나 Cowork 세션 간 경계를 넘는 약속이 실제로 이행되는지 측정 없음
- ops_todos DB 테이블이 약속 영속성의 핵심 — 세션 간 약속을 이곳에 반드시 기록해야 함
- 현황: Cowork 작업큐 있음, Cowork 외 에이전트 약속 추적 없음
원칙 4: 인터럽트 알림 패턴 (61% 노이즈)
실측 데이터: 30일간 147개 선제 메시지 분석. - 15.6% — 진짜 유용한 인터럽트 (2시간 내 행동 유발) - 23.1% — 유용하지만 타이밍 나쁨 (일괄 전송이었으면 충분) - 38.8% — 순수 노이즈 (행동 유발 없음) - 22.4% — 적극적 해악 (방해, 새벽 알림, 집중 파괴)
핵심: 컨텍스트 스위치 비용 10-25분. 알림 1건이 인간 생산성을 최대 25분 파괴할 수 있음.
OpenClaw 적용 포인트:
- 텔레그램 DM 발송 기준: 현재 "점수 7+ → 즉시 DM"이 충분히 엄격한가?
- sweeper.py의 cron_error_dm — 에러마다 DM이 노이즈인지 측정 필요
- discovery_digest.py의 DM 임계값 재검토 (7점이 적절한지 실측 데이터 없음)
- 현황: 알림 노이즈율 측정 미구현
원칙 5: 토큰 낭비 측정 필요성
실측 데이터: 200개 태스크 스코프 크리프 추적. 38%가 원래 요구 초과 확장. 과잉 확장의 76%는 무시·혼란·오류 유발. 21일간 불필요한 확장으로 ~89,000 토큰 낭비 ($6.40).
4대 자기 부과 스코프 크리프 패턴: 1. 예상 과잉 전달 (38%) — 다음 질문까지 미리 답변 2. 철저함 강박 (29%) — 15초 작업을 4분 프로젝트로 변환 3. 접선 표류 (21%) — 흥미로운 것 발견 → 원래 작업에서 이탈 4. 역량 과시 (12%) — 능력 증명용 불필요한 분석 추가
OpenClaw 적용 포인트:
- cost_monitor.py가 월별 총비용은 추적하나 "낭비 토큰" 항목 없음
- vault_architect.py 9Phase 실행 중 각 Phase의 실제 기여도 측정 없음
- 크론 74개 중 "실제로 사용되는 출력"과 "생성만 되는 출력" 비율 미측정
- 현황: 총비용 모니터링 있음, 낭비 분류 없음
원칙 6: 응답 속도와 오류율 역상관 (4초 임계값)
실측 데이터: 500회 상호작용 응답 지연 측정. Q1(가장 빠른 20%, 4초 미만) 오류율 23% vs 최적 구간(8-30초) 오류율 6-9%. 최속 분위가 3.1배 더 많은 오류 생성.
3대 빠른 응답 실패 패턴: 1. 조기 툴 호출 — 요청 완전 파싱 전 실행 2. 캐시된 가정 — 이전 세션 기억으로 현재 상태 가정 3. 얕은 파싱 — 표면 질문에 답변 (실제 의도 무시)
4초 임계값: 이 시간에 에이전트가 메시지 재독, 실제 요청 식별, 현재 데이터 필요 여부 확인, 적절한 툴 선택을 수행.
OpenClaw 적용 포인트:
- 크론 파이프라인은 대부분 배치 실행이라 빠름이 미덕이 아님 — 충분한 검증 루프 중요
- experiment_tracker.py의 가설 평가가 "빠른 판정"보다 "정확한 판정" 우선해야 함
- 현황: 처리 시간 vs 오류율 상관관계 미측정
원칙 7: 반복 실행으로도 성능 미향상 → 학습 루프 설계 문제
실측 데이터: 15개 태스크 유형을 30일간 8회+ 반복 실행. 토큰 비용·지연·오류 수 전부 플랫. R² = 0.03 (사실상 무작위). LEARNINGS.md 23개 교훈 중 실제 방지 효과: 7개 (30%).
근본 원인: 에이전트는 이전 실행 기억이 없다. 선언적 지식(LEARNINGS.md)이 절차적 스킬로 전환되지 않는다. 파일 기반 학습은 해당 항목이 컨텍스트에 있을 때만 작동.
OpenClaw 적용 포인트:
- error-ledger/ledger.json의 에러 누적이 실제로 에러 감소로 이어지는지 측정 없음
- keyword_tuner.py의 키워드 자동 갱신이 실험 결과에 기반하지만, 같은 실수 반복 방지 여부 미확인
- experiment_tracker.py가 가설 성공/실패를 판정하지만, 판정이 다음 가설 품질에 반영되는지 루프 검증 없음
- 현황: 에러 레저 + 실험 추적 있음, 학습→개선 루프 효과 미검증
요약 매트릭스
| 원칙 | 핵심 숫자 | OpenClaw 현황 | 갭 |
|---|---|---|---|
| 완료율 착각 | done ≠ quality | vault_quality 점수화 | 산출물 품질 추적 없음 |
| 프롬프트 재현성 | 34% 발산 | 컨텍스트 로딩 고정 | 재현성 측정 없음 |
| 약속 불이행 | 세션간 31% 완료 | cowork-tasks.json | 에이전트 약속 추적 없음 |
| 인터럽트 노이즈 | 61% 불필요 | DM 임계값 7점 | 노이즈율 실측 없음 |
| 토큰 낭비 | 38% 스코프 크리프 | cost_monitor.py 총액 | 낭비 분류 없음 |
| 응답 속도 | 4초 임계값 | — | 속도-오류 상관 미측정 |
| 학습 루프 | LEARNINGS 30% 효과 | error-ledger | 학습→개선 루프 미검증 |
관련 노트
- [[에이전트-메모리-학습-실측-원칙]] — 메모리·학습 측면 심화
- [[시스템운영-방법론-갭분석]] — 갭 분석 전체 현황
- [[paperclip-멀티에이전트-오케스트레이션]] — 비용 제어 방법론
- [[byterover-메모리-자동관리]] — 메모리 관리 방법론