Plano — 복잡도 기반 LLM 자동 라우팅
Arch-Router-1.5B 모델이 각 프롬프트의 복잡도를 판단해 최적 LLM으로 자동 라우팅. LLM 비용 50% 절감.
핵심 아이디어
프록시 레이어에서 프롬프트 복잡도를 실시간 분류: - 단순 쿼리 → 경량 모델 (gpt-4o-mini 등) - 복잡한 추론 → 고성능 모델 (Opus, gpt-5 등)
사람이나 코드가 모델을 명시하지 않아도 자동 최적화.
GitHub
https://github.com/katanemo/plano
현재 우리 시스템과의 갭
| 항목 | Plano | 현재 shared/llm.py |
|---|---|---|
| 라우팅 방식 | Arch-Router-1.5B 자동 분류 | 수동 2단계 체인 (DEFAULT/PREMIUM) |
| 판단 기준 | 프롬프트 복잡도 (ML 모델) | 코드 내 명시적 체인 선택 |
| 폴백 | 자동 | 오류 시 순차 폴백 |
| 비용 최적화 | 복잡도별 자동 배분 | PREMIUM 체인 명시 시에만 |
현재 구현
DEFAULT_MODEL_CHAIN: Copilot → OpenRouter → Ollama
PREMIUM_MODEL_CHAIN: Gemini → Copilot → OpenRouter → Ollama
문제: 단순 쿼리도 DEFAULT 첫 번째 모델 호출. 복잡도 기반 분기 없음.
적용 가능 지점
shared/llm.py에 복잡도 분류 레이어 추가 (간단한 규칙 기반이라도)- 태스크 body 길이/키워드로 DEFAULT vs PREMIUM 자동 선택
- 장기적으로 Arch-Router 통합 검토
참고 자료
- GitHub: https://github.com/katanemo/plano
- 원문 트윗: [[260225_xt]].md
관련 노트
- [[260225_xt]]