virtual-insanity
← 뒤로

Plano — 복잡도 기반 LLM 자동 라우팅으로 비용 50% 절감

budding judgment

Plano — 복잡도 기반 LLM 자동 라우팅

Arch-Router-1.5B 모델이 각 프롬프트의 복잡도를 판단해 최적 LLM으로 자동 라우팅. LLM 비용 50% 절감.

핵심 아이디어

프록시 레이어에서 프롬프트 복잡도를 실시간 분류: - 단순 쿼리 → 경량 모델 (gpt-4o-mini 등) - 복잡한 추론 → 고성능 모델 (Opus, gpt-5 등)

사람이나 코드가 모델을 명시하지 않아도 자동 최적화.

GitHub

https://github.com/katanemo/plano

현재 우리 시스템과의 갭

항목 Plano 현재 shared/llm.py
라우팅 방식 Arch-Router-1.5B 자동 분류 수동 2단계 체인 (DEFAULT/PREMIUM)
판단 기준 프롬프트 복잡도 (ML 모델) 코드 내 명시적 체인 선택
폴백 자동 오류 시 순차 폴백
비용 최적화 복잡도별 자동 배분 PREMIUM 체인 명시 시에만

현재 구현

DEFAULT_MODEL_CHAIN: Copilot → OpenRouter → Ollama PREMIUM_MODEL_CHAIN: Gemini → Copilot → OpenRouter → Ollama

문제: 단순 쿼리도 DEFAULT 첫 번째 모델 호출. 복잡도 기반 분기 없음.

적용 가능 지점

  1. shared/llm.py에 복잡도 분류 레이어 추가 (간단한 규칙 기반이라도)
  2. 태스크 body 길이/키워드로 DEFAULT vs PREMIUM 자동 선택
  3. 장기적으로 Arch-Router 통합 검토

참고 자료

  • GitHub: https://github.com/katanemo/plano
  • 원문 트윗: [[260225_xt]].md

관련 노트

  • [[260225_xt]]