virtual-insanity
← 뒤로

터보퀀트는 KV 캐시를 최소 6배까지 줄여 동일 수준 정확도 달성. 폴라

seedling literature 2026-03-29

터보퀀트는 KV 캐시를 최소 6배까지 줄여 동일 수준 정확도 달성. 폴라퀀트는 약 4배 압축으로 유사 정확도. 해석: 기존 4배 기법에서 터보퀀트로 6배 압축 향상.


TurboQuant: Redefining AI efficiency with extreme compression

We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Our researchers drive advancements in computer science through both fundamental and applied research. We regularly open-source projects with the broader research community and apply our developments to Google products. Publishing our work allows us to share ideas and work collaboratively to advance the field of computer science. We make products, tools, and datasets available to everyone with the goal of building a more collaborative ecosystem. Supporting the next generation of researchers through a wide range of programming. Participating in the academic research community through meaningful engagement with university faculty. Connecting with the broader research community through events is essential for creating progress in every aspect of our work. Home

        Blog


















    TurboQuant: Redefining AI efficiency with extreme compression




        March 24, 2026 Amir Zandieh, Research Scientist, and Vahab Mirrokni, VP and Google Fellow, Google Research We introduce a set of advanced theoretically grounded quantization algorithms that enable massive compression for large language models and vector search engines. Vectors are the fundamental way AI models understand and process information. Small vectors describe simple attributes, such as a point in a graph, while “high-dimensional” vectors capture complex information such as the features of an image, the meaning of a word, or the properties of a dataset. High-dimensional vectors are incredibly powerful, but they also consume vast amounts of memory, leading to bottlenecks in the key-value cache, a high-speed "digital cheat sheet" that stores frequently used information under simple labels so a computer can retrieve it instantly without having to search through a slow, massive database. Vector quantization is a powerful, classical data compression technique that reduces the size of high-dimensional vectors. This optimization addresses two critical facets of AI: it enhances vector search, the high-speed technology powering large-scale AI and search engines, by enabling faster similarity lookups; and it helps unclog key-value cache bottlenecks by reducing the size of key-value pairs, which enables faster similarity searches and lowers memory costs. However, traditional vector quantization usually introduces its own "memory overhead” as most methods require calculating and storing (in full precision) quantization constants for every small block of data. This overhead can add 1 or 2 extra bits per number, partially defeating the purpose of vector quantization. Today, we introduce TurboQuant (to be presented at ICLR 2026), a compression algorithm that optimally addresses the challenge of memory overhe

![[og_TurboQuant_Redefining_AI_effic.jpg]]

출처: https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

이미지는 가로 막대형 비교 차트입니다. 각 막대는 방법(또는 구현) 이름과 괄호 안에 KV 값이 붙어 있으며, 막대 끝에 수치(값)가 표시되어 있습니다. 축과 범례 정보, 막대별 색상, 값과 순서는 다음과 같습니다.

  • 전체 구성
  • 그래프 방향: 가로 막대(막대가 왼쪽에서 오른쪽으로 늘어남).
  • x축 눈금 범위: 48.0에서 51.0 사이(표시된 눈금 48.0, 48.5, 49.0, 49.5, 50.0, 50.5, 51.0 수준).
  • 범례(오른쪽): 파란색 = KIVI, 주황색 = TurboQuant, 연두색 = Full Cache, 빨간색 = PolarQuant.

  • 막대별 항목(위에서 아래 순서)

  • KIVI (KV: 5.0) — 색: 파란색. 값: 50.16. (그래프에서 최상단, 가장 큰 값)
  • TurboQuant (KV: 3.5) — 색: 주황색. 값: 50.06.
  • Full Cache (KV: 16.0) — 색: 연두색(녹색 계열). 값: 50.06. (TurboQuant 3.5와 동일한 값)
  • PolarQuant (KV: 3.9) — 색: 빨간색. 값: 49.78.
  • TurboQuant (KV: 2.5) — 색: 주황색(같은 계열). 값: 49.74.
  • KIVI (KV: 3.0) — 색: 파란색. 값: 48.50. (그래프에서 최하단, 가장 작은 값)

  • 수치·추세 관찰(원자화된 사실)

  • 최댓값은 KIVI (KV:5.0)로 50.16이다.
  • 두 항목(TurboQuant KV:3.5와 Full Cache KV:16.0)은 동일한 값 50.06을 기록한다.
  • 최솟값은 KIVI (KV:3.0)로 48.50이다.
  • 전체 값의 범위(최댓값 − 최솟값)는 50.16 − 48.50 = 1.66이다(변동 폭이 작음).
  • 중간값 근처에 모여 있다: 대부분 값이 49.7~50.2 사이에 분포한다.
  • 같은 기법 이름(TurboQuant, KIVI)이 서로 다른 KV 값으로 두 번 등장하며, KV 값에 따라 측정값이 달라진다(예: KIVI KV5.0 = 50.16 vs KIVI KV3.0 = 48.50).
  • 색상별 범주(범례)는 그래프의 항목 색과 일치하여 읽기 쉽게 구성되어 있다.

  • 추가 시각적 정보

  • 각 막대 오른쪽 끝에 값(소수점 둘째 자리까지)이 검은 글씨로 직접 표시되어 있다.
  • 막대 길이는 수치와 일치하게 정렬되어 있으며, 눈금선과 값 위치로 비교가 용이하다.

요약: 차트는 서로 다른 방법과 KV 설정에서 얻은 값들을 가로 막대로 비교한 것이며, 최고값은 KIVI(KV 5.0) 50.16, 최저값은 KIVI(KV 3.0) 48.50이고 전체 차이는 1.66으로 작아 항목 간 차이가 크지 않습니다.

![[file_774---5c1122d2-8bbf-4e16-bc0e-0fb6a0c20708.jpg]]