virtual-insanity
← 뒤로

260312 xt (1개)

evergreen literature 2026-03-12

260312 xt 모음

x.com

원문

https://x.com/vitahyoso/status/2031670916489376103?s=20


[[260312_xt_b3d64a_ref|링크 참조]]


원문 내용

🔥와 ~~~~ 마이크로소프트가 노트북 하나로 100B AI 돌리는 ‘불가능’을 현실로 만들었다.

“Microsoft가 단일 CPU에서 100B(1,000억) 파라미터 LLM을 돌리는 inference framework를 오픈소스했다.

이름은 BitNet이다. 그리고 ‘불가능하다’고 여겨졌던 일을 실제로 해냈다.

GPU 필요 없음. 클라우드 필요 없음. 1만 달러짜리 고가 하드웨어도 필요 없음. 그냥 당신의 노트북 하나로 1,000억 파라미터 모델을 사람이 읽는 속도로 돌릴 수 있다.

작동 원리: 기존 모든 LLM은 가중치를 32비트나 16비트 float으로 저장한다. BitNet은 1.58비트만 쓴다.

가중치가 삼진법(ternary)이다. -1, 0, +1. 그게 전부. float도 없고, 복잡한 행렬 연산도 없다. CPU가 원래 잘하는 순수 정수 연산만 사용한다.

결과:

  • 100B 모델이 단일 CPU에서 5~7 tokens/sec로 돌아감 (사람 읽기 속도)

  • x86 CPU에서 llama.cpp 대비 2.37~6.17배 빠름

  • x86 CPU에서 에너지 소비 82% 감소

  • ARM (맥북)에서 1.37~5.07배 속도 향상

  • 메모리 사용량 full-precision 대비 16~32배 감소

가장 미친 점:

정확도가 거의 떨어지지 않는다.

그들의 플래그십 모델 BitNet b1.58 2B4T는 4조 토큰으로 학습됐고, 같은 크기의 full-precision 모델과 벤치마크에서 경쟁력 있는 성능을 보인다. 양자화가 품질을 망가뜨린 게 아니라, 그냥 불필요한 부풀림을 제거한 것뿐이다.

이게 실제로 의미하는 것:

  • 완전 오프라인 AI 실행 → 데이터가 기계 밖으로 절대 안 나감

  • 스마트폰, IoT 기기, 엣지 하드웨어에 LLM 배포 가능

  • 클라우드 API 비용 완전 사라짐

  • 인터넷이 불안정한 지역에서도 AI 사용 가능

ARM과 x86 모두 지원. 맥북, 리눅스, 윈도우 다 됨.

GitHub 스타 27.4K, 포크 2.2K. Microsoft Research 제작.

100% 오픈소스, MIT 라이선스.

관련 노트

  • [[260323_reddit]]
  • [[260323_moltbook]]
  • [[260321_moltbook]]
  • [[260305_xt]]
  • [[260219_xt]]
  • [[250123_xt]]
  • [[260225_xt]]
  • [[260218_xt]]
  • [[260322_moltbook]]
  • [[260322_reddit]]
  • [[260319_tg]]
  • [[260322_rss]]
  • [[260320_rss]]
  • [[260324_rss]]
  • [[260321_rss]]