[[엔비디아]] GTC Preview : 새로운 시대, 새로운 패러다임
채널: 사피엔스에셋 | 날짜: 원문: https://contents.premium.naver.com/sapiens/sapiensasset/contents/260311194613343ld
![[_attachments/2026-03/260311194613343ld_thumb.png]]
본문
안녕하세요 올바른입니다.
엔비디아 GTC 2026 Preview입니다. 다음주에 시작될 GTC 2026을 앞두고 지금까지 중요하게 생각하는 것들, 이번 이벤트에서 중요하게 봐야 하는 카테고리들을 정리했습니다.
추론의 시대에 엔비디아가 제시하는 다음 트렌드는 어디인지, 숨겨진 X Factor인 CPX와 LPX의 역할, 현재 인프라의 병목을 해결하기 위한 두 가지 시스템에 대해서 살펴봤습니다.
6개의 칩 그러나 하나로 설계된 Vera Rubin의 시대가 시작됩니다. 추론의 시대에서 무엇이 중요한가에 대한 힌트 그리고 다음주를 준비하는 자료로서 준비해봤습니다.
SemiAnalysis 인터뷰
2026-03-05
AI 사이클 한 눈에 보기, SemiAnalysis 인터뷰 : "거품은 없다. ARR $100B가 온다"
2025-09-26
AI 사이클 한 눈에 보기, SemiAnalysis 인터뷰 : 승부사 젠슨황 그리고 화웨이의 역습 (바로가기)
엔비디아 ([[NVDA]]) 실적발표
2026-02-26
엔비디아 4Q25 실적발표 : 담백한 실적발표, 핵심은 모두 그린라이트 (바로가기)
2025-11-20
엔비디아 3Q25 실적발표 : 2026년 말까지 "SOLD OUT", 젠슨황의 $500B 매출 확신 (바로가기)
최근의 AI Labs 지형도
2026-02-25
AI 인프라 1GW의 경제학 : 엔비디아의 '현금' vs AMD의 '워런트' (바로가기)
2026-02-22
네오클라우드 뜯어보기 #2 : 새로운 시대의 AI 계급도, 전력을 돈으로 바꾼 Powered Shell (바로가기)
2026-02-10
네오클라우드 뜯어보기 : GPU 임대의 경제학, 네오클라우드 BIG 4 비교분석 (바로가기)
AI HW 분석자료
2025-01-21
추론의 시대, 핵심이 된 메모리 : 메모리 쇼티지를 떠받치고 있는 힘 (바로가기)
2026-01-07
엔비디아 CES 2026 : Vera Rubin의 시대, ICMS가 불러올 메모리 지각변동 (바로가기)
2026-01-02
엔비디아가 $20B를 주고 데려온 남자 : Groq 창업자 조나단 로스의 통찰 (바로가기)
2025-12-04
엔비디아 펀더멘탈 체크 : 구글 TPU의 추격? 시장점유율에 대한 생각, 아시아 공급망 체크 (바로가기)
투자자문 서비스에 따른 투자 시 원금 손실이 발생할 수 있으며, 투자 손익에 대한 책임은 전적으로 고객에게 귀속됩니다. 또한 과거의 투자수익이 미래의 수익률을 보장하지 않습니다.
신규 구독 전에, 아래 투자자문계약 권유문서의 계약 관련 제반 사항을 반드시 읽으시고 충분히 검토하시기 바랍니다.
*투자자문계약 권유문서 : https://naver.me/5ZST47Qf
목차
GTC 2026 Preview : 새로운 시대, 새로운 패러다임
AI Factory의 근간 Vera Rubin : 6개의 칩, 새로운 하나의 생태계
분산 추론의 시대를 열다 : Prefill-Rubin CPX / Decode-LPX
인프라의 병목을 해결하다 : CPO/NPO & [[NVIDIA]] ICMS
GTC 2026 Preview
새로운 시대, 새로운 패러다임
단일 칩의 시대를 넘어 선 'AI Factory'의 비교
이번 GTC 2026의 아젠다는 'AI 팩토리 아키텍처와 추론의 효율성'입니다.
젠슨황이 'AI Factory' 개념을 강조하기 시작했던 것은 GTC 2024부터였습니다. 기존의 데이터센터와 하는 일이 근본적으로 달라졌으니 인식도 바뀌어야 한다는 의미였습니다.
2년이 지난 지금, 젠슨황은 3월 4일 모건스탠리 TMT 컨퍼런스에서 다시금 AI Factory를 강조했습니다.
몇 년 전에 저는 사람들이 데이터센터라고 부르는 이러한 새로운 데이터센터는 데이터를 저장하는 곳이 아니라고 설명했습니다. 토큰을 생산하는 곳입니다.
즉, 토큰 생산을 근본적인 목적으로 하는 시설, 공장은 공장입니다. AI 공장인 거죠. 당시 사람들은 "젠슨, 그 표현 너무 거칠게 들리는데요. 깔끔하네요."라고 말했습니다. 하지만 토큰을 생산하는 곳이잖아요. 데이터센터를 짓는 것을 좋아하는 사람은 아무도 없습니다. 데이터센터에 투자해서 어떤 수익을 얻을 수 있을지 알 수 없기 때문이죠. 하지만 모두가 공장을 짓는 것을 좋아합니다. 그 이유는 공장이 돈을 벌어주기 때문입니다.
이제 우리는 이러한 공장들이 토큰을 직접 생성하고, 이 토큰은 현금화할 수 있다는 것을 확실히 알게 되었습니다. 컴퓨팅 자원이 많을수록 더 많은 토큰을 생산할 수 있고, 더 많은 토큰을 생산할수록 매출도 증가합니다. 기업의 매출은 컴퓨팅 자원과 직접적인 상관관계가 있다는 것을 이제 확실히 알게 되었습니다.
앤스로픽이 컴퓨팅 자원을 3배로 늘리면 매출도 3배로 증가할 것이라는 사실을 통해 이를 알 수 있습니다. 앤스로픽은 컴퓨팅 자원, 즉 공장 규모에 따라 제약을 받습니다. 메르세데스나 다른 어떤 회사든 공장 규모에 따라 제약을 받는 것과 마찬가지입니다. 따라서 공장에 더 많은 컴퓨팅 자원을 확보한다면 매출이 증가할 것입니다. 만약 OpenAI가 지금 당장 더 많은 컴퓨팅 능력을 보유하고 있다면, 더 높은 매출을 올릴 수 있을 것입니다. 따라서 컴퓨팅 능력이 매출과 직결된다는 생각이 먼저 들 수 있습니다. 물론, 컴퓨팅 능력이 GDP와 직결된다는 것도 잘 알려진 사실입니다. 컴퓨팅 능력은 한 국가의 GDP와 직결됩니다. 이것이 하나의 생각입니다.
두 번째 이유는 NVIDIA가 이토록 성공적인 이유는 시스템의 전체 스택을 엔드 투 엔드로 설계하고, 토큰을 놀라울 정도로 효율적으로 생성하도록 처음부터 아키텍처를 구축했기 때문입니다. NVIDIA의 와트당 토큰 생성량은 경쟁사 대비 몇 배(order of magnitude)나 앞서 있습니다.
와트당 토큰. 이게 무슨 의미일까요? 공장에 1기가와트의 전력이 있다고 가정해 봅시다. 와트당 토큰 생산량이 다른 대안보다 10배 높다면, 매출도 10배 증가합니다. 역사상 처음으로, 기업의 공장에 설치될 컴퓨터 아키텍처는 CEO의 검토를 거쳐야 합니다. 이 회사는 내년에 1GW 또는 2~3GW의 전력만 사용할 수 있습니다. 만약 잘못된 시스템을 설치한다면, 내년 매출에 심각한 영향을 미칠 것이기 때문입니다.
NVIDIA 아키텍처는 현재 매우 발전되어 있으며, SemiAnalysis라는 회사에서 실시한 가장 철저한 벤치마킹 결과, NVIDIA가 추론 성능의 왕으로 선정되었습니다. 추론 성능의 왕은 초당 토큰 생산량, 와트당 토큰 생산량, 즉 토큰과 달러당 토큰 생산량으로 결정됩니다. 와트당 성능이나 그 어떤 요소든 경쟁사나 대안보다 훨씬 뛰어난 성능을 자랑하는 만큼, 달러당 토큰 가격 또한 최고 수준입니다. 즉, 현재 생산 가능한 토큰 중 가장 저렴하며, 그 어떤 경쟁사보다 월등히 뛰어납니다.
그래서 두 번째 생각은 이렇습니다. AI에 대한 두 번째 중요한 아이디어는 AI가 공장과 같다는 것입니다. 공장은 항상 전력 용량에 제한이 있습니다. 공장이 아무리 많더라도 각 공장의 용량은 여전히 100메가와트 또는 기가와트입니다. 따라서 와트당 수익은 기업의 매출에 있어 가장 중요한 요소입니다. 기업은 이러한 결정을 매우 신중하게 내려야 합니다. 더 이상 파워포인트 슬라이드만으로는 충분하지 않습니다. 누군가의 파워포인트 슬라이드만 보고 500억 달러를 투자할 사람은 없을 것입니다.
2026-03-04, 엔비디아 Morgan Stanley TMT 컨퍼런스 콜 中
AI 팩토리 단위를 다시 한 번 강조하는 이유는 더 빠르고 강력한 하나의 칩을 발표하는 행사가 아니라, 훈련부터 추론의 과정을 데이터센터 단위로 관리하는 시스템의 완성도가 중요해졌다는 의미입니다.
GTC 2024 → GTC 2026
엔비디아는 GTC 2024에 처음으로 Blackwell을 공개했습니다. GB200 NVL72부터는 HGX 8-GPU 랙의 한계를 넘어서 단일 랙에 72개의 Blackwell GPU와 36개의 Grace CPU를 탑재해, 훈련 및 추론 비용을 크게 절감하고 백만 토큰당 비용을 획기적으로 낮췄던 시스템이었습니다.
시간이 흘러 이제는 LLM 아키텍처는 MoE, 거대 컨텍스트 환경에서의 Reasoning, Agentic AI 워크플로우, 실시간 오디오 및 비디오 처리를 포함한 초거대 모델을 지원해야 합니다. 결국은 'TCO 대비 퍼포먼스'라는 하나의 기준으로 본다지만 여기서 '퍼포먼스'는 굉장히 다양합니다.
단순히 Dense 기준 피크 FLOPS를 측정하는 것이 아니라, 각종 모델 및 워크로드별로 MFU(모델 FLOPS 활용률), TTFT(Time-to-First-Token), ITL(Inter-token Latency),TPS(Token per second), 와트당 토큰 수(token/watt), 토큰당 비용(token/$) 같은 실질 서비스 관점에서의 지표들이 더욱 중요합니다.
이에 엔비디아는 GTC 2025에 선보인 NVIDIA Dyanmo부터 서비스 지표를 더 강조 중입니다. 또한 더 나아가서 Rubin은 흐름에 맞게 처음부터 하나의 랙/시스템으로 통합되어 판매할 것을 기준으로 공동 설계했습니다. 소프트웨어로 병목을 보완하는 것이 아니라, 모든 칩 구성요소의 기능과 배치를 설계 단계에서부터 같이 조율했습니다. CPU, GPU, NVLink 6, ConnextX-9 NIC, BlueField-4가 하나의 시스템인 제품입니다.
AI Factory의 근간 'Vera Rubin'
6개의 칩, 새로운 하나의 생태계
Vera Rubin : Extreme Co-design
Rubin GPU
Vera CPU
NVLink 6 Switch
ConnectX-9 SuperNIC
BlueField-4 DPU
Spectrum-X Ethernet Switch
올해 Blackwell/Rubin 중 NVL랙 형태로 판매될 물량이 85% 이상일 것으로 예상합니다. 일부 HGX 판매는 이어지겠지만 대부분이 고객사들에게 NVL랙 형태로 판매될 것입니다. 이제 엔비디아 CPU, GPU, Switch, NIC, DPU, Ethernet Switch까지 모두 합친 랙 제품이 새로운 최소 단위입니다.
이 과정에서 엔비디아는 세계 1위의 GPU 기업을 넘어 Scale-up, Scale-out에서도 시장 점유율 1위를 차지했고 → 더 나아가서는 이제 Rubin과 함께 DPU, NIC, CPU(하이엔드 기준)에서도 1위를 노리고 있습니다.
VR200 NVL72 : 다시 한 번 토큰 생성비용을 10분의 1로 줄일 것
왼쪽 차트는 10조 개의 파라미터 모델 훈련에 필요한 GPU의 수를 비교한 것입니다. xAI의 Grok 5가 대략 7조 개 파라미터이기 때문에 프론티어 모델 훈련 상황을 살펴보기에 꽤 적절한 차트입니다. 프론티어 모델의 훈련 시간 단축은 곧 AI 기업의 비용 절감과 직결됩니다. 모델 출시 속도가 빨라질수록 시장 장악력과 추론 마진율을 높게 가져갈 수 있기 때문입니다. 차트로 보시면 동일 시간 기준, VR200 NVL72은 기존 GB200 대비 4분의 1의 GPU로도 훈련이 가능할 만큼 획기적인 퍼포먼스를 보여줍니다.
중간과 오른쪽 차트는 데이터센터 단위에서 낼 수 있는 토큰 처리량(Throughput)을 보여주는 차트입니다. 같은 전력, 같은 달러를 투입했을 때 얼마의 Throughput이 나오느냐가 'TCO 대비 퍼포먼스'의 핵심입니다. 엔비디아는 Kimi K2-Thinking(Reasoning) 모델 기준 GB200 NVL72에 비해서 10배 더 많은 Throughput을 달성했음을 강조했니다. 바꿔서 말하자면 하나의 토큰을 만드는 데 드는 비용은 10분의 1로 낮아졌다는 의미입니다.
같은 Hopper 대비 Blackwell에서 토큰 생성비용을 10분의 1로 낮췄었는데 → Blackwell 대비 Rubin에서 다시 한 번 토큰 생성비용을 10분의 1로 낮출 것입니다.
두 개의 SKU : Max-Q, Max-P
2025년 10월 중순에 전해드린 내용처럼 Rubin GPU는 Max-Q와 Max-P 버전으로 출하될 예정입니다. Max-Q는 칩은 1800W/랙은 190kW이고, Max-P는 칩은 2300W/랙은 230kW입니다. 둘 다 GB200 NVL72의 칩 1200W/랙 120kW 및 GB300 NVL72의 칩 1400W/랙 140kW보다는 크게 높습니다.
공냉식으로 나갔던 HGX용 GB200은 1000W이기도 했으니, Blackwell TDP 1000~1400W에 비해서 Rubin에서는 최대 2300W까지 매우 크게 높아진 것입니다. 하지만 이는 별개의 SKU는 아니고 사용자가 워크로드 요구 사항에 따라서 엔비디아가 제공하는 두 가지 전력 프로필입니다.
Max-Q가 전성비가 가장 좋은 상태가 될 것이며, Max-P는 최고 성능을 내지만 전성비는 떨어지는 구조입니다. 랙 전력 소모가 20% 증가하지만 성능 향상은 20%에 못미치기 떄문입니다. 이러한 전력은 소프트웨어로 관리될 예정이고 사용자가 원하는 최대 전력을 설정할 수도 있습니다(이건 Blackwell에서도 제공). 여러 하이퍼스케일러들은 전성비를 중요하게 생각하고 있으므로 Max-Q 프로필로 사용할 것으로 예상합니다.
Vera Rubin 컴퓨트 트레이의 재설계 : '2시간 → 5분'
엔비디아가 Vera Rubin부터는 이전 HGX H100 → GB200 NVL72 Trasnsition에서 겪었던 오류를 다시 범하지 않고자 L10 Compute Tray를 엔비디아가 직접 공급하고 이 조립 과정에서도 아예 대량생산에 특화된 구조를 설계했습니다.
VR200 Compute Tray는 케이블, 호스, 팬이 없습니다. 이전에는 수작업이 필요했던 것들을 최대한 대량생산에 적합하도록 만들어서 트레이 1개당 2시간씩 걸리던 생산시간을 5분으로 단축시켰습니다. L10 Compute Tray를 엔비디아가 직접 생산하여 서버 기업들에게 공급함으로써 얻는 이점은 크게 두 가지입니다.
생산 병목 해결 : 현재 GB200 NVL72 랙은 Foxconn, Wistron 같은 서버 ODM이 Compute Tray 등을 조립/생산하고 있습니다. 하지만 이 과정에서 수율이 기대만큼 오르지 못하고 생산 병목 현상이 발생하자, 엔비디아는 차세대 랙의 폭발적인 생산량 증가를 위해서는 이 문제를 직접 해결해야 한다고 판단했습니다. 그리고 앞으로 더욱 더 전력밀도나 냉각밀도가 높아질 것이므로 개별 기업들의 R&D로는 충분히 해결되지 않으니 데이터센터 단위에서도 충분히 잘 작동하도록 하는 과정이기도 합니다.
마진 극대화 : 엔비디아가 L10 Compute Tray를 직접 생산해 공급하면, 더 많은 공급업체가 관여하며 발생하는 변수를 통제할 수 있습니다. 이는 수율과 양산 리드타임을 직접 컨트롤하는 동시에, 기존에 파트너사가 가져가던 마진까지 엔비디아가 흡수할 수 있음을 의미합니다. NVL72를 통해서 NVLink를 Scale-up의 핵심으로 만들고 엔비디아가 그 과정에서 CPU 및 네트워킹 제품에 대한 매출 및 마진을 가져가는 것과도 비슷한 맥락입니다. 물론 이 모든 과정에는 TCO 대비 퍼포먼스를 끌어올리기 위한 고민이 제1이겠지만 그 속에서 매출과 마진에도 순풍이 부는 구조를 설계했습니다.
분산 추론의 시대를 열다
Prefill-Rubin CPX / Decode-LPX
추론의 워크로드를 계층화하다
전통적인 LLM 추론에서는 하나의 GPU(또는 하나의 클러스터)가 사용자의 긴 질문을 읽는 Prefill 단계와, 답변을 한 글자씩 뱉어내는 Decode 단계를 모두 처리했습니다. 하지만, 두 작업은 사실 하드웨어에 요구하는 특성이 완전히 다릅니다.
Prefill : 한 번에 대량의 텍스트를 병렬로 처리하므로 막대한 연산 능력(Compute-bound)이 필요합니다.
Decode : 앞선 결과를 기다려야 하는 순차적 작업(Autoregressive)이므로 연산량은 적지만, 메모리에서 데이터를 얼마나 빨리 가져오느냐(Memory-bound)가 관건입니다.
*왜 Prefill, Decode가 필요한가는 Transformer 아키텍처의 Attention 매커니즘부터 거슬러 올라가야 합니다
이렇게 Prefill과 Decode로 서로 다른 성격의 작업을 분리하는 것이 Disaggregated Inference(Serving)입니다. 이러한 Disaggregated inference이 언제쯤부터 기술적으로 부각받기 시작했는가 생각해보면 2023년 11월 30일 Microsoft Research 팀에서 올렸던 Splitwise로 거슬러 올라갑니다.
당시 논문의 핵심을 정리하면,
입력된 프롬프트 전체를 계산하여 첫 토큰을 만드는 Prefill은 컴퓨팅/FLOPS가 가장 중요하므로 H100과 같은 고성능 GPU에 할당합니다. 반면, 이후 토큰을 하나씩 생성하는 Decode 단계는 연산량보다 메모리 대역폭이 중요하므로 A100이나 그보다 낮은 전력의 이전 세대 GPU에 할당하여 처리합니다.
이렇게 LLM 추론 요청의 Prefill, Decode를 서로 다른 머신으로 분리하여서 Prefill은 H100으로 추론하고 Decode는 A100으로 추론할 경우, 기존 설계 대비 1.4배 높은 Throughput을 20% 낮은 비용을 달성할 수 있고, 동일한 비용 및 전력으로 2.35배 높은 Throughput을 낼 수 있다는 논문이었습니다.
AI Labs나 하이퍼스케일러들은 자체 소프트웨어를 개발해 disagg 환경을 구축해왔으나, 2025년부터는 엔비디아가 이를 오픈소스 추론 프레임워크인 NVIDIA Dynamo로 출시했습니다. 엔비디아 GPU를 쓰는 모두가 disagg를 쓸 수 있게끔 훨씬 간편하게 만든 것입니다.
이처럼 효율적인 추론 워크로드 분리를 위해서는 KV Cache, LLM 인식 라우팅, 메모리 관리가 하드웨어~소프트웨어~네트워킹에 이르기까지 완벽하게 연동되어야 합니다. NVIDIA Dynamo는 이처럼 복잡한 인프라 요소들을 하나로 통합하고 조율하는 중추적인 역할을 담당합니다. Dynamo는 ⓐPlanner(워크로드별로 Prefill, Decode 중 어디가 병목인지를 파악하여 결정), ⓑSmart Router(KV Cache 관리를 통해 Cache hit rate를 올림), ⓒDistributed KV Cache Manager(KV Cache를 자주 쓰는 순서대로 GPU, CPU, 서버 DRAM, SSD 등으로 오프로드) ⓓNVIDIA Inference Transfer Library("NIXL", 각종 노드 간 저지연 고처리량 통신)이 핵심입니다.
아무튼, 이런 과정들을 통해서 엔비디아는 소프트웨어와 네트워킹적으로 분산 추론(Disaggregated Inference)을 가능하게 하는 인프라를 완벽히 설계해내고 서비스하고 있습니다.
그런데 여기 뭔가 빠져있습니다. 가장 중요한 하드웨어가 없었습니다.
엔비디아가 가려는 길
그런데 이러한 분산추론의 장점을 온전히 살리려면 워크로드별로 특화된 칩들을 통해서 추가적인 가속이 필요합니다. 이것이 CPX와 LPX입니다. 엔비디아는 Rubin의 6개 칩으로 구성한 시스템에서 범용 GPU의 장점은 그대로 살리되, Prefill에서는 CPX를 통해서 워크로드를 가속하고, Decode에서는 Groq에서 가져온 LPX를 통해 워크로드를 가속하여 전체적인 병목을 최소화하려는 방향입니다. 새로운 X Factor의 등장입니다.
Prefill 병목을 해결할 : Rubin CPX (26년 7월쯤부터 생산, 8월부터 양산)
생성형 AI 애플리케이션에 대한 수요가 늘어나고 고도화되면서, 모델이 한 번에 처리해야 하는 정보의 양이 급증하고 있습니다. 장문의 문서나 방대한 비디오 데이터를 소화하기 위해 이제는 수백만 토큰 규모의 컨텍스트 윈도우가 필요해졌습니다.
하지만 기존 단일 GPU의 FLOPS나 HBM 업그레이드를 갖고는, 높아질 TCO 대비 Prefill 단계의 퍼포먼스 향상폭이 비용효율적이지 않은 구조였습니다. Prefill은 메모리의 용량이나 대역폭보다는 높은 FLOPS를 집중적으로 요구하기 때문입니다. 이러한 병목 현상을 해결하기 위해 엔비디아는 Prefill 워크로드만을 고속으로 처리하는 데 특화된 전용 칩 CPX를 개발했습니다.
각각의 'Rubin CPX GPU'는 6개의 32GB GDDR7를 통합하여 최대 96GB에 1TB/s 대역폭을 제공할 것으로 예상됩니다. 범용으로 쓰이는 Rubin GPU의 HBM4 288GB 22TB/s 대역폭과 비교하면 크게 낮지만, Prefill은 연산 능력에 의해 주로 병목이 발생하는 분야이기에 상관없습니다.
*원래 Prefill에서는 가장 앞선 HBM 세대 대역폭을 100% 활용하지 못하고 있었습니다. Decode는 자기회귀적 특성이 있어서 순차적으로 토큰이 나오는 구조이지만, Prefill은 한 번에 병렬로 처리가 가능해서입니다.
Rubin CPX GPU에 탑재될 것으로 예상됐던 GDDR7는 GB당 비용이 낮고 2.5D 패키징이 필요하지 않기에 GDDR7을 택했습니다. 다만, 최근에 Conventional DRAM 가격이 워낙 크게 오르다보니 2025년 12월부터는 HBM3E처럼 이전 세대의 HBM을 탑재하는 버전도 함께 고려되고 있는 것으로 파악되기에 최종 CPX는 어떤 버전으로 나올지 정확한 예상치가 없습니다. 메모리 대역폭을 다 활용을 못하고 있던 것일뿐 여전히 필요하고, HBM은 연간 고정가로 물량을 공급받을 수 있다는 점에서 엔비디아는 긍정적으로 검토 중입니다.
Vera Rubin CPX 랙 (4Q26 출하 예정)
Vera Rubin NVL144 CPX 랙 구성입니다.
18개의 Compute Tray에 걸쳐서, 144개의 Rubin GPU, 144개의 CPX GPU가 탑재되어 있습니다.
트레이당으로 보면 총 2개의 Vera CPU + 8개의 Rubin CPX GPU가 탑재되어 있습니다.
전체 랙당으로 보면 8 EFLOPS의 NVFP4 컴퓨팅 성능, 100TB의 메모리 용량, 1.7PB/s 대역폭입니다.
엔비디아는 CPX 가속기를 독립형 랙으로 제공할 것으로 보입니다. 독립형 랙으로 설계했기에 하이퍼스케일러들은 Prefill 및 Decode 부하에 따라서 어느 쪽의 칩을 더 많이 넣을 것인지를 설계할 수 있게 됐습니다. 데이터센터 전력 소비를 최적화할 수 있으며, 시스템 수준의 장애 가능성도 낮출 수 있습니다.
Decode 병목을 해결할 : Groq을 녹인 'LPX'
엔비디아는 Groq LPU 기술을 라이선스하고 Groq 창업자 및 핵심 엔지니어들을 $20B를 주고 인수했습니다. LPU를 가져와 엔비디아는 LPX라는 칩으로 출시할 것으로 예상됩니다. Groq의 아키텍처는 대용량 메모리를 칩 내부에 직접 탑재하고, 순차적인 추론에 최적화된 결정론적인 실행 시스템 덕분에 기존의 GPU 기반에서 생겼던 병목을 해결하는 시스템입니다.
강점을 요약하자면 낮은 지연시간으로 추론할 수 있다는 것입니다. 이를 가능케하는 Groq의 핵심역량은 크게 세 가지입니다. ⓐsoftware-first, ⓑdeterministic compute and networking, ⓒon-chip SRAM입니다.
편하게 설명을 드리려면 ⓒSRAM의 하드웨어적인 한계를 먼저 풀고나서 그리고 ⓐⓑ결정론적 컴퓨팅과 소프트웨어를 설명드리는 게 좋을 것 같습니다.
On-chip SRAM
SRAM의 장점과 한계점도 분명합니다. SRAM의 대역폭은 HBM보다 훨씬 높고 지연시간도 상당히 짧습니다. 하지만 용량이 제한적이고, GB당 비용은 HBM보다 10배 이상 높습니다. Groq 1세대 칩은 230MB의 SRAM이 통합되어 있는데, 랙당 576개의 LPU를 하나로 묶어도 용량은 132.5GB 정도밖에 되지 않습니다. B200 단일 칩의 HBM 용량 192GB보다도 작은 규모입니다.
이미 GroqNode 랙스케일 제품 자체에서도 SRAM 용량 제약으로 인해 고성능 CPU(AMD EPYC 7313 2개) 및 대용량 DDR 메모리 풀(1TB DDR4-3200 ECC DRAM & 7.68TB PCIe NVMe SSD)과의 조합으로 랙을 구성했었습니다. HBM, 서버 DRAM, NAND 등의 역할을 대체하진 않는다는 의미입니다.
GPU+HBM 조합은 기본적으로 High Throughput에 초점을 맞추고 있고, LPU+On-chip SRAM 조합은 기본적으로 Low Latency에 초점을 맞추고 있습니다. High throughput과 Low Latency에는 trade-off가 있어서 엔비디아 입장에서는 Low Latency를 요구하는 특정 워크로드에 대응할 수 없던 상태였는데 이 빈자리를 정확히 채웠습니다. <엔비디아가 $20B를 주고 데려온 남자 : Groq 창업자 조나단 로스의 통찰>을 참고하시면 좋습니다.
결정론적 컴퓨팅 및 네트워킹
여기서 중요한 건 ⓐⓑ결정론적 컴퓨팅 및 네트워킹(deterministic compute and networking)과 이를 가능케하는 소프트웨어입니다. 칩이 작동하기 전에 컴파일러가 데이터의 이동과 연산 스케줄을 100% 미리 계획합니다. 실행 중 발생하는 병목이나 대기 시간이 없으므로, 토큰 단위의 생성 속도가 극단적으로 빠릅니다.
AI 추론에서 현재 비용이 높아지는 건 컴퓨팅 그자체라기보다 각종 기다림으로 인해서 생기는 비용이 늘고 있기 때문입니다. 기다림의 비용을 줄이기 위해서 메모리(HBM, LPDDR5, GDDR5)도 GPU와 더 가까이에 더 많이 집어넣으려 하는 것이고, 그래서 네트워킹/인터커넥트에도 더 투자하는 것입니다.
이런 관점에서 Groq은 아예 메모리 계층을 극단적으로 단순화하고, 실행의 변동성 자체를 소프트웨어로 제거하는 강점을 가진 시스템을 가졌습니다. 엔비디아는 이를 Vera Rubin 그리고 그 이후의 Feynman과 녹여내어 전체의 퍼포먼스를 끌어올릴 예정입니다.
특정 추론 구간을 SRAM/결정론적 실행으로 빠르게 처리해주는 별도의 레인을 만드는 것입니다. Rubin CPX가 Prefill을 가속화하기 위한 작업이라면, LPX(가칭)은 Decode를 가속화하기 위한 것에 쓰일 것으로 예상합니다. 이제 단일 GPU나 ASIC의 최적화를 넘어서 시스템 전체의 분산 추론(Disaggregation)과 스마트 라우팅(Routing)이 새로운 X Factor가 될 것이란 예상입니다. 오픈AI의 GPT-5에서도 작업별 성격에 따라 라우팅이 중요했던 것처럼 하드웨어 인프라에서도 비슷한 길을 가고 있습니다.
결정론적 작업은 Groq LPU : Decode에서 토큰을 하나씩 반복적으로 생성하는 작업이나, MoE(Mixture of Experts) 모델에서 어떤 전문가 모델을 호출할지 결정하는 Gating 네트워크처럼 예측 가능하고 동시성이 높은 작업이 이곳으로 배정됩니다. Low Latency가 필요하 분야입니다.
동적 스케줄링 작업은 Rubin GPU : 각종 동적이고 복잡한 스케줄링이 여전히 필요한 작업에서는 막대한 메모리 용량을 가진 Rubin GPU 및 기존의 엔비디아 칩들의 몫입니다. 하이엔드이자 다기능 워크로드는 여전히 GPU를 대체할 수 없습니다. High Throughput이 필요한 분야입니다. 그리고 Prefill에 한해서는 컨텍스트 처리를 대신해줄 Rubin CPX가 도와줄 것입니다.
결과적으로는 두 차선 모두 꽉차게 될 것이라 예상합니다. 토큰 추론비용이 낮아짐으로 인해서 생기는 제번스의 역설로 하여금 AI 워크로드를 더욱 더 빠르게 늘릴 것이기 때문입니다.
Groq의 추론 성능을 극한까지 끌어올리기 어려웠던 이유는 데이터 흐름을 설계함에 있어서 컴파일러/소프트웨어~네트워킹 단위에서의 작업을 오차없이 맞추기 어려웠기 때문입니다. 그런데 그런 역량을 가장 많이 갖고 있는 팀이 엔비디아이기에, 엔비디아의 IP와 만나서 시너지를 크게 끌어올릴 수 있을 것이란 기대를 하고 있습니다. 어떤 모습으로 녹여낼 것인지에 대한 답을 제시할, GTC 2026을 기대해봅니다.
인프라의 병목을 해결하다
CPO/NPO & NVIDIA ICMS
GTC 2026에서 주목받을 또 하나의 주인공 'Optics'
엔비디아는 GTC 2026에서 광학을 통한 경쟁력 강화도 강조할 것으로 예상합니다. CPO 또는 그 변형인 NPO가 중요합니다. CPO는 광학 엔진을 Switch ASIC에 직접 통합하여 전기 신호를 광 신호로 변환하는 거리를 극히 짧게 만들어 손실과 전력 소비를 줄이는 것이 핵심입니다. 엔비디아는 1.6T 플러그형 트랜시버 기준 전력 소비가 30W이던 것을 9W까지 줄여서, 기존 광모듈 대비 3.5배의 에너지 효율, 10배의 신뢰성, 64배의 신호 무결성을 제공할 것이라 강조하고 있습니다.
엔비디아는 2H26에 Spectrum-X Ethernet CPO 스위치, Quantum-X InfiniBand CPO 스위치를 출시할 계획입니다. Spectrum-X는 512개의 800Gbps 포트를 갖고 있어 총 409.6TBps의 대역폭을 가진 스위치이며, Quantum-X InfiniBand CPO는 144개의 800Gbps 포트로 총 115Tbps의 대역폭입니다.
InfiniBand CPO는 네오클라우드들에서 먼저 채택할 예정이며, Q3450-LD 제품은 이미 현재 코어위브, 람다클라우드, TACC향으로 출하 중입니다. 2026년에 대략 25,000개의 CPO 스위치가 출하될 것으로 예상합니다.
Rubin Ultra에서는 Scale-up에도 CPO 채택
VR300 NVL576부터는 Scale-up을 위한 CPO, Scale-out을 위한 CPO를 모두 사용할 예정입니다.
Scale-up CPO : NVSwitch Tray에 있는 NVSwitch ASIC은 각각 3.2Tbps 광학 엔진 4.5개와 함께 패키징됩니다. 하나의 NVSwitch Tray에는 6개의 NVSwitch ASIC이 탑재되어 있어 Tray당 총 27개의 광학 엔진이 들어갑니다. 전체 NVL576 랙에는 총 648개의 광학 엔진이 탑재됩니다. 이들은 648개가 광섬유로 상호 연결되어 NVLink 7/8 네트워크를 구성하게 되며 기존의 고밀도 구리 배선을 대체할 예정입니다.
Scale-out CPO : Compute Tray에 탑재되는 ConnectX-10 SmartNIC는 외부 랙과의 광 연결을 위해서 광학 엔진과 함께 패키징될 예정입니다. Rubin Ultra GPU에는 각 5.5개의 광학 엔진이 필요할 것으로 예상하며, 랙당 총 광학 엔진의 수는 792개가 될 것으로 추정합니다.
이렇게 되면 이제 2H27에 출하될 Rubin Utlra부터는 데이터센터 네트워킹이 근본적으로 재편됩니다. 광섬유를 통해서 low-latency, high-bandwidth의 상호연결이 가능해지므로 AI 팩토리 전체가 수백 개의 NVL576 랙이 하나처럼 연결된 것처럼 운영될 수 있게 됩니다. 거리에 따른 신호 손실이 적어지니 네트워크도 더 단순해지고, 리타이머와 DSP의 필요성은 줄어들며 전력 소비도 줄어드는 방향입니다. 전력소비를 줄인 만큼 1GW당 하이퍼스케일러 입장에서는 더 많은 토큰을 생산할 수 있고, 더 많은 매출을 올릴 수 있다는 의미가 됩니다.
다만, 광학 제품이 열에 취약하기 때문에 Rubin Ultra까지는 NPO 방식의 스위치가 출하될 수도 있습니다. NPO는 광학 엔진을 인근 기판이나 외부 모듈에 배치하고, 짧게 Switch ASIC에 연결함으로써 완전한 CPO의 효율을 내진 않지만 패키징의 어려움이나 열 문제를 해결하면서도 플러그형보다는 훨씬 더 낮은 전력소비와 지연시간에 도달할 수 있습니다.
어쨌든 CPO/NPO 모두 광학이 Scale-up, Scale-out까지 침투하게 되는 방향입니다.
NVIDIA ICMS(Inference Context Memory Storage) 플랫폼
젠슨황은 CES 발표 당시, "HBM만으로 GPU의 컴퓨팅을 지원하기에는 턱없이 부족하며, 메모리 병목 현상은 더욱 더 심화되고 있다(With existing high-bandwidth memory, it’s far from sufficient to support GPUs, and the memory bottleneck is only getting worse)"고 말했습니다.
해당 코멘트와 함께 발표된 NVIDIA ICMS 플랫폼이 CES 2026의 핵심이었습니다.
전체적인 흐름부터 정리해봅니다.
Context Memory의 문제
LLM의 사용 사례가 챗봇 → Reasoning → Agentic AI로 진화함에 따라 메모리는 더 많이 필요해지기 때문에 그렇습니다. 여러 번 생각하는 구조로 갈수록(시퀀스 길이가 증가할수록), KV Cache가 계속해서 증가하기 때문입니다. 에이전트는 특히 계속해서 LLM이 두뇌 역할을 하며 다양한 서비스를 드나들기 때문에, 중간 결과나 도구 사용 등에 대한 장기 기억을 훨씬 더 많이 필요로 합니다.
Transformer 기반에서 추론 컨텍스트 기억은 KV Cache를 통해서 이뤄집니다. 추론 컨텍스트를 보관함으로써 모델이 새로운 토큰을 생성할 때마다 다시 처음부터 계산하지 않도록 하는 것입니다. 기록하고 쓰지 않는 구조가 아니라 추론 컨텍스트는 다시 꺼내서 쓰고 하는 작업을 반복하기에 내구성이나 속도, 전력과 비용의 효율성도 중요합니다.
추론 컨텍스트에서 KV Cache가 옮겨다니던 메모리 계층을 정리해봅니다.
HBM → System DRAM → Rack Local SSD → Shared File
엔비디아는 NVIDIA Dynamo를 통해서 스토리지 계층 전반에 걸쳐 추론 시 사용되는 KV Cache를 관리하고 있습니다. 구조적으로 보면 이렇게 되어 있었습니다.
G1 (GPU HBM) : 답변을 생성 중인 활성화된 데이터용입니다. 속도가 매우 빨라야 하고, 지연시간이 핵심인 작업에 사용됩니다.
G2 (System DRAM) : HBM의 용량이 부족할 때 데이터를 임시로 옮겨두는 공간입니다.
G3 (Local SSD) : 짧은 시간 안에 다시 사용될 가능성이 있는 Warm data를 저장합니다.
G4 (Shared Object/File) : 당장 처리에 필요하진 않지만 보관이 필요한 Cold data를 보관합니다.
G1은 접근 속도에 최적화되어 있고, G3와 G4는 데이터 보존에 최적화된 구조입니다. 그런데 문제는 AI가 다루는 컨텍스트 윈도우가 점점 더 커지다보니 데이터 양이 늘어남에 따라 KV Cache가 Local Storage였던 G1~G3를 빠르게 소진시키고 Enterprise Storage 레벨인 G4까지 데이터를 이동시킬 수밖에 없는데, 이 과정에서 병목이 커진다는 게 문제입니다. 비용과 전력 소비 모두를 증가시키는 길이었습니다.
Pod 내의 Inference Context Memory Storage의 위치
이에 엔비디아가 Rubin부터는 컴퓨팅 Pod을 구성할 때 ICMS를 GPU와 직접적으로 연결하여 쓸 수 있게 했습니다. 위의 VR200 DGX SuperPod 구성을 보시면, 양 옆으로 Context Memory 랙을 확인하실 수 있습니다. 이번 Rubin 플랫폼부터 새롭게 추가된 부분입니다.
지금보다 훨씬 더 메모리 집약적인 추론을 위해서 대규모 SSD를 마치 직접 GPU에 연결된 수준으로 가져다 쓸 수 있게끔 인프라를 짠 것입니다. ICMS을 통해서 BlueField-4 DPU 4개와 150TB 규모의 NVMe SSD를 탑재하면 GPU Pod당 PB 규모의 공유 스토리지가 생깁니다. 각 GPU당 추가로 16TB의 Context Memory를 얻게 되는 효과이며, Latency에 민감한 KV Cache의 상당부분이 이젠 ICMS에서 제공되므로 TPS는 5배 높아지고 기존 스토리지 연결구조 대비 전력 효율은 5배 높아지는 효과를 얻습니다.
추론 컨텍스트 처리가 GPU에서 멀어지면 멀어질수록 지연시간은 높아지고, 에너지 사용량과 토큰당 비용이 상승하며 전체적인 효율이 떨어지는 문제가 생깁니다. 그래서 아예 Pod 레벨에서 통합된 특수한 컨텍스트 메모리 계층을 만든 것이 NVIDIA ICMS입니다. G3.5 레벨입니다. KV Cache 데이터 액세스가 훨씬 더 빨라지고 GPU가 쓸 수 있는 메모리의 규모가 크게 증가하는 만큼 효율이 높아집니다.
이 과정에서 소프트웨어 레벨에서는 NVIDIA Dynamo와 NIXL(NVIDIA Inference Transfer Library)이 어떤 데이터를 언제 옮기고 어디에 옮길지 결정하는 역할을 합니다. KV Cache를 미리 옮겨서 decode 병목을 줄입니다. 그리고 BlueField-4 DPU와 NVIDIA DOCA 프레임워크는 데이터 이동을 전담 처리하여 GPU의 부하를 줄이는 역할을 합니다. 네트워킹에서는 Spectrum-X Ethernet이 Rubin 컴퓨팅 노드(VR200 NVL72 or R200 HGX)와BlueField-4 ICMS 스토리지 노드를 전체를 오가며 지연시간이 짧고 대역폭이 높은 패브릭 역할을 합니다.
아예 추론 컨텍스트에 맞게 시스템을 새롭게 설계한 것이자, 새로운 X Factor를 추가시킨 것입니다.
GTC Preview : 새로운 시대, 새로운 패러다임
6개의 칩이 하나로 설계되어 AI Factory의 근간을 구성하게 될 Vera Rubin
분산 추론의 기틀을 닦은 NVIDIA Dynamo
Prefill을 가속할 Rubin CPX GPU와 Decode를 가속할 LPX
인프라의 병목을 해결하려는 CPO/NPO와 NVIDIA ICMS
그리고 이 모든 것을 다시 한 번 Native로 Extreme Co-design하게 될 Feynman
GTC 2026에서 중요하게 보려고 하는 것들에 대해서 정리해본 자료입니다.
nepcon_collector.py @ 2026-03-13
딥 분석
핵심 요약 - 엔비디아 GTC 2026 Preview는 Rubin 기반의 'AI Factory' 전환을 핵심으로 보고, Rubin 랙(6개 칩 코호트: GPU·CPU·DPU·NIC·Switch 등)과 분산 추론(한번에 처리하는 Prefill vs 순차적 Decode)의 하드웨어·소프트웨어 재설계를 중심으로 향후 토큰 생산비용(token/$, token/watt)을 대폭 개선할 것이라 전망합니다. (출처: 올바른, 사피엔스 콘텐츠 — 링크 포함) - 투자 관점에서 핵심 변수는 1) Rubin 채택 속도(랙/트레이 생산·공급 병목 해소), 2) CPX/LPX 같은 특화 가속기 도입으로 인한 TCO 우위 확대, 3) 네트워킹·광학(CPO/NPO/ICMS) 병목 해소 여부입니다.
주요 인사이트 - AI Factory 관점 전환: 엔비디아는 더 이상 단일 칩 경쟁이 아닌 '랙/시스템 단위' 판매·최적화로 이동. 토큰 생산을 매출의 직접 지표로 보고 전력·공간 제약에서 와트당 토큰(token/watt)을 핵심 KPI로 제시함. - Vera Rubin = Extreme co-design: GPU·CPU·DPU·NIC·Switch를 함께 설계해 하드웨어·소프트웨어·네트워킹 병목을 동시에 줄이는 전략. L10 Compute Tray 같은 조립·생산성 혁신으로 물량·수율 문제를 직접 통제하려는 시도는 공급망·마진 관점에서 의미 큼. - 분산 추론의 상용화 가속: Prefill(Compute-bound) / Decode(Memory-bound)을 분리하는 Dynamo 등 소프트웨어와, Prefill용 CPX·Decode용 LPX 같은 특화 칩의 조합으로 동일 전력·비용에서 Throughput을 크게 끌어올릴 가능성. - 생산·냉각·전력 프로파일 다양화: Max-Q(전성비 우선) vs Max-P(성능 우선) SKU와 소프트웨어적 전력관리로 하이퍼스케일러의 채택 유연성 확보. 다만 고전력밀도(최대 2300W/칩)는 데이터센터 설계·냉각 투자 부담을 동반. - 네트워킹·광학 병목(OCS/CPO/NPO/ICMS)이 관건: 토큰 생산을 늘려도 데이터 이동·KV 캐시 성능·노드 간 레이턴시가 개선되지 않으면 체감 퍼포먼스 한계. 엔비디아는 ICMS·NIXL·SuperNIC·DPU 등으로 이 문제를 해결하려 함.
출처 간 교차 분석 - 노트(사피엔스 콘텐츠)와 원문 링크는 동일한 분석을 제공하므로 내부 불일치는 없음. 추가로 노트가 참조하는 보충 자료(예: SemiAnalysis 인터뷰, CES 2026 글, 광학 병목 글)는 다음과 같이 관계·보완을 이룸: - SemiAnalysis·실적 관련 자료: 엔비디아의 재무·수요 측면(매출·SOLD OUT·CAPEX 기대)을 근거로 Rubin 물량·가격전략의 시장 수용력을 지지함(수요 측면 보강). - CES·ICMS 관련 글: 메모리·ICMS(Interconnect) 주제는 Rubin의 메모리·네트워킹 통합 주장과 직접적으로 보완—Rubin 단일 랙의 이득은 메모리/ICMS 관점에서 실체화될 것임. - 광학·CPO/NPO 분석(별도 링크): 데이터 전송 계층의 병목을 지적한 외부 분석과 일치 — Rubin이 처리량을 크게 올려도 광학/스위치/트랜시버 레이어가 병목이면 전체 효과 제약. - 잠재적 모순/리스크: - 긍정 가정(토큰당 비용 10분의1 개선)은 데모·벤치마크 기준일 가능성(특정 모델·워크로드에 최적화). 범용 워크로드·레거시 인프라로의 전환비용은 문서에서 완전히 정량화되지 않음(추정 필요).
투자/실무 시사점 - 단기(6–12개월): 엔비디아 관련 장비 공급·물량(특히 Rubin NVL 랙과 L10 트레이) 및 네트워킹·광학 공급망(트랜시버·스위치·DPU 소자) 관련 기업들의 수혜·리스크를 모니터링하라. (사실 기반) - 중기(1–3년): Rubin 생태계가 표준화되면 토큰당 비용 우위로 하이퍼스케일·AI 서비스 사업자들의 마진 구조가 바뀌고, Rubin 채택 속도가 NVDA의 성장과 직결될 가능성이 높음 — 엔비디아 외 주변 인프라(광학, NIC, DPU, ODM 조립사) 투자 기회 검토 권고. (추론: 채택 속도→매출 상관관계) - 리스크 관리: Rubin의 고전력·고밀도 설계는 데이터센터의 전력·냉각 투자 요구를 증대시켜 고객사 전환 저항 요인이 될 수 있음. 또한 CPX/LPX 등 특화 가속기의 효용은 소프트웨어(예: Dynamo)·표준화·생태계 지원 없이는 제한적이다.
참고(원문) - 올바른, “엔비디아 GTC Preview : 새로운 시대, 새로운 패러다임” — https://contents.premium.naver.com/sapiens/sapiensasset/contents/260311194613343ld
원하시면 다음을 추가로 해드립니다: - Rubin 채택 시나리오별(보수/기준/낙관) 재무 임팩트와 민감도(엔비디아 매출·광학·ODM·DPU 업체별 전망) 표 작성 - CPX/LPX가 실제 워크로드(예: K2-Reasoning, 대형 컨텍스트 LLM)에서 가져올 예상 성능·TCO 개선 시뮬레이션
어떤 추가 분석을 원하시나요?
분석 소스
- [OK] https://contents.premium.naver.com/sapiens/sapiensasset/contents/260311194613343ld (general)
- [OK] https://naver.me/5ZST47Qf (general)
deep_enricher v1 | github-copilot/gpt-5-mini | 2026-03-14
관련 노트
- [[NVIDIA]]
- [[엔비디아]]
- [[NVDA]]
- [[260310_sapiens_일간보고-투자의-생각-260226]]
- [[260310_sapiens_일간보고-투자의-생각-260225]]
- [[260310_sapiens_일간보고-투자의-생각-260224]]
- [[260310_sapiens_엔비디아-4Q25-실적발표-담백한-실적발표-핵심은-모두]]
분석 피드백
자동 생성: vault_analyst_feedback (2026-04-16)
- 펀더멘탈 등급: N/A (2026-04-16)
- 최근 분석: BYD +4.95%(HK$110.3) — 중국 EV 기대감