[[엔비디아]] GTC 2026

채널: 사피엔스에셋 | 날짜: 원문: https://contents.premium.naver.com/sapiens/sapiensasset/contents/260317193733007yi

![[_attachments/2026-03/260317193733007yi_thumb.png]]

본문

안녕하세요 올바른입니다.

엔비디아 GTC 2026입니다. 디테일이 많기에 1년 뒤에도 다시 살펴볼만한 내용들이 많습니다. 젠슨황은 Chip → Rack → Pod으로 점점 경쟁의 축을 옮기고 있습니다.

7개의 칩, 6개의 트레이, 5개의 랙 시스템이 하나의 슈퍼컴퓨터를 만드는 그림입니다. 젠슨 황은 1년 뒤를 내다보며 파레토 프론티어에서 없었던 영역을 개척하는 중입니다.

Rubin에서 Feynman으로 가는 방향에서 Oberon의 NVL72/576, Kyber의 NVL144/1152 Scale-up에 대해서 정리했으며, 분산 추론의 완성으로 가는 길에 대해 생각한 자료입니다.

AI 사이클 한 눈에 보기

2026-03-11

엔비디아 GTC Preview : 새로운 시대, 새로운 패러다임 (바로가기)

2026-03-05

AI 사이클 한 눈에 보기, SemiAnalysis 인터뷰 : "거품은 없다. ARR $100B가 온다" (바로가기)

2025-09-26

AI 사이클 한 눈에 보기, SemiAnalysis 인터뷰 : 승부사 젠슨황 그리고 화웨이의 역습 (바로가기)

엔비디아 ([[NVDA]]) 실적발표

2026-02-26

엔비디아 4Q25 실적발표 : 담백한 실적발표, 핵심은 모두 그린라이트 (바로가기)

2025-11-20

엔비디아 3Q25 실적발표 : 2026년 말까지 "SOLD OUT", 젠슨황의 $500B 매출 확신 (바로가기)

최근의 AI Labs 지형도

2026-02-25

AI 인프라 1GW의 경제학 : 엔비디아의 '현금' vs AMD의 '워런트' (바로가기)

2026-02-22

네오클라우드 뜯어보기 #2 : 새로운 시대의 AI 계급도, 전력을 돈으로 바꾼 Powered Shell (바로가기)

2026-02-10

네오클라우드 뜯어보기 : GPU 임대의 경제학, 네오클라우드 BIG 4 비교분석 (바로가기)

AI HW 분석자료

2026-03-13

AI 인프라의 새로운 병목 '광학' : 앞으로의 2~3년 가파른 채택곡선 (트랜시버, OCS, CPO) (바로가기)

2025-01-21

추론의 시대, 핵심이 된 메모리 : 메모리 쇼티지를 떠받치고 있는 힘 (바로가기)

2026-01-07

엔비디아 CES 2026 : Vera Rubin의 시대, ICMS가 불러올 메모리 지각변동 (바로가기)

2026-01-02

엔비디아가 $20B를 주고 데려온 남자 : Groq 창업자 조나단 로스의 통찰 (바로가기)

2025-12-04

엔비디아 펀더멘탈 체크 : 구글 TPU의 추격? 시장점유율에 대한 생각, 아시아 공급망 체크 (바로가기)

투자자문 서비스에 따른 투자 시 원금 손실이 발생할 수 있으며, 투자 손익에 대한 책임은 전적으로 고객에게 귀속됩니다. 또한 과거의 투자수익이 미래의 수익률을 보장하지 않습니다.

신규 구독 전에, 아래 투자자문계약 권유문서의 계약 관련 제반 사항을 반드시 읽으시고 충분히 검토하시기 바랍니다.

*투자자문계약 권유문서 : https://naver.me/5ZST47Qf

$1T+ 주문의 진정한 의미 : Blackwell/Rubin $500B → $1T Backlog

7개의 칩, 5개의 랙, 하나의 컴퓨터 : [[NVIDIA]] Vera Rubin Pod

파레토 프론티어를 개척하다 : LPX를 기반으로 앞으로 Agentic AI에서 앞서갈 것

Rubin → Feynman : NVL72 → NVL144 → NVL576 → NVL1152

투자의 생각 : 엔비디아(NVDA)

$1T+ 주문의 진정한 의미

Blackwell/Rubin $500B → $1T Backlog

디테일에 숨어있는 의미들

젠슨황은 2025년 10월 29일에 있었던 GTC 2025 Washington에서 Blackwell/Rubin의 수주잔고가 $500B이라고 말했었습니다. CFO는 이에 대해 CY25~CY26까지의 Blackwell/Rubin 수주잔고를 의미한다고 말했었는데요. 당시에도 이것을 슥 보고 넘어가면 '매출이 생각보다 작네'하고 넘어가기 쉬운 숫자였지만, 실제로는 4Q24부터 4Q26까지의 기간 동안 Blackwell/Rubin 매출에서만 $400B 이상이 나올 것임을 짐작할 수 있었던 내용이었습니다.

그러면서 오늘 GTC 2026에서 젠슨황은 다시금 지난 $500B를 이제 CY25~CY27까지 Blackwell/Rubin 수주잔고가 $1T라고 업데이트했습니다. CY25 매출은 $216B였지만 Blackwell 매출은 $144B(1Q25 $24B + 2Q25 $28B + 3Q25 $41B + 4Q25 $51B)로 마감했기에 CY26~CY27까지 Blackwell/Rubin에서만 $856B를 인식한다는 의미입니다.

여기에 실제 매출을 추정하려면 몇 가지를 더해야 합니다:

젠슨황은 현 시점의 수주 상태를 기반으로 한 것이며 앞으로 21개월 동안 추가 수주가 발생할 경우 수주잔고는 더 늘어날 수 있다고 말했습니다. 더 늘어날 확률이 높습니다.

엔비디아 CFO 콜레트 크레스가 Bernstein 애널리스트에게 확인해준 바, 이 수치는 Blackwell/Rubin 칩과 관련 네트워킹 제품만 포함한 것이며 LPX 랙, CPX 랙, Vera CPU 랙, BlueField-4 STX Storage 랙에 대한 매출은 포함하지 않은 것입니다.

엔비디아에는 데이터센터 외의 사업부 매출이 있습니다. CY24A 데이터센터 외 매출은 $15.3B → CY25A $22.2B → CY26E에 $25B → CY27E는 $30B라고 가정하면 이만큼의 업사이드가 있습니다.

위를 감안하여 추정해보면, 보수적으로 보더라도 CY26 매출은 $380~400B에 가깝고, CY27은 $500~520B정도를 잡았다고 가정할 수 있습니다. 경영진이 공식적으로 숫자를 딱 정해주면 가이던스가 되고 여러모로 가시성이 낮은 상태에서 가이던스를 기준으로 Beat/Miss & Raise/Cut을 따질 것이므로 Beat and Raise를 이어가기에 좋지 않지만, 이렇게 대략 애널리스트들이 추정할 수 있는 정도의 레인지를 주는 건 '알아서 잘, 센스있게, 이정도쯤 될 것이라고 생각하세요' 정도의 러프한 가이던스입니다.

지금 상태에서 CY27까지 Blackwell/Rubin 수주잔고 $1T+를 가정하면, 컨센보다 높은 수준이며 좋습니다.

7개의 칩, 5개의 랙, 하나의 컴퓨터

NVIDIA Vera Rubin Pod

Chip → Rack → Pod

Hopper에서는 칩 vs 칩 간 비교였고 → Blackwell에서는 랙 vs 랙 간 비교였다면 → Rubin으로 가면서는 팟 vs 팟 간의 비교로 향하고 있습니다. 이제 여러 랙을 하나로 엮은 Pod이 하나의 Scale-up 사이즈가 되고 있습니다.

NVIDIA Vera Rubin POD

컴퓨팅, 네트워킹, 스토리지를 아우르는 7개의 칩을 공동 설계하여, 5개 종류의 랙 스케일 시스템을 합쳐서 하나처럼 구축한 Pod 단위를 강조했습니다. 총 40개의 랙, 20,000개의 엔비디아 컴퓨팅 다이, 1,152개의 Rubin GPU, 60 EFLOPS, 10PB/s의 대역폭을 가진 하나의 Pod입니다.

5개의 랙 스케일 시스템

Pod에 있는 각 칩은 MGX 랙에 맞춰서 확장할 수 있습니다. 5개의 각 NVIDIA MGX 랙은 동일한 전력, 동일한 냉각, 동일한 기계적 환경을 공유하기 때문에 배포와 수리가 쉽습니다.

NVIDIA Vera Rubin NVL72 랙 : AI Factory의 핵심

AI 팩토리의 핵심이 되는 랙입니다. 72개의 Rubin GPU와 36개의 Vera CPU가 NVLink 구리 Spine으로 연결돼서 하나의 거대한 GPU처럼 작동합니다. 이를 토대로 네 가지 스케일링 법칙 ⓐ사전훈련 ⓑ사후훈련 ⓒTest-time Scailing ⓓ에이전트 확장에 최적화 되어 있습니다. GB200 NVL72 대비 사전훈련은 와트당 4배 향상됐고, 토큰당 추론비용은 10분의 1 수준으로 낮아졌습니다.

NVIDIA Groq 3 LPX 랙 : Agentic AI 맞춤형 추론 가속

Groq 3 LPX는 Agentic AI의 훨씬 더 큰 컨텍스트 윈도우와 낮은 지연시간 요구사항을 모두 충족하기 위해서 설계된 랙 시스템입니다. 랙당 256개의 LPU가 탑재되며 VR200 NVL72과 함께 추론할 때 Throughput은 높이면서도 동시에 Latency도 낮출 수 있는 특별한 파레토 프론티어를 만들어주는 데 크게 기여하는 시스템입니다. VR200 NVL72와 LPX의 조합은 Blackwell 대비 최대 35배 더 많은 토큰을 생성할 수 있고, AI 팩토리를 운영하는 기업들로 하여금 최대 10배 더 많은 매출을 올릴 수 있는 시스템이 됩니다.

이에 대해서는 아래의 다른 챕터에서 좀 더 자세히 다루고 있습니다.

NVIDIA Vera CPU 랙 : 대규모 Agentic AI 및 강화학습 가속

독립형 랙으로 제공되는 랙으로서, 최대 256개의 Vera CPU를 고밀도 액체냉각 랙에 통합합니다. Agentic AI에서 고성능, 고대역폭, 에너지 효율적인 CPU가 더 많이 필요한데 Vera CPU가 상당한 점유율을 차지할 것으로 예상합니다. 엔비디아의 Vera CPU 랙만 따로 구매하고 있는 고객사는 메타, [[알리바바]], 바이트댄스, 오라클, 코어위브, 람다, 네비우스, 엔스케일이 있습니다. GB200 NVL랙을 판매하기 시작하면서 Scale-up, Scale-out에서도 시장점유율 1위로 올라섰던 것처럼 AI용 CPU 시장에서도 시장점유율 1위를 달성할 수 있다는 자신감을 CES 2026 Q&A 세션에서 드러냈던 바 있습니다.

NVIDIA BlueField-4 STX 랙 : AI Native 스토리지 플랫폼

엔비디아는 이번 GTC 2026에서 NVIDIA ICMS의 이름을 NVIDIA CMX로 바꿨습니다. 그리고 BlueField-4 STX 랙은 CMX를 호스팅하는 하드웨어 플랫폼입니다. BlueField-4 STX 랙에는 BlueField-4 DPU(Vera CPU + ConnectX-9 SupeNIC = BlueField-4 DPU)들이 탑재되어 있고, Spectrum-X 이더넷을 통해서 연결되어 있습니다. CMX는 Pod 전체에 걸쳐서 GPU의 컨텍스트 메모리 용량을 최대 16TB까지 키울 수 있도록 지원할 것이며, 기존 스토리지가 G4 레벨에 연결되던 것과 달리 Pod에서 직접적으로 연결되기에 G3.5 레벨에서 훨씬 더 가까이 대용량 KV Cache를 보관할 수 있게 될 것이므로 추론비용을 낮추는 데 기여할 것입니다.

NVIDIA Spectrum-6 SPX 랙 : 네트워킹 랙

전체의 Pod을 단일 슈퍼컴퓨터처럼 작동하도록 연결해주는 네트워킹입니다. Spectrum-6 SPX 네트워킹 랙은 Pod 내에서 AI 팩토리 전반에 걸쳐서 동-서, 남-북 트래픽을 가속화하도록 설계되어 있습니다. 각각의 랙에는 Spectrum-6 CPO 스위치 칩이 포함되어 있으며, 최고의 전력 효율성과 낮은 지연시간을 제공합니다.

6개의 주요 Tray들

이제 랙 스케일 제품이 기본 사양이 됐기에, 칩 하나가 아닌 Tray 단위로 제품을 보여주곤 합니다. 예를 들어서, VR200 NVL72 랙에는 Compute Tray(Vera CPU 2개 + Rubin GPU 4개 탑재)가 총 18개 들어가고, NVSwitch Tray(NVSwitch-6가 4개 탑재)가 9개 탑재됩니다. 저대로 서랍처럼 쭉 넣으면 랙이 되는 구조입니다.

전력에 관련한 두 가지 니즈를 해결하다

이번 NVIDIA Vera Rubin NVL72에서 특히 주목할 만한 점은 전성비 극대화(전력 대비 성능)와 전력 부하 변동 관리에 심혈을 기울였다는 것입니다. 랙 내 구성 요소들이 최대 에너지 효율로 작동하도록 설계되었으며, 이를 위해 Intelligent Power Smoothing 기능을 새롭게 도입했습니다. 핵심은 커패시터를 활용해 랙 단위에 자체적인 ESS 역할을 부여한 것입니다. 이를 통해 전력 수요가 급증하거나 급감할 때의 변동폭을 효과적으로 완충하며, 결과적으로 대규모 전력 변동으로부터 전체 클러스터를 보호하기 위한 대용량 ESS 필요성을 낮췄습니다.

전성비의 Max-Q, 최고 성능을 원한다면 Max-P

기존처럼 시설 전체의 랙을 고정적인 최대 전력(Static Max-P) 기준으로 세팅하면, 실제로는 쓰이지 않는 잉여 전력이 발생하여 토큰 생성 기회를 놓치게 됩니다. 이는 모든 워크로드가 항상 최대 전력을 요구한다고 가정하는 방식이지만, 실제 가동 환경에서는 전력 요구량이 각기 다른 다양한 워크로드가 혼재되어 돌아가기 때문입니다.

반면, 랙을 더 낮은 수준의 동적 최적 전력(Dynamic Max-Q) 기준으로 프로비저닝하면, 데이터센터는 각 워크로드에 맞춰 필요한 만큼의 전력을 유연하게 할당하여 전체 처리량을 극대화할 수 있습니다. 이를 통해 낭비되던 전력을 유효하게 활용할 수 있으며, 45°C 수랭식 냉각 환경을 기준으로 동일한 전력 예산 내에서 최대 30% 더 많은 GPU를 가동하고 전성비를 크게 끌어올릴 수 있습니다.

Chip → Rack → Pod → 그 다음은 'AI Factory'

이에 아예 칩부터 전력망까지의 AI 인프라를 공동 설계하는 AI 팩토리 플랫폼이 NVIDIA Vera Rubin DSX AI Factory Platform입니다. 칩, 시스템, 소프트웨어 라이브러리, API 등을 단일 아키텍처로 통합해서 컴퓨팅, 네트워킹, 스토리지, 전력, 냉각, 시설 제어 등을 긴밀하게 하나로 다룰 수 있도록 하는 작업입니다. 엔비디아 입장에서도 디벨로퍼들이 빠르게 AI 팩토리를 건설할수록 전체 엔비디아 생태계의 토큰당 ROI가 좋아지는 효과이므로 GW급 AI 팩토리를 더 쉽고 빠르게 설계, 배포, 확장할 수 있도록 돕는 플랫폼입니다.

파레토 프론티어를 개척하다

LPX를 기반으로 앞으로 Agentic AI에서 앞서갈 것

토크노믹스 이해하기 : Throughput ↔ Latency

AI 서버 설정에 있어 Throughput(동일 전력 대비 초당 토큰 출력량, TPS/MW)과 Latency(사용자당 초당 토큰 출력량, TPS/User)는 대표적인 상충 관계에 있습니다. batch size를 키우면 전체 throughput은 개선되지만, 개별 사용자가 체감하는 latency는 저하됩니다. 기존에는 더 많은 유저에게 높은 토큰 출력량을 제공하기 위해 단일 GPU 도메인을 NVL8 → NVL72 → NVL144 등으로 키우는 Scale-up에 집중했습니다. 하지만 이러한 물리적 확장만으로는 Interactivity를 높이는 데 한계가 있었고, 투자 대비 얻을 수 있는 효용도 점차 감소했습니다.

패러다임 전환 : 모든 토큰의 가치는 같지 않다

기업 입장에서 AI 팩토리의 핵심 목표는 '최대 매출총이익'의 달성입니다. 과거에는 전력(Token/Watt)이나 비용(Token/$) 대비 토큰 생산량만 따졌으나, 이제는 어떤 서비스를 제공하느냐에 따라 같은 백만 토큰이라도 창출하는 매출이 달라집니다.

서비스별 마진 차이 : B2C(무료 챗봇, 롤플레잉 등)에 비해 B2B(API, 코딩 등) 서비스의 토큰당 매출이 훨씬 높습니다. 앤스로픽이 업계에서 빠르게 치고 올라오는 이유이며, 오픈AI가 뒤늦게라도 추격하며 B2B에서 점유율을 얻고 있는 이유이고, 최근 구글이 부진한 이유입니다.

Tier 차등화 전략 : LLM 기업들은 사용자 기반을 넓히는 무료 모델(마케팅 용도)에는 상대적으로 낮은 지능과 느린 속도를, 고수익을 창출하는 Premium 요금제(ChatGPT Pro, Claude Max 등)에는 가장 뛰어난 모델을 최상의 속도로 제공하여 수익을 극대화하고 있습니다.

Agentic AI의 부상 : 2025년 하반기 Claude Code의 성공 등을 기점으로 Agentic AI 트렌드가 가속화되면서, 고부가가치 워크로드를 처리하기 위한 새로운 인프라 니즈가 폭발적으로 증가하고 있습니다.

'속도가 곧 브랜드 가치이다'

엔비디아의 젠슨 황 CEO가 Groq의 LPU 아키텍처가 엔비디아와 결합하여 잘 돌아가는 것을 확인한지 단 3일 만에 인수를 결정한 배경에는 Low Latency가 창출하는 막대한 경제적 가치가 있습니다.

이런 트렌드를 깊게 이해하는 데 가장 중요한 자료가 2026년 1월에 미리 전해드렸던, <엔비디아가 $20B를 주고 데려온 남자 : Groq 창업자 조나단 로스의 통찰>입니다. 소비재(CPG) 시장에서 흡연용 담배, 탄산음료, 물 등의 마진율이 뇌로 전달되는 도파민의 속도(성분 작용 속도)와 직결되듯, AI 서비스 역시 즉각적인 반응 속도가 브랜드 충성도와 프리미엄 가치를 결정합니다. 즉, 엔비디아는 하이퍼스케일러와 AI 연구소들이 가장 높은 마진을 남길 수 있는 Agentic AI향 저지연 토큰 시장을 선점하기 위해 Groq을 품은 것입니다.

LPX와 네 번째 스케일링 법칙 : 멀티 에이전트 시대를 향하다

엔비디아가 Vera Rubin NVL72를 통해 제시하는 미래는 수많은 에이전트가 협력하여 복잡한 워크로드를 해결하는 '멀티 에이전트 시스템(4번째 스케일링 법칙)'입니다. 이러한 NVL72의 물리적 한계를 뛰어넘기 위해 LPX가 핵심적인 역할을 합니다. Groq의 결정론적 데이터 프로세서와 On-chip SRAM의 강점을 결합하여 분산 추론 과정의 Decode 단계를 혁신적으로 가속화한 것입니다. 그 결과, 엔비디아는 Throughput과 Latency를 동시에 충족시키며 기존에는 도달할 수 없었던 새로운 파레토 프론티어를 개척해 냈습니다.

*Ian Buck이 LPX를 통해 멀티 에이전트 시스템에서 생기는 추론 시장을 선점할 것을 설명하는 발표자료

분산 추론의 완성 : Dynamo, VR200 NVL72 ↔ Groq 3 LPX

지난 GTC 2026 Preview에서 전해드렸던 분산 추론의 방향성이 구체화되었습니다.

핵심은 NVIDIA Dynamo 플랫폼을 활용한 이기종 컴퓨팅 환경의 유연한 통합입니다. 고객이 Rubin, Rubin CPX, Groq LPX 등 다양한 하드웨어를 혼합하여 구축할 경우, Dynamo는 batch size와 병렬 처리 수준을 지능적으로 분석해 최적의 하드웨어로 워크로드를 분산시킵니다. 젠슨 황 CEO는 시스템 구성 시 Groq LPX의 비중을 최대 25%까지 할당할 수 있다고 언급하며 아키텍처의 유연성을 강조했습니다.

이러한 분산 처리의 핵심 역할 분담은 다음과 같습니다:

Vera Rubin NVL72 (Prefill 담당) : 방대한 컨텍스트를 한 번에 읽고 이해해야 하는 Prefill 단계는 여전히 막대한 연산량과 HBM 용량을 요구합니다. Rubin GPU는 이 동적이고 복잡한 스케줄링 워크로드를 전담하며 KV Cache를 생성합니다.

Groq 3 LPX (Decode 담당) : 생성된 KV Cache를 넘겨받아 토큰을 하나씩 반복적으로 생성하는 Decode 작업은 LPX로 라우팅됩니다. LPX는 컴파일러 단계에서 데이터 이동을 100% 계획하는 결정론적 컴퓨팅과 막대한 대역폭의 On-chip SRAM을 통해 대기 시간 없이 토큰을 쏟아냅니다.

압도적 대역폭의 설계

단일 Groq 3 LPU 칩은 500MB의 SRAM(150 TB/s 대역폭)을 탑재하여 B200 대비 용량은 작지만 On-chip 효과 덕에 대역폭이 150TB/s로 HBM4의 22TB/s에 비해서도 약 7배나 높습니다. Decode 작업의 속도를 극대화하기 좋은 칩입니다.

엔비디아는 256개의 Groq 3 LPU를 All-to-All 연결한 랙 스케일(NVIDIA Groq 3 LPX)로 확장하여 총 128GB의 SRAM(R200 GPU 288GB, B200 192GB보다도 작습니다)과 40 PB/s의 메모리 대역폭을 확보했습니다. 엔비디아의 강력한 인터커넥트 기술이 더해져 과거 데이터 흐름 설계 시 발생하던 네트워킹 병목 현상까지 깔끔하게 해소했습니다. 해당 랙은 3Q26부터 양산 예정입니다.

거대모델에 대한 현실적인 해답

그러면 의문은 '수조 단위의 파라미터를 처리하려면 도대체 얼마나 많은 칩이 필요한가?'가 남습니다. 256개의 칩을 연결해 128GB의 SRAM을 확보한다고 해도, FP8 연산 기준으로 수조 단위 파라미터를 감당하기엔 턱없이 부족하기 때문입니다. 하지만 타깃 워크로드가 코드 생성처럼 70B 규모의 distillation된 소형 모델로도 충분한 영역이라면, 이 아키텍처는 매우 훌륭하고 효율적인 해답이 될 수 있습니다.

개인적으로는 이 과정에서 코딩 에이전트 시장이 매우 크게 커지고 여기서 벌은 이익 중 일부를 할당하여 AI Labs들이 따로 코딩용 모델을 더 훈련시키려 할 것으로 예상합니다.

NVIDIA + Groq LPU 통합의 과정

2H26에 양산될 LP30은 워낙 마지막 순간에 추가된 제품이므로 호환성이 낮지만

2H27에 양산될 LP35는 엔비디아의 소프트웨어 생태계에 통합되어 NVFP4를 지원할 것이고

2H28에 양산될 LP40는 NVLink에 통합될 것이며

2H29에 양산될 LP45~50쯤에는 컴퓨팅 다이 자체를 함께 패키징할 것으로 예상합니다.

Rubin → Feynman

NVL72 → NVL144 → NVL576 → NVL1152

랙 아키텍처 : Oberon NVL72, Oberon ETL256, Kyber

칩에 대해서는 쭉 살펴보시면 되지만, 이번에 새롭게 중요했던 것은 새로운 랙 아키텍처들입니다. 5개의 랙 스케일로 NVIDIA Vera Rubin Pod을 구성하는 것이 핵심이라고 전해드렸는데, NVL72를 제외한 나머지 랙은 ETL로 Scale-up된 랙들이기 때문입니다.

NVIDIA MGX ETL 랙 : Agentic AI를 위한 맞춤형 랙

NVIDIA의 MGX NVL 랙이 대규모 컴퓨팅 확장에 최적화되어 있다면, 최근 부상하는 에이전트 기반 AI 워크플로는 초저지연 추론, CPU 샌드박싱, KV Cache용 가속 컨텍스트 메모리 등 특화된 노드를 필요로 합니다.

이러한 복잡한 요구 사항을 충족하기 위해 Vera Rubin 세대에서는 MGX ETL 랙 아키텍처를 새롭게 선보였습니다. 완벽한 맞춤 구성이 가능한 이 랙은 Spectrum-X 이더넷 스파인이나 칩 간 직접 연결 스파인을 기반으로 설계되었으며, 기존 MGX NVL 랙의 생태계를 그대로 활용할 수 있는 것이 특징입니다.

특징들을 쭉 정리하면,

완벽한 폼팩터 호환성 : MGX ETL은 기존 MGX NVL 랙과 동일한 폼팩터 및 물리적 인프라를 공유하며, 동일한 기계적, 전력, 냉각 환경에서 매끄럽게 작동하도록 설계되었습니다.

검증된 핵심 구성 요소 공유 : 두 랙 시스템 모두 랙, 섀시, 컴퓨트 및 스위치 트레이, 케이블 카트리지, 액체 냉각 매니폴드, 퀵 커넥터(UQD & MQD), 버스바, 전원 셸프 등 기존 MGX 생태계에서 검증된 핵심 부품들을 공통으로 사용합니다.

사전 통합된 네트워크 솔루션 : Spectrum-X 이더넷 스파인 또는 칩 간 직접 연결 스파인과 결합하여 사전 통합 및 검증을 마친 구리 케이블 카트리지를 채택했습니다.

견고한 공급망 활용 : 결론적으로 MGX ETL은 다년간 대량 생산 체제를 구축해 온 80여 개 이상의 파트너사로 구성된 기존 MGX 생태계와 밸류체인을 그대로 활용하여 효율적인 데이터센터 구축을 지원합니다.

Oberon NVL72 & 576 → Kyber NVL144 & 1152

GTC 2026 키노트에서 젠슨황이 구리 Scale-up과 광학 Scale-up을 동시에 언급하다보니, 이 구조가 어떻게 생긴 것인가를 놓고 논란이 있는 것 같으나 최근에 전해드리고 있는 부분들에서 달라진 것은 없습니다.

랙 내의 Scale-up이 있습니다. 흔히 말하는 GB200/300 NVL72입니다. 여기엔 구리가 쓰입니다.

랙 간의 Scale-up이 있습니다. 랙들을 묶어 Pod으로 만드는 과정입니다. 여기엔 광이 쓰입니다.

구글 TPU를 기준으로 전해드리면,

TPU v7은 랙당 64개의 칩이 담겨있습니다.

이 랙을 144개까지 서로 연결해서 9,216개를 하나의 Pod으로 구성하고 있습니다.

이것을 두고 젠슨황 CEO는 "Scale-up에 구리와 광학 모두를 사용한다"고 설명한 것입니다. 아래를 보시면 실제 랙 아키텍처들이 사례로 들어가 있습니다.

왼쪽의 Oberon 랙 아키텍처 기준 NVL72와 NVL576은 GB200/300 NVL72를 가져다가 Spectrum-6 CPO Switch로 8개의 랙을 서로 연결하여 576개의 Pod을 만든 것을 의미합니다. 그리고 오른쪽의 Kyber 랙 아키텍처 기준 NVL144(CES 2026 전에는 NVL576이었습니다. 다이 개수에서 패키징 기준으로 변경한 것입니다)와 NVL1152는 NVL144 랙 8개를 연결하여 1,152개의 Pod을 만든 것을 의미합니다.

*왼쪽 : VR300 NVL576에서 Scale-up CPO를 도입한다는 것은 Compute Tray를 케이블 카트리지 및 Switch Tray와 연결할 때가 아니라, 하나의 랙에서 다른 랙으로 총 8개의 랙을 연결해 Pod을 만들 때의 Scale-up입니다.

*오른쪽 : 대규모 멀티랙 NVLink 토폴로지를 시연하기 위해, Polyphe는 NVIDIA 내부에서 개발된 GB200 기반의 완전한 기능을 갖춘 멀티랙 NVL576 확장 아키텍처 프로토타입입니다.

Vera Rubin Ultra NVL576 (NVL72 * 8)

NVIDIA Vera Rubin Ultra는 새로운 2-Tier All-to-All NVLink 토폴로지를 도입하여, 개발자가 최대 576개의 GPU까지 컴퓨팅 파워를 원활하게 확장할 수 있는 환경을 제공합니다. 576개의 GPU를 하나의 도메인으로 쓸 수 있게 하는 것입니다.

새로운 랙 : Kyber

2H27 Vera Rubin Ultra부터는 NVL576의 스케일을 뛰어넘는 확장성을 제공하기 위해, 차세대 MGX NVL 랙 설계인 NVIDIA Kyber가 도입될 예정입니다. Kyber는 랙당 NVLink 도메인을 기존 대비 두 배로 확장하여, 단일 랙 단위에서 최대 144개의 GPU를 담을 수 있습니다. 랙 간 연결에는 광학을 사용하여 NVL144 랙 8개를 서로 연결할 경우 NVL1152까지 확장할 수 있습니다. 고객은 데이터센터의 규모나 요구 스펙에 맞춰서 Vera Rubin Ultra 랙을 NVL72, NVL144, NVL576 중에서 유연하게 택할 수 있습니다.

투자의 생각 : 엔비디아(NVDA)

엔비디아(NVDA) CY26 PER 20배, EPS CAGR 2Y 60%, PEG 0.33배 : GTC 2026 이후로도 엔비디아, 메모리, 광학 기업 등 기존에 전해드리던 개별기업들에 대한 투자포인트에서 달라지는 것들은 없습니다. 엔비디아는 여전히 Overweight을 유지합니다. $1T+ 주문의 진정한 의미, 7개의 새로운 칩과 5개의 새로운 랙, LPX가 재편하는 토크노믹스의 미래, Feynman에서 그리는 그림들에 대해서 정리한 자료입니다. 대규모 추론 워크로드와 멀티 에이전트 생태계를 가장 잘 지원하는 AI 인프라를 구축하기 위해 어느 방향으로 나아가려 하는지를 확인할 수 있었던 GTC 2026였습니다. Groq 팀이 엔비디아 NVLink 호환성을 테스트한 뒤 성공하자마자 젠슨 황이 3일 만에 속전속결로 결정했던 이번 2025년 12월 24일 Groq $20B 인수는 2019년 3월 11 Mellanox $7B 인수를 뛰어넘는 한 수로 재평가받을 거라 예상합니다.

nepcon_collector.py @ 2026-03-18

딥 분석

핵심 요약

엔비디아는 GTC 2026에서 경쟁의 축을 Chip → Rack → Pod 수준으로 격상시키며, 7개의 칩·6개의 트레이·5개의 랙 시스템으로 구성된 Vera Rubin Pod을 하나의 슈퍼컴퓨터 단위로 제시했다. Blackwell/Rubin 수주잔고를 기존 $500B에서 $1T+(CY25~CY27)로 업데이트하며 CY26~CY27 매출 가시성을 대폭 강화했고, Groq 인수를 통한 LPX 아키텍처로 Throughput과 Latency를 동시에 개선하는 새로운 파레토 프론티어를 개척했다.

주요 인사이트

수주잔고 $1T의 의미: CY25 Blackwell 매출 $144B를 제외하면 CY26~CY27에 Blackwell/Rubin에서만 $856B 인식 예정이며, 여기에 LPX 랙·CPX 랙·Vera CPU 랙·BlueField-4 STX 스토리지 랙 매출 및 비데이터센터 사업부($25~30B/년 추정)는 미포함 — 보수적 추정으로도 CY26 $380~400B, CY27 $500~520B 수준이 도출됨 (추론: 원문 분석 기반)
Chip → Rack → Pod → AI Factory로의 경쟁 단위 확장: Hopper 시대의 칩 대 칩 비교에서 Blackwell의 랙 대 랙, Rubin의 Pod 대 Pod으로 경쟁 프레임이 이동하며, 엔비디아는 칩부터 전력망까지 공동 설계하는 DSX AI Factory Platform으로 생태계 락인(lock-in)을 심화시키고 있음
LPX + Dynamo = 분산 추론의 완성: Vera Rubin NVL72(Prefill 담당)와 Groq 3 LPX(Decode 담당)의 역할 분담 구조에서, LPX의 On-chip SRAM 500MB·150TB/s 대역폭(HBM4 대비 약 7배)이 Decode 병목을 해소하며 Blackwell 대비 최대 35배 더 많은 토큰 생성, AI 팩토리 운영사 기준 최대 10배 매출 증가 가능성을 제시
Agentic AI와 토크노믹스의 패러다임 전환: B2B(API, 코딩, Agentic AI) 워크로드의 토큰당 매출이 B2C 대비 현저히 높으며, 저지연(Low Latency)이 프리미엄 브랜드 가치와 직결된다는 논리 하에 엔비디아는 $20B를 투자해 Groq을 인수 — 이는 고마진 추론 시장 선점 전략의 핵심
Intelligent Power Smoothing과 Max-Q 운영: 랙 내 커패시터 기반 ESS 역할 부여로 전력 변동을 완충하고, Dynamic Max-Q 프로비저닝 적용 시 동일 전력 예산 내 최대 30% 더 많은 GPU 가동 가능 — 데이터센터 운영 효율성과 토큰 생산량을 동시에 개선하는 실질적 차별화 포인트

출처 간 교차 분석

일치 및 보완: 노트 본문과 링크된 원문 URL(네이버 프리미엄 콘텐츠)은 동일한 리포트의 공개 요약부와 유료 본문으로 구성되어 있어, 목차·서론·면책 고지 등 구조적 정보는 완전히 일치한다. 링크 URL에서는 프리미엄 구독자 전용 본문이 차단되어 있어 세부 수치($1T Backlog 분해, LPX 대역폭 수치 등)는 노트 본문에서만 확인 가능하다. 투자자문계약 권유문서(naver.me/5ZST47Qf)는 사피엔스투자자문이 2025년 5월 22일 금융위원회 정식 인가를 받은 투자자문사임을 확인해주며, 본 리포트가 단순 블로그 글이 아닌 규제 프레임워크 내 투자자문 서비스의 일환임을 뒷받침한다.

모순 및 주의점: 노트 서두에서 "6개의 트레이"라고 명시하고 있으나, 본문 내 랙 구성 설명에서는 "6개의 주요 Tray들"이라는 소제목 아래 구체적 트레이 종류가 나열되어 있어 숫자 자체의 모순은 없다. 다만 CY26·CY27 매출 추정치($380~400B, $500~520B)는 경영진의 공식 가이던스가 아닌 필자의 추론임이 원문에서도 명시되어 있으므로, 이를 확정적 수치로 해석하는 것은 주의가 필요하다. 또한 수주잔고 $1T는 "현 시점의 수주 상태 기반"이며 추가 수주 가능성이 열려 있다는 점에서 하한선에 가까운 수치로 해석하는 것이 적절하다 (추론).

투자/실무 시사점

엔비디아의 $1T+ Backlog와 Pod 단위 경쟁 프레임 전환은 단기 실적 Beat/Raise 사이클을 넘어 CY27까지의 중장기 매출 가시성을 제공하며, LPX 기반 분산 추론 아키텍처는 Agentic AI 고마진 시장에서의 독점적 지위를 강화하는 구조적 해자(moat)로 작용할 가능성이 높다. 투자자 입장에서는 엔비디아 직접 투자 외에도 Groq LPX 랙·Vera CPU 랙·BlueField-4 STX 랙 등 수주잔고에 미포함된 주변 인프라(광학 부품, 네트워킹, 스토리지, 전력 관련 밸류체인)에서 추가적인 업사이드를 탐색하는 것이 유효한 전략으로 판단된다 (추론).

분석 소스

[OK] https://contents.premium.naver.com/sapiens/sapiensasset/contents/260317193733007yi (general)
[OK] https://naver.me/5ZST47Qf (general)

deep_enricher v1 | cliproxy/claude-sonnet-4-6 | 2026-03-18

엔비디아 GTC 2026