2026-04-06 21:55

AI 클러스터의 광트랜시버 수요 구조 심층 분석

2026-03-24 | 웹 리서치 기반 분석

GPU 세대별 광트랜시버 수요

A100 클러스터

구성	비율	설명
GPU:800G InfiniBand	1:0.75	2계층 네트워크, MQM9700 스위치
GPU:200G 광모듈	1:6	3계층 네트워크, MQM8700 스위치

특징: 200G이 주력으로, 더 많은 광 모듈 필요.

H100 클러스터

구성	비율	설명
GPU:800G 광모듈	1:1.5	2계층 네트워크
GPU:400G 광모듈	1:1	백엔드 스케일-아웃
GPU:광모듈	1:6	3계층 네트워크 (800G)

아키텍처 세부사항: - H100 카드: 8개 GPU + 8개 400G NIC 결합 → 4개 800G 인터페이스 구성 - DGX H100 슈퍼팟: 32개 노드(256개 GPU) + 1,536개 800G + 1,024개 400G - 128 H100 서버 클러스터: 1,536개 800G OSFP + 1,024개 400G OSFP

B200/GB200 (Blackwell) - 혁신적 변화

GB200 NVL72 (72 GPU): - NVLink 백플레인: 3.2km 구리 케이블 (광 회피) → 20kW 전력 절감 - 백엔드 네트워크: 400G 또는 800G InfiniBand/Ethernet (GPU당 1 NIC) - 인터페이스: 72 OSFP 포트 (400G/800G) → H100과 동일 - 400G→800G 전환: CX-7→CX-8로 이동하면서 SR4(4×100G)→DR4(4×200G) 광트랜시버로 전환

GB200 NVL576 (576 GPU): - 실제 도입 불가: 추가 구리/광 연결 비용 $38.8K/GPU - DGX H100 NVL256도 같은 이유로 미출시

B300 및 최신 세대

GPU	800G 광트랜시버 비율	설명
H100/B200	2:1 ~ 3:1	컴퓨팅 패브릭만 계산
B300	4:1 ~ 4.5:1	최신 레퍼런스 설계 (대폭 증가)

트렌드: GPU 세대가 올라갈수록 GPU당 광트랜시버 개수 가파른 증가.

데이터센터 네트워크 계층별 광 활용

계층 구조 및 광/구리 선택

┌─────────────────────────────────────────┐
│  Data Center Interconnect (DCI) 계층    │
│  └─ 데이터센터 간 초장거리 연결        │
│  └─ 100% 광 (DWDM, Coherent)           │
├─────────────────────────────────────────┤
│  Inter-Rack 계층                        │
│  └─ 랙 간 연결 (수백m ~ 수km)          │
│  └─ 400G/800G 광 (DR4, FR4)            │
├─────────────────────────────────────────┤
│  Intra-Rack 계층 (Scale-up)             │
│  └─ 같은 랙 내 GPU-Switch 연결          │
│  └─ 주로 구리 케이블 (DAC/AEC)         │
│  └─ 예: NVLink 백플레인 (구리 선호)    │
└─────────────────────────────────────────┘

각 계층별 광트랜시버 타입

계층	거리	광모듈 타입	비율	설명
DCI	10km~	Coherent, ZR, LR	적음	초고속도로만 필요
Inter-Rack	500m~2km	DR4, FR4	높음	AI 클러스터 주력
Intra-Rack	100m 이하	SR4, SR8	낮음	구리 우선 선택

DR4 (Digital Reach 4) - 사거리: 최대 500m - 용도: 포인트-투-포인트 스위치 간 연결 - 모드: 단일모드 8-섬유 병렬 케이블

FR4 (Fixed Reach 4) - 사거리: 2km 이상 - 용도: 빌딩/캠퍼스 간, 지역 DCI - 비용 효율성: 중거리 표준

SR4/SR8 (Short Reach) - 사거리: 70~100m - 용도: 같은 랙 내 스위치 연결 - 멀티모드 광섬유 (OM3/OM4)

인프라 스케일에서 광의 비중

2계층 네트워크 (일반적 AI 클러스터)

GPU:Switch:광모듈 = 1 : 0.15 : 4 (구리 사용 시)
GPU:Switch:광모듈 = 1 : 0.15 : 6 (전광 네트워크)

핵심: 네트워크 스위치 1개당 광모듈은 약 26~40개 필요.

InfiniBand vs Ethernet

시장 전환 (2025년 주요 변화)

기술	지연시간	신뢰성	광모듈	채택 현황
InfiniBand	1~2 μs	매우 높음	NVIDIA 독점 (비쌈)	대규모 클러스터 (Meta, Microsoft)
Ethernet (RoCE)	5~10 μs	안정화 중	표준 (저가)	중소 클러스터, 비용 민감

Ultra Ethernet Consortium (UEC) 1.0 - 2025년 6월 출범

목표: - InfiniBand의 지연시간 성능과 Ethernet의 비용을 결합 - 함수형 프로그래밍, TCO, 개발자 경험 최적화 - 광모듈은 동일: 400G/800G DR4, FR4, SR8 호환성

결과: 2025년 중반 Ethernet이 AI 백엔드 시장 리드

광모듈 호환성

양쪽 다 동일 규격 사용: - 400G OSFP/QSFP-DD - 800G OSFP - DR4, FR4, SR8, SR4 모두 호환

→ 네트워크 선택 ≠ 광모듈 수요 변화 (단, 가격/공급사 차이)

Tier 2/3 기업의 권장사항

256~1,024 GPU 클러스터: Ethernet + RoCE 권장
이유: InfiniBand보다 2배 이상 비싼 네트워킹 비용 회피
성능 차이: 적절히 튜닝하면 실제 훈련 속도 차이 미미

하이퍼스케일러별 CapEx 및 광 지출

전체 하이퍼스케일러 CapEx 규모

연도	투자 규모	전년비	AI 비중
2024	$256B	-	~70%
2025	$443B	+73%	~75%
2026	$602B~690B	+36%~56%	~75% = $450~520B

광 네트워킹 시장 (특정 비중)

데이터센터 옵틱스 시장 2025: $16B+ (전년대비 60% 성장)
광트랜시버 수입: 하이퍼스케일러가 전체 800G+ 수요의 70% 이상 차지

하이퍼스케일러별 전략

Microsoft Azure - AI + 클라우드 이중 투자 (CapEx 연간 $60B~) - 400G → 800G → 1.6T 적극 전환

Meta (Llama 훈련) - 자체 클러스터: RoCE Ethernet 선택 검증 - InfiniBand ≈ RoCE (성능) 결론 도출 - → 광 비용 최소화 방향

Google (TPU) - 광회로스위치(Optical Circuit Switch, OCS) 자체 개발 - v5p 슈퍼팟: 13,824 광 포트 (2025 최대 규모) - v6e: 13 TB/s ICI 대역폭/칩 - → GPU 네트워크와 완전히 다른 아키텍처

Amazon/Oracle - 표준 Ethernet (Broadcom, Arista) + Trainium/Inferentia 칩 - 400G/800G 표준 광모듈 채택

광 지출 추정

2026 AI CapEx $450B 중:
├─ GPU/AI 칩: $180B (~40%)
├─ 메모리: $90B (~20%)
├─ 네트워크 인프라: $45B~ (~10%)
│  └─ 광트랜시버: $12B~ (광 비중 26%)
├─ 랙/전력/냉각: $90B (~20%)
└─ 기타: $45B (~10%)

→ 2026년 광트랜시버 시장 규모 추정: $12B~16B

글로벌 출하량 및 시장 전망

800G 광트랜시버 출하량

연도	출하량	성장률	전체 광모듈 점유율
2024	12.3M	-	19.5%
2025	24M	+100% YoY	35%~
2026	63M	+162% YoY	>60%
2027	90M+ (추정)	+43%	70%+

Citi Research (2025년 5월): - 2026 800G 광모듈: 37M 개 (+85% YoY) - 이유: GPU당 광모듈 수 증가 + ASIC당 포트 증가

1.6T 전환 타이밍

단계	시기	비중	상태
검증/파일럿	2025년	<1%	몇 개 리더 채택
초기 배포	2026년 (H2)	3~5%	클라우드/HPC 초기
본격 탑재	2027년	15~25%	신규 빌드 우선
주력 표준	2028~2029	>50%	800G 대체

중요: 800G → 1.6T 전환이 이전 세대 전환(400G→800G)보다 2배 빠름.

1.6T 출하량 전망

2025년: <0.5M 개
2026년: 1~2M 개 (검증용)
2027년: 8~12M 개 (본격화)
2028년: 25~35M 개 (주력)

수요 구조의 핵심 드라이버

1. GPU당 광트랜시버 개수의 가파른 증가

A100 (2020): GPU당 1.5~2 개 (불완전)
H100 (2022): GPU당 1.5~3 개
B200 (2024): GPU당 2~3 개
B300 (2024): GPU당 4~4.5 개 ⬅️ 혁신적 증가

원인: - NVLink 내부 대역폭 ↑ (H100: 900 GB/s) - 백엔드 네트워크 속도 ↑ (400G → 800G) - 다중 링크 구성 (각 GPU가 여러 스위치에 연결)

2. 데이터센터 규모의 기하급수적 확대

클러스터 규모	2024	2026 전망
256 GPU	기준	기준
1,024 GPU	드문	점점 늘어남
4,096 GPU	극소수	일반화 예상
8,192+ GPU	불가능	실현 가능

클러스터 규모 2배 = 광모듈 필요량 4배

3. 구리→광 전환의 물리적 한계

GB200 NVL72의 경험:

NVLink 백플레인 (구리): 3.2km, 20kW 전력 소모
→ 거리 증가 불가능, 전력 한계 직면

→ 차세대 클러스터: - 더 큰 규모 (288~1,152 GPU) - 더 높은 대역폭 (1.6T 백엔드) - 구리 완전 불가 → 광 필수

4. Co-Packaged Optics (CPO)의 등장

2025년 전환점: - NVIDIA Quantum-X InfiniBand: 2026년 초 상용화 - Broadcom Tomahawk 5-Bailly: 2026년부터 대량 생산 - 409.6 Tb/s, 512개 800G 포트

CPO의 영향: - 플러그 광모듈 15W → CPO 내장 5.4W (65% 전력 절감) - 비용: 초기 높음 (2027년부터 경쟁) - 수요 변화: 플러그 광모듈 성장률 둔화 가능, 총 광 광자 수는 극증가

5. 하이퍼스케일러의 수급 압박

2025~2026 병목: - GPU 공급 부족 (NVIDIA A140 거의 불가) - NIC 공급 부족 (NVIDIA ConnectX-8 대기) - 광트랜시버 부족 (주요 수동적 제약)

결과: 광모듈이 클러스터 확충 속도 결정

정리: 광트랜시버 수요의 3가지 시나리오

보수적 시나리오 (기존 속도 유지)

2026 800G 광모듈 출하: 50M 개
2026 광 시장 규모: $12B
원인: 클러스터 확대 주도, GPU당 광 개수 증가 완만

기준 시나리오 (현재 추정)

2026 800G 광모듈 출하: 63M 개 ✓
2026 1.6T 광모듈 출하: 1~2M 개
2026 광 시장 규모: $14B~16B
원인: B300 도입 + 클러스터 규모화 + CPO 초기 채택

공격적 시나리오 (구리 완전 회피)

2026 800G 광모듈 출하: 70M+ 개
2026 1.6T 광모듈 출하: 3~5M 개
2026 광 시장 규모: $18B~20B
원인: 모든 신규 클러스터 800G 이상, NVL72 이상 구성

2027년 및 이후

2027 800G: 85M+ 개 (여전히 주력)
2027 1.6T: 10M~ 개 (본격화)
2027 광 시장: $22B~28B
2028~2029: 1.6T가 신규 표준, CPO 대량 도입

결론: AI 클러스터 광 수요의 본질

GPU당 광 증가: B300 기준 4~4.5개 (B200 대비 50% ↑)
규모 기하급수: 1,000~10,000 GPU 클러스터가 표준화
속도 진화: 400G (2023) → 800G (2025) → 1.6T (2027)
구리 한계: 거리/전력 모두 한계 → 광 회피 불가능
시장 규모: 2026년 $14B~16B, 2027년 $22B~28B, CAGR >30%

즉, 광트랜시버는 단순 네트워킹 부품이 아닌, AI 인프라 확충을 결정하는 핵심 부품 위상으로 상승.

AI_클러스터_광트랜시버_수요_분석.md