2026-04-06 21:55
AI 클러스터의 광트랜시버 수요 구조 심층 분석
2026-03-24 | 웹 리서치 기반 분석
목차
- GPU 세대별 광트랜시버 수요
- 데이터센터 네트워크 계층별 광 활용
- InfiniBand vs Ethernet
- 하이퍼스케일러별 CapEx 및 광 지출
- 글로벌 출하량 및 시장 전망
- 수요 구조의 핵심 드라이버
GPU 세대별 광트랜시버 수요
A100 클러스터
| 구성 | 비율 | 설명 |
|---|---|---|
| GPU:800G InfiniBand | 1:0.75 | 2계층 네트워크, MQM9700 스위치 |
| GPU:200G 광모듈 | 1:6 | 3계층 네트워크, MQM8700 스위치 |
특징: 200G이 주력으로, 더 많은 광 모듈 필요.
H100 클러스터
| 구성 | 비율 | 설명 |
|---|---|---|
| GPU:800G 광모듈 | 1:1.5 | 2계층 네트워크 |
| GPU:400G 광모듈 | 1:1 | 백엔드 스케일-아웃 |
| GPU:광모듈 | 1:6 | 3계층 네트워크 (800G) |
아키텍처 세부사항: - H100 카드: 8개 GPU + 8개 400G NIC 결합 → 4개 800G 인터페이스 구성 - DGX H100 슈퍼팟: 32개 노드(256개 GPU) + 1,536개 800G + 1,024개 400G - 128 H100 서버 클러스터: 1,536개 800G OSFP + 1,024개 400G OSFP
B200/GB200 (Blackwell) - 혁신적 변화
GB200 NVL72 (72 GPU): - NVLink 백플레인: 3.2km 구리 케이블 (광 회피) → 20kW 전력 절감 - 백엔드 네트워크: 400G 또는 800G InfiniBand/Ethernet (GPU당 1 NIC) - 인터페이스: 72 OSFP 포트 (400G/800G) → H100과 동일 - 400G→800G 전환: CX-7→CX-8로 이동하면서 SR4(4×100G)→DR4(4×200G) 광트랜시버로 전환
GB200 NVL576 (576 GPU): - 실제 도입 불가: 추가 구리/광 연결 비용 $38.8K/GPU - DGX H100 NVL256도 같은 이유로 미출시
B300 및 최신 세대
| GPU | 800G 광트랜시버 비율 | 설명 |
|---|---|---|
| H100/B200 | 2:1 ~ 3:1 | 컴퓨팅 패브릭만 계산 |
| B300 | 4:1 ~ 4.5:1 | 최신 레퍼런스 설계 (대폭 증가) |
트렌드: GPU 세대가 올라갈수록 GPU당 광트랜시버 개수 가파른 증가.
데이터센터 네트워크 계층별 광 활용
계층 구조 및 광/구리 선택
┌─────────────────────────────────────────┐
│ Data Center Interconnect (DCI) 계층 │
│ └─ 데이터센터 간 초장거리 연결 │
│ └─ 100% 광 (DWDM, Coherent) │
├─────────────────────────────────────────┤
│ Inter-Rack 계층 │
│ └─ 랙 간 연결 (수백m ~ 수km) │
│ └─ 400G/800G 광 (DR4, FR4) │
├─────────────────────────────────────────┤
│ Intra-Rack 계층 (Scale-up) │
│ └─ 같은 랙 내 GPU-Switch 연결 │
│ └─ 주로 구리 케이블 (DAC/AEC) │
│ └─ 예: NVLink 백플레인 (구리 선호) │
└─────────────────────────────────────────┘
각 계층별 광트랜시버 타입
| 계층 | 거리 | 광모듈 타입 | 비율 | 설명 |
|---|---|---|---|---|
| DCI | 10km~ | Coherent, ZR, LR | 적음 | 초고속도로만 필요 |
| Inter-Rack | 500m~2km | DR4, FR4 | 높음 | AI 클러스터 주력 |
| Intra-Rack | 100m 이하 | SR4, SR8 | 낮음 | 구리 우선 선택 |
DR4 (Digital Reach 4) - 사거리: 최대 500m - 용도: 포인트-투-포인트 스위치 간 연결 - 모드: 단일모드 8-섬유 병렬 케이블
FR4 (Fixed Reach 4) - 사거리: 2km 이상 - 용도: 빌딩/캠퍼스 간, 지역 DCI - 비용 효율성: 중거리 표준
SR4/SR8 (Short Reach) - 사거리: 70~100m - 용도: 같은 랙 내 스위치 연결 - 멀티모드 광섬유 (OM3/OM4)
인프라 스케일에서 광의 비중
2계층 네트워크 (일반적 AI 클러스터)
GPU:Switch:광모듈 = 1 : 0.15 : 4 (구리 사용 시)
GPU:Switch:광모듈 = 1 : 0.15 : 6 (전광 네트워크)
핵심: 네트워크 스위치 1개당 광모듈은 약 26~40개 필요.
InfiniBand vs Ethernet
시장 전환 (2025년 주요 변화)
| 기술 | 지연시간 | 신뢰성 | 광모듈 | 채택 현황 |
|---|---|---|---|---|
| InfiniBand | 1~2 μs | 매우 높음 | NVIDIA 독점 (비쌈) | 대규모 클러스터 (Meta, Microsoft) |
| Ethernet (RoCE) | 5~10 μs | 안정화 중 | 표준 (저가) | 중소 클러스터, 비용 민감 |
Ultra Ethernet Consortium (UEC) 1.0 - 2025년 6월 출범
목표: - InfiniBand의 지연시간 성능과 Ethernet의 비용을 결합 - 함수형 프로그래밍, TCO, 개발자 경험 최적화 - 광모듈은 동일: 400G/800G DR4, FR4, SR8 호환성
결과: 2025년 중반 Ethernet이 AI 백엔드 시장 리드
광모듈 호환성
양쪽 다 동일 규격 사용: - 400G OSFP/QSFP-DD - 800G OSFP - DR4, FR4, SR8, SR4 모두 호환
→ 네트워크 선택 ≠ 광모듈 수요 변화 (단, 가격/공급사 차이)
Tier 2/3 기업의 권장사항
- 256~1,024 GPU 클러스터: Ethernet + RoCE 권장
- 이유: InfiniBand보다 2배 이상 비싼 네트워킹 비용 회피
- 성능 차이: 적절히 튜닝하면 실제 훈련 속도 차이 미미
하이퍼스케일러별 CapEx 및 광 지출
전체 하이퍼스케일러 CapEx 규모
| 연도 | 투자 규모 | 전년비 | AI 비중 |
|---|---|---|---|
| 2024 | $256B | - | ~70% |
| 2025 | $443B | +73% | ~75% |
| 2026 | $602B~690B | +36%~56% | ~75% = $450~520B |
광 네트워킹 시장 (특정 비중)
- 데이터센터 옵틱스 시장 2025: $16B+ (전년대비 60% 성장)
- 광트랜시버 수입: 하이퍼스케일러가 전체 800G+ 수요의 70% 이상 차지
하이퍼스케일러별 전략
Microsoft Azure - AI + 클라우드 이중 투자 (CapEx 연간 $60B~) - 400G → 800G → 1.6T 적극 전환
Meta (Llama 훈련) - 자체 클러스터: RoCE Ethernet 선택 검증 - InfiniBand ≈ RoCE (성능) 결론 도출 - → 광 비용 최소화 방향
Google (TPU) - 광회로스위치(Optical Circuit Switch, OCS) 자체 개발 - v5p 슈퍼팟: 13,824 광 포트 (2025 최대 규모) - v6e: 13 TB/s ICI 대역폭/칩 - → GPU 네트워크와 완전히 다른 아키텍처
Amazon/Oracle - 표준 Ethernet (Broadcom, Arista) + Trainium/Inferentia 칩 - 400G/800G 표준 광모듈 채택
광 지출 추정
2026 AI CapEx $450B 중:
├─ GPU/AI 칩: $180B (~40%)
├─ 메모리: $90B (~20%)
├─ 네트워크 인프라: $45B~ (~10%)
│ └─ 광트랜시버: $12B~ (광 비중 26%)
├─ 랙/전력/냉각: $90B (~20%)
└─ 기타: $45B (~10%)
→ 2026년 광트랜시버 시장 규모 추정: $12B~16B
글로벌 출하량 및 시장 전망
800G 광트랜시버 출하량
| 연도 | 출하량 | 성장률 | 전체 광모듈 점유율 |
|---|---|---|---|
| 2024 | 12.3M | - | 19.5% |
| 2025 | 24M | +100% YoY | 35%~ |
| 2026 | 63M | +162% YoY | >60% |
| 2027 | 90M+ (추정) | +43% | 70%+ |
Citi Research (2025년 5월): - 2026 800G 광모듈: 37M 개 (+85% YoY) - 이유: GPU당 광모듈 수 증가 + ASIC당 포트 증가
1.6T 전환 타이밍
| 단계 | 시기 | 비중 | 상태 |
|---|---|---|---|
| 검증/파일럿 | 2025년 | <1% | 몇 개 리더 채택 |
| 초기 배포 | 2026년 (H2) | 3~5% | 클라우드/HPC 초기 |
| 본격 탑재 | 2027년 | 15~25% | 신규 빌드 우선 |
| 주력 표준 | 2028~2029 | >50% | 800G 대체 |
중요: 800G → 1.6T 전환이 이전 세대 전환(400G→800G)보다 2배 빠름.
1.6T 출하량 전망
2025년: <0.5M 개
2026년: 1~2M 개 (검증용)
2027년: 8~12M 개 (본격화)
2028년: 25~35M 개 (주력)
수요 구조의 핵심 드라이버
1. GPU당 광트랜시버 개수의 가파른 증가
A100 (2020): GPU당 1.5~2 개 (불완전)
H100 (2022): GPU당 1.5~3 개
B200 (2024): GPU당 2~3 개
B300 (2024): GPU당 4~4.5 개 ⬅️ 혁신적 증가
원인: - NVLink 내부 대역폭 ↑ (H100: 900 GB/s) - 백엔드 네트워크 속도 ↑ (400G → 800G) - 다중 링크 구성 (각 GPU가 여러 스위치에 연결)
2. 데이터센터 규모의 기하급수적 확대
| 클러스터 규모 | 2024 | 2026 전망 |
|---|---|---|
| 256 GPU | 기준 | 기준 |
| 1,024 GPU | 드문 | 점점 늘어남 |
| 4,096 GPU | 극소수 | 일반화 예상 |
| 8,192+ GPU | 불가능 | 실현 가능 |
클러스터 규모 2배 = 광모듈 필요량 4배
3. 구리→광 전환의 물리적 한계
GB200 NVL72의 경험:
NVLink 백플레인 (구리): 3.2km, 20kW 전력 소모
→ 거리 증가 불가능, 전력 한계 직면
→ 차세대 클러스터: - 더 큰 규모 (288~1,152 GPU) - 더 높은 대역폭 (1.6T 백엔드) - 구리 완전 불가 → 광 필수
4. Co-Packaged Optics (CPO)의 등장
2025년 전환점: - NVIDIA Quantum-X InfiniBand: 2026년 초 상용화 - Broadcom Tomahawk 5-Bailly: 2026년부터 대량 생산 - 409.6 Tb/s, 512개 800G 포트
CPO의 영향: - 플러그 광모듈 15W → CPO 내장 5.4W (65% 전력 절감) - 비용: 초기 높음 (2027년부터 경쟁) - 수요 변화: 플러그 광모듈 성장률 둔화 가능, 총 광 광자 수는 극증가
5. 하이퍼스케일러의 수급 압박
2025~2026 병목: - GPU 공급 부족 (NVIDIA A140 거의 불가) - NIC 공급 부족 (NVIDIA ConnectX-8 대기) - 광트랜시버 부족 (주요 수동적 제약)
결과: 광모듈이 클러스터 확충 속도 결정
정리: 광트랜시버 수요의 3가지 시나리오
보수적 시나리오 (기존 속도 유지)
2026 800G 광모듈 출하: 50M 개
2026 광 시장 규모: $12B
원인: 클러스터 확대 주도, GPU당 광 개수 증가 완만
기준 시나리오 (현재 추정)
2026 800G 광모듈 출하: 63M 개 ✓
2026 1.6T 광모듈 출하: 1~2M 개
2026 광 시장 규모: $14B~16B
원인: B300 도입 + 클러스터 규모화 + CPO 초기 채택
공격적 시나리오 (구리 완전 회피)
2026 800G 광모듈 출하: 70M+ 개
2026 1.6T 광모듈 출하: 3~5M 개
2026 광 시장 규모: $18B~20B
원인: 모든 신규 클러스터 800G 이상, NVL72 이상 구성
2027년 및 이후
2027 800G: 85M+ 개 (여전히 주력)
2027 1.6T: 10M~ 개 (본격화)
2027 광 시장: $22B~28B
2028~2029: 1.6T가 신규 표준, CPO 대량 도입
결론: AI 클러스터 광 수요의 본질
- GPU당 광 증가: B300 기준 4~4.5개 (B200 대비 50% ↑)
- 규모 기하급수: 1,000~10,000 GPU 클러스터가 표준화
- 속도 진화: 400G (2023) → 800G (2025) → 1.6T (2027)
- 구리 한계: 거리/전력 모두 한계 → 광 회피 불가능
- 시장 규모: 2026년 $14B~16B, 2027년 $22B~28B, CAGR >30%
즉, 광트랜시버는 단순 네트워킹 부품이 아닌, AI 인프라 확충을 결정하는 핵심 부품 위상으로 상승.
참고 자료
- How Many Optical Transceivers are Needed for A GPU? | FiberMall
- Optical Module Requirements for A100 and H100 GPUs | FS
- GB200 Hardware Architecture - SemiAnalysis
- NVIDIA GB200 Interconnect Analysis - NADDOD
- 800GbE Optics Shipments to Grow 60% in 2025 - Cignal AI
- Over 800G Optical Transceiver Shipments to Soar 2.6x by 2026 - Communications Today
- InfiniBand vs Ethernet for AI Clusters 2025 - Vitex
- Data Center Interconnect - Wikipedia
- Co Packaged Optics (CPO) - SemiAnalysis
- Where Co-Packaged Optics Stands in 2026 - EDN
- Google TPU Architecture: 7 Generations - Introl
- Hyperscaler CapEx 2026 - CreditSights