출처: https://x.com/damnang2/status/2031238446237544565
원문 발췌
최신 소식을 놓치지 마세요 X 사용자들은 가장 먼저 새 소식을 듣습니다. AI + 하드웨어, 앞으로 10년의 판이 바뀐다 2026년 3월, UIUC의 Deming Chen을 필두로 스탠포드, UCLA, NVIDIA, Google, IBM 등에서 30명의 연구자가 모여 한 편의 비전 페이퍼를 발표했다. 제목은 "AI+HW 2035: Shaping the Next Decade." AI와 하드웨어가 향후 10년간 어떻게 함께 진화해야 하는지를 다룬다. 특정 실험 결과를 보고하는 학술 논문이 아니라, 업계와 학계가 합의한 방향성 선언문에 가깝다. 이 논문이 왜 중요한지, 무슨 말을 하는지, 그리고 여기서 어떤 투자 시그널을 읽을 수 있는지 정리해본다. 1. AI의 '에너지 위기': 왜 지금 이 논문이 나왔나 AI 모델은 세대가 바뀔 때마다 필요한 컴퓨팅 자원이 수십 배씩 뛴다. GPT-3에서 GPT-4로, GPT-4에서 다음 세대로 넘어갈 때마다 학습에 필요한 에너지, 메모리, 네트워크 대역폭 모두 지수함수적으로 증가한다. 문제는 하드웨어의 발전 속도가 이 수요를 따라가지 못한다는 것이다. 무어의 법칙이 둔화된 지 오래고, GPU를 물리적으로 더 쌓는 것만으로는 비용과 전력의 벽에 부딪힌다. 논문은 이 상황을 명확하게 진단한다. AI의 미래는 단순히 모델을 더 똑똑하게 만드는 것이 아니라, 같은 지능을 더 적은 에너지로 달성하는 데 달려 있다는 것이다. 여기서 등장하는 핵심 개념이 "intelligence per joule", 줄(joule)당 지능이다. 줄은 에너지의 단위다. 100와트 전구를 1초 켜면 100줄이 소비된다. 단순히 FLOPS(초당 연산 횟수)나 모델 크기가 아니라, 에너지 한 단위당 얼마나 의미 있는 성능을 뽑아내느냐가 새로운 경쟁 기준이 된다는 것이다. 이건 학술적인 이야기가 아니다. 데이터센터 전력 비용이 AI 사업의 수익성을 결정하는 시대에, 효율이 곧 경쟁력이다. GPU를 많이 사는 회사가 이기는 게 아니라, 같은 전력으로 더 많은 추론을 해내는 회사가 이긴다. 2. 가장 큰 병목은 '계산'이 아니라 '데이터 이동'이다 일반적으로 AI 성능을 이야기할 때 "연산 능력"을 먼저 떠올린다. GPU가 몇 TFLOPS인지, 코어가 몇 개인지. 그런데 논문이 짚는 핵심 병목은 다른 곳에 있다. 물론 열 관리, 전력 전달, 인터커넥트 등 여러 병목이 동시에 존재하지만(이들은 섹션 5에서 다룬다), 논문이 가장 근본적인 제약으로 지목하는 것은 데이터 이동이다. 데이터를 옮기는 데 드는 에너지가, 실제 계산에 드는 에너지보다 크다. 현재 컴퓨팅 구조에서는 데이터가 메모리에 저장되어 있고, 연산을 하려면 그 데이터를 프로세서로 '옮겨와야' 한다. 이 이동 과정에서 막대한 에너지와 시간이 낭비된다. 이걸 업계에서는 "memory wall"이라고 부른다. 벽에 부딪혔다는 뜻이다. 논문은 이 병목을 해결하기 위한 세 가지 방향을 제시한다. 비유로 풀어보면 이렇다. 첫째, Compute-in-Memory(CIM). 지금은 창고(메모리)에서 물건(데이터)을 공장(프로세서)으로 트럭에 실어 보내고, 공장에서 조립한다. CIM은 발상을 바꾼다. 창고 안에서 바로 조립하면 트럭이 필요 없다. 데이터가 저장된 곳에서 직접 연산을 수행하는 기술이다. 둘째, 3D 적층. 공장을 옆으로 넓히는 대신 위로 쌓는다. 메모리와 프로세서를 수직으로 쌓아 올려서 물리적 거리를 극단적으로 줄인다. HBM(High Bandwidth Memory)이 바로 이 접근의 대표 사례다. 논문은 여기서 더 나아가 3D monolithic integration, 즉 트랜지스터 레벨에서부터 수직 통합하는 기술까지 로드맵에 포함시킨다. 셋째, 광 인터커넥트. 칩과 칩 사이, 서버와 서버 사이를 전기 신호 대신 빛으로 연결한다. 전기 신호는 거리가 멀어지면 에너지 손실이 급격히 커지지만, 빛은 그렇지 않다. 이것이 Co-Packaged Optics(CPO)와 실리콘 포토닉스가 뜨는 이유다. 정리하면 이렇다. HBM이 왜 반도체 업계의 핫 키워드인지, CPO가 왜 차세대 기술로 주목받는지, CIM이 왜 연구 투자가 몰리는지. 이 세 가지가 모두 같은 문제, "데이터 이동의 에너지 비용"을 해결하기 위한 서로 다른 경로다. 이 논문 한 편으로 그 그림이 잡힌다. 3. AI와 하드웨어가 '같이 진화'해야 한다 이 논문의 핵심 주장은 결국 하나다. AI 소프트웨어와 하드웨어를 따로 개발하면 안 된다. 같이 설계해야 한다. 이걸 "co-design"이라고 부른다. 현재 업계의 현실은 이렇다. AI 알고리즘 연구자들은 "GPU가 알아서 빨라지겠지"라고 가정하고 모델을 설계한다. 칩 설계자들은 "지금 유행하는 모델에 맞춰서" 하드웨어를 최적화한다. 문제는 칩 하나를 설계하는 데 2~3년이 걸리는데, AI 모델의 패러다임은 6개월마다 바뀐다는 것이다. 설계가 끝났을 때 이미 세상이 바뀌어 있다. 논문은 이 문제를 풀기 위해 3층 구조의 프레임워크를 제시한다. 맨 아래 하드웨어 계층은 메모리 중심 아키텍처, 3D 적층, 광 인터커넥트 등 물리적 한계를 돌파하는 기술들이다. 가운데 알고리즘 계층은 하드웨어 제약을 인식하고 그에 맞게 효율적으로 동작하는 AI 모델이다. 맨 위 애플리케이션 계층은 실제 사용 사례(로봇, 자율주행, 과학 시뮬레이션 등)가 하드웨어와 알고리즘에 새로운 요구사항을 던진다. 핵심은 이 세 층이 일방향이 아니라 양방향으로 영향을 주고받는다는 것이다. 하드웨어가 알고리즘의 한계를 결정하고, 알고리즘이 하드웨어 설계 방향을 바꾸고, 애플리케이션이 둘 다에 새로운 요구를 만든다. 여기서 특히 흥미로운 부분은 "AI가 AI 하드웨어를 설계하는" 선순환이다. 논문은 AI 기반 EDA(Electronic Design Automation)를 미래 하드웨어 설계의 핵심으로 본다. 칩 설계의 복잡도가 인간이 감당할 수 있는 수준을 넘어서고 있기 때문이다. AI가 칩을 설계하고, 그 칩이 더 나은 AI 학습을 가능하게 하는 선순환 고리. 이것이 논문이 그리는 2035년의 모습이다. 4. 10년 후의 성공 조건: 1000배 효율, Physical AI, 민주화 논문은 "10년 후 성공"을 네 가지로 정의한다. 첫째, AI 학습과 추론의 효율을 1000배 향상시킨다. 지금과 같은 전력으로 1000배 더 많은 AI 연산을 해낸다는 뜻이다. 이건 GPU를 1000배 더 사는 것과는 완전히 다른 접근이다. 하드웨어 아키텍처, 알고리즘, 시스템 소프트웨어 전 계층에서 동시에 최적화해야만 가능한 수치다. 참고로 이 1000배는 순수 성능이 아니라 에너지 효율(intelligence per joule) 기준이다. 뒤에서 다룰 시스템 신뢰성의 100배 저하 가능성(섹션 5-5)과는 별개의 지표다. 둘째, 클라우드에서 엣지, 그리고 물리 세계까지 끊김 없이 동작하는 AI 시스템. 논문은 "Physical AI"라는 개념을 강조한다. 데이터센터 안에서만 도는 AI가 아니라, 로봇, 자율주행차, 드론 등 실제 물리 세계에서 실시간으로 동작하는 AI다. 논문의 전망에 따르면, 2035년에는 Physical AI가 전체 AI 추론 수요의 대부분을 차지할 것이다. 이는 저전력, 소형 프로세서에서 고효율로 돌아가는 AI 모델이 반드시 필요하다는 뜻이다. 셋째, AI 인프라 접근성의 민주화. 현재 최첨단 AI 연구는 막대한 GPU 클러스터를 보유한 빅테크 기업에 집중되어 있다. 논문은 학계와 중소 기업도 최첨단 AI 인프라에 접근할 수 있어야 한다고 주장한다. 미국 정부의 NAIRR(National AI Research Resource) 같은 공유 인프라 확대를 구체적인 방안으로 제시한다. 넷째, 인간 중심 설계 원칙. Agentic AI, 즉 자율적으로 판단하고 행동하는 AI 시스템이 보편화되면, 인간과 AI가 어떻게 협업하고 소통하는지가 핵심 설계 과제가 된다. 기술이 앞서가되 인간이 통제권을 잃지 않는 구조를 만들어야 한다는 것이다. 5. 투자자와 엔지니어가 읽어야 할 시그널 이 비전 페이퍼에서 읽어낼 수 있는 산업적 시그널은 분명하다. 논문은 11개의 세부 기술 레이어를 정의하고 각각의 핵심 기술, 트렌드,