AMD, 1.4kW 괴물 MI355X로 엔비디아 블랙웰에 맞서다.

AMD, 엔비디아 블랙웰에 도전장! 1.4kW 액체 냉각 괴물, MI355X 공개

최근 인공지능(AI) 인프라 시장에서 엔비디아(Nvidia)의 블랙웰(Blackwell) 가속기가 큰 주목을 받고 있는데요. AMD가 이에 맞설 강력한 신제품, MI350 시리즈 GPU를 선보이며 성능 면에서 이미 동등한 수준에 도달했다고 발표했습니다. 특히 MI355X는 1.4kW의 전력을 소모하는 액체 냉각 방식의 괴물 같은 성능을 자랑한다고 해요.

MI350 시리즈, 엔비디아 블랙웰과 정면 대결!

AMD의 새로운 MI350 시리즈 GPU는 완전히 새로운 CDNA 4 아키텍처와 정교한 칩렛(chiplet) 아키텍처를 기반으로 합니다. 이들은 AI 인프라 시장에서 엔비디아의 강력한 입지를 흔들겠다는 야심을 드러내고 있어요.

주요 사양을 살펴보면, MI355X는 최대 10페타플롭스(petaFLOPS)의 스파스(sparse) FP4 성능을 자랑하며, 스파스리티(sparsity)를 활용할 수 있는 워크로드에서는 두 배의 성능을 낼 수 있다고 합니다. 또한, 288GB의 HBM3E 메모리와 8TBps의 메모리 대역폭을 갖추고 있어요.

AI 훈련 및 추론에 있어 가장 중요한 지표인 부동 소수점 성능과 메모리 대역폭에서 엔비디아의 가장 강력한 블랙웰 GPU와 어깨를 나란히 하겠다는 것이 AMD의 목표입니다. 실제로 AMD가 공개한 벤치마크에서는 두 개의 MI355X가 엔비디아의 듀얼 GPU GB200 슈퍼칩(Superchip)과 라마 3.1 405B(Llama 3.1 405B) 모델에서 대등한 성능을 보여주기도 했습니다. 물론, 모든 벤치마크는 참고용으로 봐야겠죠.

AMD의 최신 칩은 엔비디아가 올봄 발표한 288GB 블랙웰 울트라(Blackwell Ultra) GPU와 비교해도 크게 뒤처지지 않는다고 합니다. 다음 분기부터 출하가 시작되면 메모리 용량 격차를 좁힐 뿐만 아니라, 덴스(dense) FP4에서는 AMD의 기존 MI300 시리즈 대비 최대 50% 더 높은 성능을 제공할 예정이에요. FP8, FP16, BF16에서는 AMD와 엔비디아가 거의 동등한 수준이라고 합니다.

차세대 실리콘 아키텍처 해부하기

MI350 시리즈 칩의 내부를 들여다보면, 익숙한 형태의 컴퓨트 다이(compute die)들이 고대역폭 메모리(HBM)에 둘러싸여 있는 모습을 볼 수 있습니다. 겉보기에는 엔비디아의 블랙웰이나 인텔(Intel)의 가우디3(Gaudi3)와 비슷해 보이지만, AMD의 인스팅트(Instinct) 라인은 그 속이 다릅니다.

엔비디아나 인텔의 가속기처럼 두 개의 레티클(reticle) 크기 컴퓨트 다이를 사용하는 대신, AMD의 인스팅트 가속기는 TSMC의 2.5D 패키징과 3D 하이브리드 본딩(hybrid bonding) 기술을 활용하여 여러 개의 작은 컴퓨트 및 I/O 칩렛을 하나의 거대한 실리콘 서브시스템으로 통합합니다.

MI350 시리즈의 경우, 2023년에 공개된 MI300X와 유사하게 TSMC의 3nm 공정 기술로 제작된 8개의 XCD GPU 다이가 두 개의 6nm I/O 다이 위에 수직으로 쌓여 있습니다. 각 컴퓨트 칩렛은 36개의 CDNA 4 컴퓨트 유닛(CU)을 포함하며, 이 중 32개가 활성화되어 총 256개의 CU를 제공합니다. 또한, 4MB의 공유 L2 캐시를 갖추고 있어요. 288GB의 HBM3E 메모리는 256MB의 “인피니티(Infinity)” 캐시로 지원됩니다.

I/O 다이 간 데이터 전송에 사용되는 인피니티 패브릭-어드밴스드 패키지(Infinity Fabric-Advanced Package) 인터커넥트는 5.5TBps의 양방향 대역폭으로 업그레이드되었습니다. 이는 이전 세대의 2.4TBps에서 3TBps보다 크게 향상된 수치입니다. AMD의 인스팅트 SoC 수석 아키텍트인 앨런 스미스(Alan Smith)에 따르면, 이 더 넓은 인터커넥트는 칩 간 통신에 필요한 비트당 에너지 양을 줄여준다고 합니다.

고밀도 스케일아웃 배포의 미래

AMD의 GPU가 엔비디아 블랙웰 가속기와 성능 격차를 좁혔지만, 시스템 설계 측면에서는 아직 갈 길이 멀다고 합니다. 엔비디아의 블랙웰 가속기는 랙스케일(rackscale), HGX, PCIe 폼팩터로 구매할 수 있지만, AMD의 MI350 시리즈는 8-GPU 구성으로만 제공될 예정입니다.

AMD의 조쉬 프리드리히(Josh Friedrich) 부사장은 “이 직접 연결된 8-GPU 아키텍처가 2025년에서 2026년까지 출시될 대다수 모델에 적합하다고 판단했다”며, “시기상조로 독점적인 랙 타입 아키텍처를 도입하여 발생할 수 있는 문제들을 피하고 싶었다”고 설명했습니다.

MI350 시리즈는 8개의 MI350 시리즈 칩이 AMD의 인피니티 패브릭을 통해 올투올(all-to-all) 스케일업(scale-up) 토폴로지로 연결되는 디자인을 특징으로 합니다. 이 GPU들은 두 개의 x86 CPU와 최대 8개의 400Gbps NIC에 PCIe 5.0 스위치를 통해 연결됩니다.

각 시스템은 최대 2.25TB의 HBM3E 메모리와 액체 냉각 또는 공기 냉각 여부에 따라 147에서 160페타플롭스의 스파스 FP4 컴퓨팅 성능을 제공합니다. AMD는 자사의 인스팅트 가속기가 에픽(Epyc) CPU 및 펜산도 폴라라 400(Pensando Pollara 400) NIC와 함께 사용되기를 바라지만, 벤더들은 인텔 프로세서나 커넥트X 인피니밴드(ConnectX InfiniBand) 네트워킹을 기반으로 시스템을 구축할 수도 있습니다. 실제로 마이크로소프트(Microsoft)는 ND-MI300X-v5 인스턴스에 이러한 구성을 사용했다고 합니다.

MI350 시리즈의 출시와 함께 AMD는 더 높은 밀도의 랙 배포를 추진하고 있습니다. GPU 전력 소비가 증가함에 따라 서버 섀시가 더 커지는 추세인데, 액체 냉각으로 전환하면서 AMD는 이제 랙당 최대 16개 노드와 128개의 가속기를 밀집시킬 수 있을 것으로 예상하고 있습니다. 공기 냉각 방식의 경우에도 랙당 최대 8개 노드와 64개의 가속기를 예상하며, 이는 후면 도어 열교환기(rear-door heat exchanger) 사용이 거의 필수적일 것으로 보입니다. 이러한 높은 랙 밀도는 내년에 MI400 시리즈 칩과 함께 출시될 AMD의 첫 랙스케일 시스템의 방향을 제시하고 있습니다.

출시 및 주요 고객

AMD는 MI350 시리즈 가속기가 현재 고객들에게 출하되고 있으며, 클라우드 및 하이퍼스케일(hyperscale) 데이터센터에 광범위하게 배포될 것으로 예상하고 있습니다. 특히 오라클 OCI(Oracle OCI)는 131,072개의 가속기를 포함하는 AI 컴퓨팅 클러스터를 구축할 예정이라고 합니다. 이 시스템이 완성되면 AMD MI355X가 제공할 수 있는 가장 스파스한 FP4 컴퓨팅 성능으로 2.6제타플롭스(zettaFLOPS) 이상을 처리할 수 있을 것으로 추정됩니다.

온프레미스(On-premise) 배포를 원하는 고객들을 위해 델(Dell), HPE, 슈퍼마이크로(Supermicro)에서도 MI350 시리즈 시스템을 제공할 예정이라고 하니, 앞으로 AI 시장에서 AMD의 활약이 더욱 기대됩니다.