메타 라마 API, 경쟁사 압도하는 속도 혁신 공개

최근 메타(Meta)가 개발자들을 위한 새로운 라마(Llama) API를 공개하며 AI 서비스 시장에 본격적으로 뛰어들었습니다. 특히 이 API는 속도 면에서 혁신을 가져왔다고 합니다.

속도 혁신: 세레브라스와의 만남

메타는 세레브라스 시스템즈(Cerebras Systems)와 협력하여 이 빠른 API를 만들었습니다. 전통적인 GPU 기반 솔루션보다 최대 18배 빠른 추론 속도를 제공한다고 발표했습니다. 이 소식은 메타의 첫 라마콘(LlamaCon) 개발자 컨퍼런스에서 공개되었습니다.

이번 파트너십은 메타가 오픈AI(OpenAI), 앤트로픽(Anthropic), 구글(Google) 등과 함께 빠르게 성장하는 AI 추론 서비스 시장에서 경쟁하겠다는 의지를 보여줍니다. 이 시장에서 개발자들은 애플리케이션 구동을 위해 수십억 개의 토큰을 구매합니다.

세레브라스의 최고 마케팅 책임자 줄리 신 최(Julie Shin Choi)는 “메타는 새로운 라마 API를 통해 개발자들에게 초고속 추론을 제공하기 위해 세레브라스를 선택했다”며, “세레브라스가 첫 CSP 하이퍼스케일러 파트너십을 통해 모든 개발자에게 초고속 추론을 제공하게 되어 매우 기쁘다”고 밝혔습니다.

압도적인 성능 차이

메타의 새로운 서비스가 주목받는 이유는 세레브라스의 특수 AI 칩이 제공하는 극적인 속도 향상 때문입니다. 세레브라스 시스템은 라마 4 스카우트(Llama 4 Scout) 모델에서 초당 2,600개 이상의 토큰을 처리하는 성능을 보여주었습니다.

이는 다른 서비스들과 비교하면 엄청난 차이입니다. 인공지능 분석(Artificial Analysis)의 벤치마크에 따르면,

챗GPT(ChatGPT)는 약 130 토큰/초
딥시크(DeepSeek)는 약 25 토큰/초
일반적인 GPU 기반 서비스는 약 100 토큰/초

수준이라고 합니다. 세레브라스의 제임스 왕(James Wang) 수석 임원은 “제미니(Gemini)와 GPT 같은 훌륭한 모델들도 GPU 속도로 작동하며, 이는 채팅에는 괜찮지만 추론이나 에이전트 작업에는 매우 느리다”고 설명했습니다.

이러한 속도 우위는 이전에는 실용적이지 않았던 완전히 새로운 범주의 애플리케이션을 가능하게 합니다.

실시간 에이전트
대화형 저지연 음성 시스템
즉각적인 코드 생성
빠른 다단계 추론

이 모든 작업은 여러 대규모 언어 모델 호출을 연결해야 하는데, 이제 몇 분이 아닌 몇 초 만에 완료될 수 있게 된 것입니다.

오픈소스에서 상업 서비스로: 메타의 전략 변화

라마 API는 메타의 AI 전략에 중요한 변화를 나타냅니다. 단순히 모델 제공업체에서 벗어나 풀 서비스 AI 인프라 회사로 전환하는 것입니다. API 서비스를 제공함으로써 메타는 AI 투자로부터 수익을 창출하는 동시에 오픈 모델에 대한 약속을 유지하고 있습니다.

메타의 라마 모델은 10억 회 이상 다운로드될 정도로 인기가 많았지만, 지금까지는 개발자들이 이를 기반으로 애플리케이션을 구축할 수 있는 자체 클라우드 인프라를 제공하지 않았습니다.

제임스 왕은 “메타가 이제 토큰 판매 사업에 뛰어들었다는 것은 미국 AI 생태계에 매우 좋은 소식”이라며, “그들은 많은 것을 가져올 수 있다”고 언급했습니다.

API는 미세 조정 및 평가 도구를 제공하며, 라마 3.3 8B 모델부터 시작합니다. 개발자는 데이터를 생성하고, 이를 기반으로 학습시키며, 커스텀 모델의 품질을 테스트할 수 있습니다. 메타는 고객 데이터를 자체 모델 학습에 사용하지 않으며, 라마 API를 사용하여 구축된 모델은 다른 호스트로 이전할 수 있다고 강조했습니다. 이는 일부 경쟁사의 폐쇄적인 접근 방식과 차별화되는 부분입니다.

세레브라스의 역할과 인프라

세레브라스는 북미 전역에 위치한 데이터 센터 네트워크를 통해 메타의 새로운 서비스를 지원할 예정입니다. 여기에는 댈러스, 오클라호마, 미네소타, 몬트리올, 캘리포니아 등의 시설이 포함됩니다.

줄리 신 최는 “현재 추론 서비스를 제공하는 모든 데이터 센터는 북미에 있다”며, “세레브라스의 전체 용량으로 메타를 지원할 것이며, 워크로드는 이 여러 데이터 센터에 걸쳐 분산될 것”이라고 설명했습니다.

이 사업 방식은 컴퓨팅 제공업체(세레브라스)가 하이퍼스케일러(메타)에게 서비스를 제공하는 ‘고전적인 컴퓨팅 제공업체-하이퍼스케일러’ 모델을 따릅니다. 엔비디아(Nvidia)가 주요 클라우드 제공업체에 하드웨어를 제공하는 것과 유사한 방식입니다.

세레브라스 외에도 메타는 그록(Groq)과도 협력하여 빠른 추론 옵션을 제공할 것이라고 발표했습니다. 이는 개발자들에게 전통적인 GPU 기반 추론 외에 여러 고성능 대안을 제공하겠다는 의미입니다.

AI 시장의 판도를 바꿀까?

메타가 뛰어난 성능의 추론 API 시장에 진입하면서 기존 오픈AI, 구글, 앤트로픽이 주도하던 시장 질서에 변화가 생길 수 있습니다. 인기 있는 오픈소스 모델과 압도적으로 빠른 추론 성능을 결합하여 상업용 AI 공간에서 강력한 경쟁자로 자리매김하고 있습니다.

세레브라스의 자료에 따르면, “메타는 30억 명의 사용자, 하이퍼스케일 데이터 센터, 거대한 개발자 생태계를 갖춘 독보적인 위치에 있다”며, 세레브라스 기술 통합이 “메타가 오픈AI와 구글을 성능 면에서 약 20배 앞서나가도록 돕는다”고 합니다.

세레브라스에게도 이번 파트너십은 중요한 이정표이자 전문 AI 하드웨어 접근 방식의 유효성을 입증하는 계기입니다. 제임스 왕은 “우리는 수년간 이 웨이퍼 스케일 엔진을 구축해 왔으며, 기술이 최고 수준이라는 것을 항상 알았지만, 궁극적으로는 다른 회사의 하이퍼스케일 클라우드의 일부가 되어야 했다”며, “이것이 상업 전략 관점에서 최종 목표였고, 마침내 그 이정표에 도달했다”고 말했습니다.

개발자는 어떻게 사용하나요?

라마 API는 현재 제한된 미리 보기(limited preview) 형태로 제공되고 있으며, 앞으로 몇 주, 몇 달 안에 더 광범위하게 출시될 예정입니다.

초고속 라마 4 추론에 관심 있는 개발자는 라마 API 내 모델 옵션에서 세레브라스를 선택하여 조기 액세스를 신청할 수 있습니다.

제임스 왕은 “세레브라스에 대해 잘 모르는 개발자라도 메타의 표준 소프트웨어 SDK에서 두 번의 클릭만으로 API 키를 생성하고 세레브라스 플래그를 선택하면, 갑자기 그들의 토큰이 거대한 웨이퍼 스케일 엔진에서 처리된다”며, “메타의 전체 개발자 생태계 백엔드에 우리가 있다는 것은 우리에게 엄청난 의미”라고 설명했습니다.

메타가 전문화된 AI 칩을 선택했다는 것은 AI의 다음 단계에서는 모델이 무엇을 아는지뿐만 아니라 얼마나 빠르게 생각하는지가 중요하다는 것을 시사합니다. 미래에는 속도가 단순한 기능이 아니라 핵심 경쟁력이 될 것입니다.