유럽의 디지털 주권 로드맵에 등장한 오픈 소스 LLM
최근 유럽연합(EU)의 모든 언어를 지원하는 “진정한” 오픈 소스 대규모 언어 모델(LLM, Large Language Models) 개발 프로그램 소식이 전해지면서 LLM이 유럽의 디지털 주권 의제에 큰 영향을 미치고 있습니다.
OpenEuroLLM 프로젝트
이 프로젝트는 현재 EU 공식 언어인 24개 언어는 물론, EU 시장 진입을 협상 중인 국가들의 언어까지 포함합니다. 미래를 대비하는 것이 목표입니다. OpenEuroLLM은 프라하 카렐 대학교의 계산 언어학자인 하이츠(Hajič)와 핀란드 AI 연구소 Silo AI의 CEO 겸 공동 창립자인 살린(Sarlin)이 공동으로 이끄는 약 20개 기관의 협력 프로젝트입니다.
유럽은 디지털 주권을 우선순위로 두고, 핵심 인프라와 도구를 자국으로 가져오려는 노력을 기울여 왔습니다. 이러한 맥락에서 OpenEuroLLM 프로젝트는 유럽의 디지털 주권 강화 노력의 일환으로 볼 수 있습니다.
예산 및 참여 기관
모델 구축에만 3,740만 유로의 예산이 투입되며, 이 중 약 2,000만 유로는 EU 기금에서 지원됩니다. 이는 거대 AI 기업들의 투자에 비하면 매우 적은 금액입니다. 하지만 관련 작업을 위한 자금까지 고려하면 실제 예산은 더 많아집니다. OpenEuroLLM 프로젝트에는 스페인, 이탈리아, 핀란드, 네덜란드의 슈퍼컴퓨터 센터가 참여하고 있으며, 더 넓은 범위의 EuroHPC 프로젝트는 약 70억 유로의 예산을 보유하고 있습니다.
학계, 연구 기관, 기업 등 다양한 참여 주체들이 참여하면서 목표 달성 가능성에 대한 의문도 제기되고 있습니다. LLM 회사 CoGram의 공동 창립자인 스타센코(Stasenko)는 “20개 이상의 기관으로 구성된 광범위한 컨소시엄이 자체 AI 기업과 같은 집중력을 가질 수 있을지”에 대해 의문을 표했습니다.
프로젝트의 시작점
OpenEuroLLM 프로젝트는 2022년부터 하이츠가 조정해 온 고성능 언어 기술(HPLT, High Performance Language Technologies) 프로젝트를 기반으로 합니다. HPLT 프로젝트는 고성능 컴퓨팅(HPC, High-Performance Computing)을 사용하여 무료로 재사용 가능한 데이터 세트, 모델 및 워크플로우를 개발하는 것을 목표로 합니다. 하이츠에 따르면 HPLT 프로젝트는 OpenEuroLLM의 “전신”으로 볼 수 있습니다.
하이츠는 “OpenEuroLLM은 더 광범위한 참여를 통해 생성적 LLM에 더 집중하는 프로젝트”라며 “데이터, 전문 지식, 도구 및 컴퓨팅 경험 측면에서 제로에서 시작하는 것이 아니다”라고 말했습니다. 그는 2026년 중반까지 첫 번째 버전이 출시되고, 2028년 프로젝트 종료 시 최종 버전이 나올 것으로 예상합니다.
OpenEuroLLM에는 체코, 네덜란드, 독일, 스웨덴, 핀란드, 노르웨이의 학계 및 연구 기관과 함께 핀란드의 AMD 소유 AI 연구소 Silo AI, 독일의 Aleph Alpha 및 Ellamind, 스페인의 Prompsit Language Engineering, 프랑스의 LightOn 등이 참여합니다.
주목할 만한 점은 OpenAI와 같은 기존 기업에 도전장을 내민 프랑스의 Mistral AI가 목록에 없다는 것입니다. 하이츠는 Mistral AI에 참여를 제안했지만, 성사되지 않았다고 밝혔습니다.
프로젝트의 목표
OpenEuroLLM 프로젝트의 주요 목표는 “유럽의 투명한 AI를 위한 일련의 기반 모델”을 만드는 것입니다. 또한 이러한 모델은 현재와 미래의 모든 EU 언어의 “언어적 및 문화적 다양성”을 보존해야 합니다.
OpenEuroLLM은 정확성이 중요한 일반적인 작업을 위한 핵심 다국어 LLM과 효율성과 속도가 더 중요한 엣지 애플리케이션을 위한 더 작은 “양자화된” 버전을 제공할 것으로 예상됩니다.
하이츠는 “가능한 한 작지만 고품질로 만들고 싶다”며 “유럽의 관점에서 볼 때 유럽 위원회의 막대한 자금이 투입되는 중요한 프로젝트이기 때문에 미완성된 결과물을 내놓고 싶지 않다”고 강조했습니다.
모델이 모든 언어에 능숙하도록 만드는 것이 목표이지만, 모든 언어에서 동등한 수준을 달성하는 것은 어려울 수 있습니다. 하이츠는 “디지털 자원이 부족한 언어에서 얼마나 성공할 수 있을지가 관건”이라며 “그렇기 때문에 이러한 언어에 대한 진정한 벤치마크를 만들고 싶다”고 덧붙였습니다.
데이터 측면에서는 HPLT 프로젝트의 작업이 큰 도움이 될 것입니다. HPLT 프로젝트는 4개월 전에 데이터 세트의 일부를 공개했습니다. 이 데이터 세트는 4.5페타바이트의 웹 크롤링 데이터와 200억 개 이상의 문서를 학습한 결과입니다. 하이츠는 Common Crawl의 추가 데이터를 혼합할 것이라고 밝혔습니다.
오픈 소스의 정의
OpenEuroLLM은 “진정으로 개방적”이 되려는 의도에도 불구하고 “품질” 의무를 이행하려면 어느 정도 타협해야 할 수도 있습니다. 하이츠는 “모든 것을 개방하는 것이 목표이지만, 물론 몇 가지 제한 사항이 있다”며 “가능한 한 최고 품질의 모델을 원하며, 합법적으로 얻을 수 있는 모든 것을 사용할 것”이라고 말했습니다.
OpenEuroLLM 프로젝트는 일부 학습 데이터를 비공개로 유지해야 할 수도 있지만, AI 규정에 따라 고위험 AI 시스템에 필요한 감사를 위해 요청 시 감사관에게 제공할 수 있습니다.
또 다른 유사 프로젝트
OpenEuroLLM이 공식적으로 발표된 후, 몇 달 전에 유럽에서 매우 유사한 프로젝트가 시작되었다는 비판이 제기되었습니다. EuroLLM은 2024년 11월에 첫 번째 모델을 출시하고 12월에 후속 모델을 출시했습니다. EuroLLM은 에든버러 대학교와 같은 학술 기관과 Unbabel과 같은 기업을 포함한 9개 파트너 컨소시엄과 협력하고 있습니다.
EuroLLM은 “24개의 유럽 공식 언어와 몇 가지 전략적으로 중요한 언어를 지원하는 오픈 소스 유럽 대규모 언어 모델을 구축”한다는 유사한 목표를 공유합니다.
Unbabel의 연구 책임자인 마틴스(Martins)는 OpenEuroLLM이 이미 존재하는 이름을 도용하고 있다고 지적했습니다. 그는 “서로 다른 커뮤니티가 공개적으로 협력하고 전문 지식을 공유하며, 새로운 프로젝트에 자금이 지원될 때마다 바퀴를 재발명하지 않기를 바란다”고 덧붙였습니다.
하이츠는 이 상황을 “불행한 일”이라고 부르며 협력할 수 있기를 희망한다고 말했습니다. 하지만 EU 자금 지원으로 인해 OpenEuroLLM은 영국 대학을 포함한 비 EU 기관과의 협력이 제한된다고 강조했습니다.
자금 격차
DeepSeek 구축에 참여한 많은 사람들은 AI 이니셔티브가 초기 예상보다 훨씬 적은 비용으로 더 많은 것을 할 수 있다는 희망을 얻었습니다. OpenEuroLLM 프로젝트의 기술 공동 책임자인 살린은 “DeepSeek에 대해서는 실제로 무엇이 구축에 투입되었는지 거의 알지 못한다”고 말했습니다.
그럼에도 불구하고 살린은 OpenEuroLLM이 인건비를 충당하기에 충분한 자금을 확보할 것이라고 생각합니다. 실제로 AI 시스템 구축 비용의 상당 부분은 컴퓨팅 비용이며, 이는 EuroHPC 센터와의 파트너십을 통해 대부분 충당될 것입니다.
살린은 “OpenEuroLLM은 실제로 상당한 예산을 가지고 있다고 말할 수 있다”며 “EuroHPC는 AI 및 컴퓨팅 인프라에 수십억 달러를 투자했으며, 향후 몇 년 동안 이를 확장하는 데 수십억 달러를 더 투자할 것을 약속했다”고 덧붙였습니다.
OpenEuroLLM 프로젝트는 소비자 또는 엔터프라이즈급 제품을 구축하는 것이 아니라 모델에 관한 것이므로 살린은 예산이 충분할 것이라고 생각합니다.
디지털 주권
비평가들이 지적했듯이 OpenEuroLLM은 많은 움직이는 부분을 가지고 있습니다. 하이츠는 이에 대해 긍정적인 전망을 가지고 있습니다.
하이츠는 “많은 협력 프로젝트에 참여해 왔으며, 단일 회사에 비해 장점이 있다고 생각한다”며 “OpenAI나 Mistral과 같은 회사에서 훌륭한 일을 해냈지만, 학문적 전문 지식과 회사의 집중력이 결합되어 새로운 것을 가져올 수 있기를 바란다”고 말했습니다.
궁극적인 목표는 디지털 주권입니다. 즉, 유럽에서 유럽을 위해 구축된 (대부분) 개방형 기반 LLM을 만드는 것입니다.
하이츠는 “최고의 모델이 되지 못하더라도 ‘좋은’ 모델을 갖게 된다면, 모든 구성 요소가 유럽에 기반을 둔 모델을 갖게 될 것”이라며 “이는 긍정적인 결과가 될 것”이라고 덧붙였습니다.