OpenAI의 최신 AI, 단 24시간 만에 복제되다

OpenAI의 최신 AI 도구, 단 24시간 만에 복제되다

OpenAI에게는 골치 아픈 문제가 하나 있는데요. 바로 새로운 AI를 출시할 때마다 거의 즉시 복제된다는 점이에요.

AI 개발업체인 허깅 페이스(Hugging Face)는 OpenAI의 최신 딥 리서치(Deep Research) 기능과 맞먹는 오픈 소스 AI 연구 에이전트를 단 24시간 만에 만들었다고 발표했어요.

샘 알트만(Sam Altman)이 이끄는 OpenAI는 “추론을 사용하여 대량의 온라인 정보를 종합하고 다단계 연구 작업을 완료”하는 딥 리서치를 최근 공개했는데요.

쉽게 말해 딥 리서치는 기존 AI 모델 위에 구축되어 사용자에게 새로운 기능을 제공하는 방식이에요. OpenAI에 따르면, 딥 리서치를 통해 “스트리밍 플랫폼에 대한 경쟁 분석 또는 최고의 통근용 자전거에 대한 맞춤형 보고서”와 같은 작업을 요청할 수 있으며, 이는 “5분에서 30분 정도” 걸릴 수 있다고 해요.

하지만 허깅 페이스 연구원들이 훌륭한 대안을 생각해내는 데는 오랜 시간이 걸리지 않았어요.

허깅 페이스는 “강력한 LLM(Large Language Model)이 이제 오픈 소스로 자유롭게 사용할 수 있지만, OpenAI는 딥 리서치의 기반이 되는 에이전트 프레임워크에 대해 많은 정보를 공개하지 않았습니다.”라며 “그래서 저희는 그 결과를 재현하고 필요한 프레임워크를 오픈 소스로 공개하기 위해 24시간 미션을 시작하기로 결정했습니다!”라고 밝혔어요.

허깅 페이스는 코드에서 작업을 작성하는 “에이전트 프레임워크”를 만들었고, 이는 즉시 성능 향상으로 이어졌다고 해요.

물론 아직 완벽한 것은 아니에요. 허깅 페이스의 오픈 딥 리서치는 General AI Assistants라는 벤치마크에서 55.15%의 정확도를 기록한 반면, OpenAI 버전은 67.36%를 기록하여 개선의 여지가 남아있어요. (OpenAI 버전 자체도 여전히 많은 문제점을 가지고 있어 연구 분석가로서의 유용성을 크게 떨어뜨리고 있다고 하네요.)

하지만 OpenAI보다 훨씬 적은 자원을 가진 허깅 페이스가 단 24시간 만에 에이전트를 만들었다는 점을 고려하면, 이번 도전은 OpenAI의 AI 도구가 얼마나 쉽게 대체될 수 있는지를 보여주는 것이라고 할 수 있어요. 새로운 AI가 출시될 때마다 이제는 더 적은 자원으로 그 기능을 복제하려는 경쟁이 벌어지는 것 같아요.

이번 연구를 이끈 허깅 페이스의 아메릭 루셰(Aymeric Roucher)는 에이전트가 OpenAI의 o1과 “잘 작동한다”고 언급하면서도, 허깅 페이스의 오픈 소스 모델인 open-R1이 곧 훨씬 “더 잘” 작동할 수 있다고 덧붙였어요.

AI 모델의 교환 가능성은 특히 중국 AI 스타트업인 딥시크(DeepSeek)의 등장과 관련하여 중요한 주제인데요. 딥시크는 지난달 매우 간결하고 효율적인 모델인 R1을 공개하며 주목을 받았어요. (허깅 페이스의 open-R1은 딥시크 모델의 변형이라고 하네요.)

딥시크는 또한 다른 AI 모델의 출력을 기반으로 AI 모델을 훈련하여 “추론” 기능을 생성하는 전략인 증류(distillation)의 힘을 보여주었을 가능성이 높아요. 이것이 지적 재산권 침해에 해당하는지 여부는 아직 불분명하지만, OpenAI 자체의 AI가 무차별적으로 웹 데이터를 수집하여 구축되었다는 점을 고려하면 더욱 복잡한 문제가 될 수 있어요.

하지만 이는 OpenAI와 같은 AI 업계의 거물들에게 큰 타격을 줄 수 있는 영리한 해결 방법이 될 수 있어요. 실제로 스탠퍼드 대학과 워싱턴 대학의 연구원들은 OpenAI의 o1 “추론” 모델에 필적할 만한 경쟁 모델을 50달러 미만의 클라우드 컴퓨팅 크레딧으로 개발했다는 연구 결과를 발표하기도 했어요.

s1이라고 불리는 이 새로운 모델은 수학 및 코딩 테스트에서 딥시크의 R1 및 OpenAI의 o1과 비슷한 수준의 성능을 보였어요. 이 모델은 구글의 (대부분) 무료로 사용할 수 있는 Gemini 2.0 Flash Thinking Experimental 추론 모델의 출력을 사용하여 증류되었어요.

연구팀은 구글 AI의 답변이 포함된 1,000개의 선별된 질문 데이터 세트를 사용하여 s1을 훈련했어요. TechCrunch에 따르면 단 16개의 Nvidia AI 칩을 사용하여 AI 벤치마크에서 강력한 성능을 달성하는 데 30분도 채 걸리지 않았다고 해요.

한편, OpenAI 및 메타(Meta)와 같은 업계 최대 기업들은 미국 내 AI 인프라 확장을 위한 이니셔티브에 막대한 투자를 계획하고 있지만, 딥시크와 같이 훈련 및 실행 비용이 훨씬 저렴한 대안의 등장으로 인해 이러한 막대한 투자가 과연 합리적인지에 대한 의문이 제기되고 있어요.

이러한 도구들이 모든 단계에서 성공할 수 있을지, 그리고 OpenAI와 같은 거대 기업들을 따라잡을 수 있을지는 여전히 불확실하지만, 작은 기업들이 빠르게 최고의 결과물을 복제하여 무료로 제공할 수 있다는 점은 주목할 만한 부분이라고 할 수 있겠네요.

위로 스크롤