OpenAI, 중국 DeepSeek 모델 훈련에 도움을 준 증거 발견
최근 OpenAI가 중국 인공지능 기업 DeepSeek의 모델 훈련에 자신들의 데이터가 사용되었다는 증거를 발견했다고 밝혔습니다. 이 소식은 많은 이들에게 아이러니하게 다가오는데요, OpenAI는 저렴하게 개발된 AI 모델을 출시하며 자사의 주력 제품과 경쟁하는 DeepSeek의 행보에 의문을 제기하고 있습니다.
OpenAI와 마이크로소프트는 DeepSeek가 OpenAI의 API를 사용하여 자사의 AI 모델에 OpenAI의 모델을 통합했는지 조사 중입니다. 마이크로소프트의 보안 연구원들은 2024년 말, OpenAI 개발자 계정을 통해 대량의 데이터가 유출되고 있다는 사실을 발견했으며, 이는 DeepSeek와 관련이 있을 것으로 보입니다.
OpenAI는 DeepSeek가 ‘디스틸레이션(distillation)’이라는 일반적인 기술을 사용하여 AI 모델을 훈련시켰다는 증거를 찾았다고 전했습니다. 디스틸레이션은 더 크고 강력한 모델에서 데이터를 추출하여 작은 모델을 훈련시키는 효율적인 방법입니다. OpenAI는 GPT-4를 훈련시키기 위해 막대한 비용을 지출했지만, DeepSeek은 이 기술을 통해 훨씬 적은 비용으로 경쟁 모델을 개발했을 가능성이 있습니다. OpenAI의 API를 사용하여 자사 애플리케이션과 통합하는 것은 가능하지만, 그 출력을 디스틸하여 경쟁 모델을 만드는 것은 OpenAI의 서비스 약관을 위반하는 행위입니다.
이 상황은 매우 아이러니합니다. 결국 OpenAI는 자사의 GPT 모델로 큰 도약을 이루었기 때문입니다. 도널드 트럼프 전 대통령의 인공지능 자문인 데이비드 색스는 “지적 재산권 도용이 발생했을 가능성이 있다”고 언급하며, “DeepSeek가 OpenAI 모델에서 지식을 추출했다는 상당한 증거가 있다”고 덧붙였습니다.
OpenAI는 성명을 통해 “중국(PRC) 기반 기업들이 선도적인 미국 AI 기업의 모델을 지속적으로 디스틸하려고 한다는 것을 알고 있다”고 밝혔습니다. 또한 “AI의 선도적인 구축자로서 우리는 지적 재산을 보호하기 위한 대응 조치를 취하고 있으며, 앞으로도 적대자와 경쟁자로부터 미국 기술을 보호하기 위해 미국 정부와 긴밀히 협력하는 것이 중요하다”고 강조했습니다.