OpenAI, 새로운 추론 모델 o3-mini 출시

OpenAI, 새로운 ‘추론’ 모델 o3-mini 출시

OpenAI가 금요일에 새로운 AI “추론” 모델인 o3-mini를 출시했어요. 이 모델은 OpenAI의 최신 모델 중 하나인데요, 더 강력한 시스템인 o3와 함께 출시되었지만, OpenAI의 야망과 도전이 날마다 커지고 있는 중요한 시점에 출시되었다고 해요.

OpenAI는 AI 경쟁에서 (Google)에 밀리고 있다는 인식을 극복하기 위해 노력하고 있어요. OpenAI는 (Google)이 자신들의 지적 재산권을 훔쳤다고 주장하고 있기도 하죠. 하지만 ChatGPT 제작사인 OpenAI는 많은 개발자들의 지지를 얻고 있으며, 대규모 자금 조달을 동시에 추진하면서 입지를 강화하려고 노력하고 있다고 해요.

이런 상황에서 o3-mini가 등장한 건데요. OpenAI는 이 새로운 모델을 “강력하면서도 저렴하다”고 소개하고 있어요. OpenAI 대변인은 “오늘의 출시는 우리의 사명에 따라 고급 AI에 대한 접근성을 넓히는 데 중요한 진전”이라고 밝혔어요.

더 효율적인 추론 능력

대부분의 대규모 언어 모델과는 달리, o3-mini와 같은 추론 모델은 결과를 내놓기 전에 스스로 사실을 철저히 확인한다고 해요. 이를 통해 모델이 일반적으로 어려워하는 오류를 줄일 수 있다고 하네요. 이러한 추론 모델은 솔루션을 도출하는 데 시간이 조금 더 걸리지만, 물리학과 같은 분야에서 더 신뢰할 수 있는 경향이 있다고 해요. 물론 완벽한 것은 아니지만요.

o3-mini는 특히 프로그래밍, 수학, 과학과 같은 STEM 문제에 맞춰 미세 조정되었어요. OpenAI는 이 모델이 기능 면에서 o1 제품군인 o1 및 o1-mini와 거의 동등하지만, 더 빠르고 저렴하게 실행된다고 주장하고 있어요.

OpenAI에 따르면 외부 테스터들은 o1-mini보다 o3-mini의 답변을 절반 이상 선호했다고 해요. 또한 o3-mini는 o1-mini에 비해 “어려운 실제 질문”에서 “주요 실수”를 39% 적게 했고, 답변을 제공하는 데 약 24% 더 빠르면서도 “더 명확한” 응답을 생성했다고 하네요.

o3-mini는 금요일부터 모든 사용자가 ChatGPT를 통해 사용할 수 있게 되었어요. 하지만 ChatGPT Plus 및 Team 요금제 사용자는 하루에 150개의 쿼리 제한을 받게 되며, ChatGPT Pro 구독자는 무제한으로 액세스할 수 있다고 해요. OpenAI는 o3-mini가 일주일 안에 ChatGPT Enterprise 및 ChatGPT Edu 고객에게도 제공될 것이라고 밝혔어요.

프리미엄 ChatGPT 요금제 사용자는 드롭다운 메뉴를 사용하여 o3-mini를 선택할 수 있어요. 무료 사용자는 채팅 창에서 새로운 “추론” 버튼을 클릭하거나 탭하거나, ChatGPT가 답변을 “다시 생성”하도록 할 수 있다고 하네요.

금요일부터 o3-mini는 OpenAI의 API를 통해 일부 개발자에게도 제공될 예정이지만, 처음에는 이미지 분석 기능은 지원하지 않는다고 해요. 개발자는 사용 사례와 지연 시간 요구 사항에 따라 o3-mini가 “더 열심히 생각”하도록 “추론 노력” 수준(낮음, 중간 또는 높음)을 선택할 수 있다고 해요.

o3-mini의 가격은 백만 개의 캐시된 입력 토큰당 1.10달러, 백만 개의 출력 토큰당 4.40달러인데요. 백만 개의 토큰은 대략 75만 단어에 해당한다고 해요. 이는 o1-mini보다 63% 저렴하며, DeepSeek의 R1 추론 모델 가격과 경쟁력이 있다고 하네요. DeepSeek는 API를 통해 R1 액세스에 대해 백만 개의 캐시된 입력 토큰당 0.14달러, 백만 개의 출력 토큰당 2.19달러를 청구하고 있어요.

ChatGPT에서 o3-mini는 중간 추론 노력으로 설정되어 있는데, OpenAI는 이것이 “속도와 정확성 사이의 균형 잡힌 절충안”을 제공한다고 말하고 있어요. 유료 사용자는 모델 선택기에서 “o3-mini-high”를 선택할 수 있으며, OpenAI는 이를 통해 더 느린 응답을 대가로 “더 높은 지능”을 제공한다고 설명하고 있어요.

ChatGPT 사용자가 어떤 버전의 o3-mini를 선택하든, 이 모델은 검색 기능을 사용하여 관련 웹 소스 링크와 함께 최신 답변을 찾을 수 있다고 해요. OpenAI는 이 기능이 추론 모델 전반에 걸쳐 검색을 통합하기 위해 노력하는 “프로토타입”이라고 경고하고 있어요.

OpenAI는 금요일 블로그 게시물에서 “o1이 더 광범위한 일반 지식 추론 모델로 남아 있는 반면, o3-mini는 정밀성과 속도가 필요한 기술 분야에 특화된 대안을 제공한다”고 썼어요. “o3-mini의 출시는 비용 효율적인 지능의 경계를 넓히려는 OpenAI의 사명에 또 다른 발걸음을 내딛는 것”이라고 덧붙였어요.

주의해야 할 점들

o3-mini는 OpenAI의 현재까지 가장 강력한 모델은 아니며, 모든 벤치마크에서 DeepSeek의 R1 추론 모델을 능가하지도 않는다고 해요.

o3-mini는 모델이 복잡한 지침을 얼마나 잘 이해하고 반응하는지를 측정하는 테스트인 AIME 2024에서 R1을 능가하지만, 높은 추론 노력이 필요하다고 해요. 또한 프로그래밍 중심 테스트인 SWE-bench Verified에서도 R1을 능가하지만(0.1점 차이), 이 역시 높은 추론 노력이 필요하다고 하네요. 낮은 추론 노력에서는 o3-mini가 박사 수준의 물리학, 생물학 및 화학 질문으로 모델을 테스트하는 GPQA Diamond에서 R1에 뒤쳐진다고 해요.

하지만 o3-mini는 경쟁력 있는 저렴한 비용과 지연 시간으로 많은 쿼리에 답변한다고 해요. OpenAI는 게시물에서 o1 제품군과 성능을 비교했는데요.

OpenAI는 “낮은 추론 노력으로 o3-mini는 o1-mini와 비슷한 성능을 달성하고, 중간 노력으로 o3-mini는 o1과 비슷한 성능을 달성한다”고 쓰고 있어요. “중간 추론 노력을 사용하는 o3-mini는 수학, 코딩 및 과학에서 o1의 성능과 일치하면서 더 빠른 응답을 제공한다. 한편, 높은 추론 노력으로 o3-mini는 o1-mini와 o1을 모두 능가한다”고 덧붙였어요.

o3-mini의 o1에 대한 성능 우위가 일부 영역에서는 미미하다는 점도 주목할 필요가 있어요. AIME 2024에서 o3-mini는 높은 추론 노력으로 설정했을 때 o1보다 0.3% 포인트 앞설 뿐이라고 해요. 그리고 GPQA Diamond에서는 o3-mini가 높은 추론 노력에서도 o1의 점수를 능가하지 못한다고 하네요.

OpenAI는 o3-mini가 레드팀 노력과 모델이 쿼리에 응답하는 동안 OpenAI의 안전 정책에 대해 “생각”하도록 만드는 “심의적 정렬” 방법론 덕분에 o1 제품군만큼 “안전”하거나 더 안전하다고 주장하고 있어요. OpenAI에 따르면 o3-mini는 “까다로운 안전 및 탈옥 평가”에서 OpenAI의 주력 모델 중 하나인 (GPT-4)를 “상당히 능가”한다고 하네요.