OpenAI 새 추론 모델, 오히려 환각 심해졌다

OpenAI의 새로운 모델, 환각 현상이 더 심해졌다고요?

최근 인공지능 분야에서 가장 주목받는 기업 중 하나인 OpenAI가 새로운 추론 모델인 o3와 o4-mini를 발표했습니다. 이 모델들은 기존 모델보다 더 정확하고 깊이 있는 사고 과정을 거쳐 답변을 생성하도록 설계되었다고 알려져 있는데요. 그런데 OpenAI가 자체적으로 실시한 테스트 결과에서 다소 충격적인 사실이 드러났습니다. 바로 이 새로운 모델들이 이전 모델들보다 ‘환각(Hallucination)’ 현상이 훨씬 더 심하다는 것입니다.

자체 테스트 결과, 환각률이 두 배 이상?

테크크런치(TechCrunch)의 보도에 따르면, OpenAI는 ‘PersonQA’라는 평가 방식을 통해 모델의 환각 현상을 테스트했습니다. 이 테스트는 모델이 사실과 다른 정보를 얼마나 자주 생성하는지를 측정하는 방식인데요. 결과가 예상 밖이었습니다.

o3 모델: 환각률 33%
o4-mini 모델: 환각률 48%

이는 거의 절반에 가까운 확률로 사실과 다른 답변을 내놓는다는 의미입니다. 이전 모델인 o1의 환각률이 16%였던 것에 비하면 o3는 약 두 배, o4-mini는 세 배 가까이 높은 수치입니다. 비교를 위해 다른 모델들의 수치도 살펴보면, 지난 2월에 출시된 GPT-4.5는 19%, GPT-4o는 30%의 환각률을 보였습니다. 새로운 추론 모델들이 오히려 기존 모델들보다 환각 현상이 심각하다는 결과입니다.

‘생각하는’ 모델인데 왜?

OpenAI는 o-시리즈 모델을 소개하며 이 모델들이 답변을 생성하기 전에 더 많은 계산을 통해 ‘생각하는 시간’을 갖도록 훈련되었다고 설명했습니다. 확률적인 방법에 크게 의존하기보다는, 사고 과정을 다듬고 다양한 전략을 시도하며 실수를 인식하도록 설계되었다는 것이죠.

하지만 실제 테스트 결과는 이러한 설계 의도와는 다른 방향으로 나타났습니다. OpenAI는 시스템 카드에서 o3 모델이 “전반적으로 더 많은 주장을 하는 경향이 있으며, 이는 더 정확한 주장뿐만 아니라 더 부정확하거나 환각적인 주장으로 이어진다”고 언급했습니다. 그러면서도 이러한 결과의 근본적인 원인은 알지 못하며, “이 결과의 원인을 이해하기 위한 더 많은 연구가 필요하다”고 덧붙였습니다.

평가 방식의 복잡성

물론 AI 모델의 성능을 평가하는 벤치마크는 매우 복잡하고 주관적일 수 있습니다. 특히 자체적으로 개발한 평가 방식의 경우 더욱 그렇습니다. 연구에 따르면 벤치마크 데이터셋이나 평가 방식 자체에 결함이 있을 수도 있다고 합니다.

다른 평가 방식에서는 다른 결과가 나오기도 합니다. 예를 들어, 허깅페이스(HuggingFace)의 환각 벤치마크는 약 1,000개의 공개 문서를 기반으로 생성된 요약문의 환각 발생률을 평가하는데요. 이 벤치마크에서는 주요 모델들의 환각률이 OpenAI의 자체 평가보다 훨씬 낮게 나타났습니다. GPT-4o는 1.5%, GPT-4.5 프리뷰는 1.2%, o3-mini-high(추론 포함)는 0.8%를 기록했습니다. 현재 리더보드에는 o3와 o4-mini가 포함되어 있지 않지만, 평가 방식에 따라 결과가 크게 달라질 수 있음을 보여줍니다.

사용자들에게 미칠 영향은?

그럼에도 불구하고, OpenAI가 자체적으로 새로운 추론 모델인 o3와 o4-mini가 비추론 모델보다 환각 현상이 더 심하다고 인정했다는 점은 주목할 만합니다. 이는 해당 모델을 사용하는 사용자들에게 문제가 될 수 있습니다. 특히 정확성이 중요한 작업에 AI를 활용하는 경우, 높은 환각률은 치명적인 단점이 될 수 있기 때문입니다.

모델이 웹 검색 기능을 활용하여 답변의 출처를 찾는 경우 정확도가 높아지는 경향이 있지만, 이 경우 OpenAI가 타사 검색 제공업체와 데이터를 공유하게 됩니다. 내부적으로 OpenAI 모델을 사용하는 기업 고객들은 이러한 데이터 공유를 꺼릴 수도 있습니다.

결론적으로, OpenAI의 최신 추론 모델에서 나타난 높은 환각률은 AI 기술의 발전과 함께 해결해야 할 중요한 과제임을 다시 한번 보여주고 있습니다. OpenAI가 이 문제의 원인을 파악하고 개선해 나갈 수 있을지 앞으로 지켜봐야 할 것 같습니다.