AI, NPR 선데이 퍼즐로 ‘추론’ 능력 시험대에 오르다
인공지능(AI)의 문제 해결 능력을 시험하는 새로운 방법이 등장했어요. 바로 NPR(National Public Radio)의 인기 퀴즈 프로그램인 “선데이 퍼즐(Sunday Puzzle)” 문제를 활용하는 것이죠.
선데이 퍼즐, AI에게 던져진 도전
매주 일요일, 뉴욕 타임즈의 크로스워드 퍼즐 전문가인 윌 쇼츠(Will Shortz)가 진행하는 “선데이 퍼즐”은 청취자들의 두뇌를 자극하는 퀴즈로 유명합니다. 특별한 사전 지식 없이도 풀 수 있도록 만들어졌지만, 숙련된 참가자들에게도 쉽지 않은 도전 과제죠.
이러한 점 때문에 일부 전문가들은 선데이 퍼즐이 AI의 문제 해결 능력의 한계를 시험하는 데 유용하다고 생각합니다.
연구팀, AI 추론 능력 벤치마크 개발
웰즐리 대학(Wellesley College), 오벌린 대학(Oberlin College), 텍사스 대학교 오스틴(University of Texas at Austin), 노스이스턴 대학교(Northeastern University), 카렐 대학교(Charles University), 그리고 스타트업 커서(Cursor)의 연구팀은 선데이 퍼즐 에피소드에서 발췌한 수수께끼를 사용하여 AI 벤치마크를 만들었습니다.
연구팀은 이 테스트를 통해 OpenAI의 o1과 같은 추론 모델들이 때때로 “포기”하고 정답이 아니라는 것을 알면서도 답을 제시하는 놀라운 사실을 발견했다고 밝혔습니다.
노스이스턴 대학교의 컴퓨터 과학 교수이자 연구의 공동 저자인 아르준 구하(Arjun Guha)는 “사람들이 일반적인 지식만으로 이해할 수 있는 문제로 벤치마크를 개발하고 싶었다”고 말합니다.
AI 벤치마크의 딜레마
현재 AI 업계는 벤치마킹에 대한 고민이 많은 상황입니다. AI 모델을 평가하는 데 일반적으로 사용되는 대부분의 테스트는 박사 수준의 수학 및 과학 문제에 대한 능력과 같이 일반 사용자에게는 관련 없는 기술을 측정합니다. 한편, 많은 벤치마크는 빠르게 포화 상태에 도달하고 있어요.
선데이 퍼즐과 같은 공영 라디오 퀴즈 게임의 장점은 난해한 지식을 테스트하지 않고, 모델이 “기계적 암기”에 의존하여 문제를 해결할 수 없도록 문제가 구성되어 있다는 점입니다.
구하 교수는 “이러한 문제들을 어렵게 만드는 것은 문제를 해결할 때까지 의미 있는 진전을 이루기가 매우 어렵다는 점”이라며 “통찰력과 소거 과정의 조합이 필요하다”고 설명합니다.
벤치마크의 한계와 미래
물론 완벽한 벤치마크는 없습니다. 선데이 퍼즐은 미국 중심적이고 영어로만 제공됩니다. 또한 퀴즈가 공개적으로 제공되기 때문에 이를 학습한 모델이 일종의 “부정 행위”를 할 가능성도 있습니다. 하지만 구하 교수는 아직까지 그러한 증거는 발견하지 못했다고 합니다.
그는 “매주 새로운 문제가 출시되며, 최신 문제는 진정으로 보지 못했던 문제일 것으로 예상할 수 있다”며 “벤치마크를 신선하게 유지하고 모델 성능 변화를 추적할 계획”이라고 덧붙였습니다.
추론 모델의 흥미로운 행동
연구원들의 벤치마크는 약 600개의 선데이 퍼즐 수수께끼로 구성되어 있으며, o1 및 DeepSeek의 R1과 같은 추론 모델이 다른 모델보다 훨씬 뛰어난 성능을 보였습니다. 추론 모델은 결과를 내놓기 전에 철저하게 자체적으로 사실 확인을 수행하여 일반적으로 AI 모델을 곤경에 빠뜨리는 함정을 피할 수 있습니다. 다만, 추론 모델은 솔루션에 도달하는 데 시간이 조금 더 걸립니다. 일반적으로 몇 초에서 몇 분 정도 더 소요되죠.
적어도 하나의 모델인 DeepSeek의 R1은 일부 선데이 퍼즐 문제에 대해 잘못된 답을 알고 있음에도 불구하고 답을 제시합니다. R1은 “포기한다”는 말을 그대로 말한 다음 무작위로 선택한 것처럼 보이는 오답을 선택합니다.
모델은 또한 오답을 제시한 후 즉시 철회하고 더 나은 답을 찾으려고 시도하지만 다시 실패하는 등 이상한 선택을 하기도 합니다. 또한 영원히 “생각”에 갇혀 터무니없는 답변 설명을 하거나, 정답을 즉시 찾지만 명확한 이유 없이 다른 답변을 고려하기도 합니다.
구하 교수는 “어려운 문제에 대해 R1은 말 그대로 ‘좌절’하고 있다고 말한다”며 “모델이 인간이 말할 수 있는 것을 흉내 내는 것이 재미있었다. 추론에서 ‘좌절’이 모델 결과의 품질에 어떤 영향을 미칠 수 있는지는 아직 알 수 없다”고 말했습니다.
향후 계획
현재 벤치마크에서 가장 우수한 성능을 보이는 모델은 59%의 점수를 얻은 o1이며, 최근 출시된 높은 “추론 노력”으로 설정된 모델이 47%로 그 뒤를 이었습니다. (R1은 35%를 기록했습니다.) 다음 단계로 연구원들은 추가 추론 모델로 테스트를 확대하여 이러한 모델을 개선할 수 있는 영역을 식별하는 데 도움이 되기를 희망하고 있습니다.
구하 교수는 “추론을 잘하기 위해 박사 학위가 필요한 것은 아니므로 박사 수준의 지식이 필요하지 않은 추론 벤치마크를 설계할 수 있어야 한다”며 “더 넓은 접근성을 가진 벤치마크는 더 많은 연구자들이 결과를 이해하고 분석할 수 있도록 하여 미래에 더 나은 솔루션으로 이어질 수 있다. 또한 최첨단 모델이 점점 더 많은 사람들에게 영향을 미치는 설정에 배포됨에 따라 모든 사람이 이러한 모델이 무엇을 할 수 있고 무엇을 할 수 없는지 직관적으로 이해할 수 있어야 한다고 생각한다”고 말했습니다.