Anthropic, 최신 AI 모델 벤치마크에 포켓몬을 사용하다?!
정말 흥미로운 소식이 들려왔어요. 인공지능(AI) 개발사 Anthropic에서 최신 AI 모델을 벤치마킹하는 데 무려 ‘포켓몬’을 사용했다는 겁니다!
Claude 3.7 Sonnet, 포켓몬 세계에 도전!
Anthropic은 월요일에 블로그를 통해 최신 모델인 Claude 3.7 Sonnet을 닌텐도 게임보이 클래식 게임인 ‘포켓몬 레드(Pokémon Red)’로 테스트했다고 밝혔습니다. 이 회사는 모델에 기본적인 메모리, 화면 픽셀 입력, 버튼을 누르고 화면을 탐색하는 기능 호출을 장착하여 포켓몬을 계속 플레이할 수 있도록 했대요.
‘확장된 사고’ 능력
Claude 3.7 Sonnet의 가장 큰 특징은 바로 “확장된 사고(extended thinking)” 능력입니다. OpenAI의 o3-mini나 DeepSeek의 R1처럼, Claude 3.7 Sonnet은 더 많은 컴퓨팅 자원을 사용하고 시간을 들여 어려운 문제들을 “추론”할 수 있다고 해요.
이러한 능력은 포켓몬 레드에서 유용하게 사용되었는데요. 이전 버전인 Claude 3.0 Sonnet은 게임 시작 지점인 태초마을에서 집 밖으로 나가지 못했지만, Claude 3.7 Sonnet은 무려 세 명의 포켓몬 체육관 리더와 싸워 배지를 획득하는 데 성공했습니다!
35,000번의 액션
Claude 3.7 Sonnet이 이러한 성과를 달성하는 데 얼마나 많은 컴퓨팅 자원이 필요했고, 얼마나 오랜 시간이 걸렸는지는 아직 명확하게 밝혀지지 않았습니다. Anthropic은 단지 이 모델이 마지막 체육관 리더인 마티스에게 도달하기 위해 35,000번의 액션을 수행했다고만 언급했어요.
게임, AI 벤치마크의 새로운 지표?
물론 포켓몬 레드는 단순한 장난감 벤치마크에 불과할지도 모릅니다. 하지만 최근 몇 달 동안 다양한 게임을 통해 AI 모델의 게임 플레이 능력을 테스트하는 새로운 앱과 플랫폼들이 속속 등장하고 있다는 사실은 주목할 만합니다. 앞으로 AI 기술이 게임 분야에 어떤 영향을 미칠지 더욱 기대가 됩니다.