Anthropic, AI 모델 벤치마크에 포켓몬 활용: Claude 3.7 Sonnet의 게임 도전

Anthropic, 최신 AI 모델 벤치마크에 포켓몬을 사용하다?!

정말 흥미로운 소식이 들려왔어요. 인공지능(AI) 개발사 Anthropic에서 최신 AI 모델을 벤치마킹하는 데 무려 ‘포켓몬’을 사용했다는 겁니다!

Claude 3.7 Sonnet, 포켓몬 세계에 도전!

Anthropic은 월요일에 블로그를 통해 최신 모델인 Claude 3.7 Sonnet을 닌텐도 게임보이 클래식 게임인 ‘포켓몬 레드(Pokémon Red)’로 테스트했다고 밝혔습니다. 이 회사는 모델에 기본적인 메모리, 화면 픽셀 입력, 버튼을 누르고 화면을 탐색하는 기능 호출을 장착하여 포켓몬을 계속 플레이할 수 있도록 했대요.

‘확장된 사고’ 능력

Claude 3.7 Sonnet의 가장 큰 특징은 바로 “확장된 사고(extended thinking)” 능력입니다. OpenAI의 o3-mini나 DeepSeek의 R1처럼, Claude 3.7 Sonnet은 더 많은 컴퓨팅 자원을 사용하고 시간을 들여 어려운 문제들을 “추론”할 수 있다고 해요.

이러한 능력은 포켓몬 레드에서 유용하게 사용되었는데요. 이전 버전인 Claude 3.0 Sonnet은 게임 시작 지점인 태초마을에서 집 밖으로 나가지 못했지만, Claude 3.7 Sonnet은 무려 세 명의 포켓몬 체육관 리더와 싸워 배지를 획득하는 데 성공했습니다!

35,000번의 액션

Claude 3.7 Sonnet이 이러한 성과를 달성하는 데 얼마나 많은 컴퓨팅 자원이 필요했고, 얼마나 오랜 시간이 걸렸는지는 아직 명확하게 밝혀지지 않았습니다. Anthropic은 단지 이 모델이 마지막 체육관 리더인 마티스에게 도달하기 위해 35,000번의 액션을 수행했다고만 언급했어요.

게임, AI 벤치마크의 새로운 지표?

물론 포켓몬 레드는 단순한 장난감 벤치마크에 불과할지도 모릅니다. 하지만 최근 몇 달 동안 다양한 게임을 통해 AI 모델의 게임 플레이 능력을 테스트하는 새로운 앱과 플랫폼들이 속속 등장하고 있다는 사실은 주목할 만합니다. 앞으로 AI 기술이 게임 분야에 어떤 영향을 미칠지 더욱 기대가 됩니다.

위로 스크롤