딥마인드 AI, 국제 수학 올림피아드 금메달리스트 능가

딥마인드의 새로운 AI, 국제 수학 올림피아드 금메달리스트보다 뛰어난 성적을 거두다

구글의 AI 연구소인 딥마인드(DeepMind)에서 개발한 AI 시스템이 국제 수학 올림피아드에서 기하 문제를 푸는 데 평균적인 금메달 수상자보다 뛰어난 성과를 보였다고 발표했어요.

이 시스템의 이름은 알파지오메트리2(AlphaGeometry2)이고, 기존 시스템인 알파지오메트리(AlphaGeometry)의 개선 버전이라고 해요. 딥마인드 연구진은 알파지오메트리2가 지난 25년간의 국제 수학 올림피아드(IMO, International Mathematical Olympiad) 기하 문제 중 84%를 풀 수 있다고 주장하고 있어요. 국제 수학 올림피아드는 고등학생들을 위한 수학 경시대회랍니다.

왜 딥마인드는 고등학생 수준의 수학 경시대회에 관심을 가질까요?

딥마인드는 더 뛰어난 AI를 만드는 비결이 어려운 기하 문제를 해결하는 새로운 방법을 찾는 데 있다고 생각하는 것 같아요. 특히, 논리적인 추론 능력이 중요하다고 보는 거죠.

수학적 정리를 증명하거나, 어떤 정리가 왜 참인지 논리적으로 설명하려면 추론 능력과 해결책을 찾기 위한 다양한 단계를 선택하는 능력이 모두 필요해요. 딥마인드의 생각대로라면, 이러한 문제 해결 능력은 미래의 범용 AI 모델에 유용한 요소가 될 수 있다고 하네요.

실제로 딥마인드는 지난여름 알파지오메트리2와 형식적인 수학적 추론을 위한 AI 모델인 알파프루프(AlphaProof)를 결합하여 2024년 IMO 문제 6개 중 4개를 해결하는 것을 시연하기도 했어요. 기하 문제 외에도 이러한 접근 방식은 복잡한 엔지니어링 계산을 지원하는 등 다른 수학 및 과학 분야로 확장될 수 있을 것으로 기대하고 있답니다.

알파지오메트리2는 어떻게 작동할까요?

알파지오메트리2는 구글의 제미나이(Gemini) AI 모델 제품군의 언어 모델과 “상징 엔진(symbolic engine)”을 포함한 여러 핵심 요소로 구성되어 있어요. 제미나이 모델은 수학 규칙을 사용하여 문제에 대한 해답을 추론하는 상징 엔진이 주어진 기하학 정리의 실현 가능한 증명에 도달하도록 돕는 역할을 한답니다.

IMO 시험에서 흔히 볼 수 있는 기하 문제 다이어그램은 점, 선 또는 원과 같은 “구조물”을 추가해야만 풀 수 있다고 해요. 알파지오메트리2의 제미나이 모델은 다이어그램에 추가하면 유용할 수 있는 구조물을 예측하고, 엔진은 이를 참조하여 추론을 수행하는 방식으로 작동하는 것이죠.

기본적으로 알파지오메트리2의 제미나이 모델은 형식적인 수학 언어로 단계와 구조를 제안하고, 엔진은 특정 규칙에 따라 이러한 단계의 논리적 일관성을 확인해요. 검색 알고리즘을 통해 알파지오메트리2는 여러 솔루션 검색을 병렬로 수행하고 유용할 수 있는 결과를 공통 지식 기반에 저장할 수 있다고 합니다.

알파지오메트리2는 제미나이 모델의 제안과 상징 엔진의 알려진 원리를 결합한 증명에 도달하면 문제를 “해결”한 것으로 간주해요.

합성 데이터를 활용한 학습

AI가 이해할 수 있는 형식으로 증명을 번역하는 복잡성 때문에 사용 가능한 기하학 학습 데이터가 부족하다고 해요. 그래서 딥마인드는 알파지오메트리2의 언어 모델을 훈련하기 위해 3억 개 이상의 다양한 복잡성을 가진 정리와 증명을 생성하여 자체 합성 데이터를 만들었다고 합니다.

딥마인드 팀은 선형 방정식과 기하학적 객체를 평면에서 이동해야 하는 방정식을 포함하여 지난 25년(2000년에서 2024년) 동안의 IMO 대회에서 45개의 기하 문제를 선택했어요. 그런 다음 이 문제들을 더 큰 50개의 문제 세트로 “번역”했죠. (기술적인 이유로 일부 문제는 두 개로 분할해야 했다고 하네요.)

논문에 따르면 알파지오메트리2는 50개 문제 중 42개를 해결하여 평균 금메달 수상자 점수인 40.9점을 넘어섰다고 합니다.

알파지오메트리2의 한계점

물론 한계도 존재해요. 기술적인 문제로 인해 알파지오메트리2는 변수 점, 비선형 방정식 및 부등식이 있는 문제를 해결할 수 없다고 합니다. 또한 알파지오메트리2가 기술적으로 기하학에서 금메달 수준의 성능에 도달한 최초의 AI 시스템은 아니지만, 이 정도 규모의 문제 세트로 이를 달성한 것은 처음이라고 하네요.

알파지오메트리2는 더 어려운 IMO 문제 세트에서는 더 낮은 성능을 보였어요. 딥마인드 팀은 추가적인 도전을 위해 수학 전문가들이 IMO 시험에 추천했지만 아직 대회에 출제되지 않은 29개의 문제를 선택했는데, 알파지오메트리2는 이 중 20개만 풀 수 있었다고 합니다.

AI 개발 방향에 대한 논쟁

그럼에도 불구하고 이번 연구 결과는 AI 시스템이 지식 표현 규칙을 사용하여 지식을 나타내는 기호를 조작하는 상징 조작을 기반으로 구축되어야 하는지, 아니면 겉으로는 더 뇌와 유사한 신경망을 기반으로 구축되어야 하는지에 대한 논쟁에 불을 붙일 가능성이 높아요.

알파지오메트리2는 하이브리드 접근 방식을 채택하고 있어요. 제미나이 모델은 신경망 아키텍처를 가지고 있는 반면, 상징 엔진은 규칙 기반으로 작동하는 것이죠.

신경망 기술 지지자들은 음성 인식에서 이미지 생성에 이르기까지 지능적인 행동은 방대한 양의 데이터와 컴퓨팅만으로도 나타날 수 있다고 주장해요. 워드 프로세서 소프트웨어에서 줄을 편집하는 것과 같이 특정 작업에 전념하는 기호 조작 규칙 세트를 정의하여 작업을 해결하는 상징 시스템과 달리 신경망은 통계적 근사 및 예제 학습을 통해 작업을 해결하려고 시도합니다.

신경망은 강력한 AI 시스템의 초석이에요. 그러나 상징 AI 지지자들은 신경망이 전부가 아니며, 상징 AI가 세계 지식을 효율적으로 인코딩하고, 복잡한 시나리오를 통해 추론하고, 답에 도달한 방법을 “설명”하는 데 더 나은 위치에 있을 수 있다고 주장합니다.

카네기 멜론 대학교의 AI 전문 컴퓨터 과학 교수인 빈스 코니처(Vince Conitzer)는 “이러한 종류의 벤치마크에서 지속적이고 놀라운 진전과 ‘추론’을 포함한 최신 언어 모델이 여전히 몇 가지 간단한 상식 문제로 어려움을 겪고 있다는 사실 사이의 대조를 보는 것은 놀랍습니다.”라고 말했어요. “저는 그것이 모두 속임수라고 생각하지 않지만, 다음 시스템에서 어떤 행동을 기대해야 할지 여전히 모른다는 것을 보여줍니다. 이러한 시스템은 매우 큰 영향을 미칠 가능성이 높으므로 우리는 그것들과 그것들이 제기하는 위험을 훨씬 더 잘 이해해야 합니다.”

알파지오메트리2는 상징 조작과 신경망이라는 두 가지 접근 방식이 결합되어 일반화 가능한 AI를 찾는 데 유망한 경로임을 보여주는 것 같아요. 실제로 딥마인드 논문에 따르면 신경망 아키텍처를 가진 o1도 알파지오메트리2가 답할 수 있었던 IMO 문제를 전혀 풀 수 없었다고 합니다.

이것이 영원히 지속되지는 않을 수도 있어요. 논문에서 딥마인드 팀은 알파지오메트리2의 언어 모델이 상징 엔진의 도움 없이도 문제에 대한 부분적인 해결책을 생성할 수 있다는 예비 증거를 발견했다고 밝혔습니다.

딥마인드 팀은 논문에서 “결과는 대규모 언어 모델이 상징 엔진과 같은 외부 도구에 의존하지 않고도 자급자족할 수 있다는 아이디어를 뒷받침하지만 모델 속도가 향상되고 문제가 완전히 해결될 때까지 도구는 수학 응용 분야에 필수적일 것입니다.”라고 결론지었어요.

위로 스크롤