AI 벤치마킹, 정말 믿을 수 있을까요?
인공지능(AI) 모델 개발사들은 자신들이 개발한 모델의 벤치마크 점수를 자랑하는 것을 좋아합니다. 하지만 과연 이 점수들을 얼마나 신뢰할 수 있을까요? 만약 테스트 자체가 조작되었거나, 편향되었거나, 혹은 단순히 무의미하다면 어떨까요?
AI 모델 성능 측정의 함정
OpenAI의 o3 모델은 ARC-AGI 데이터셋으로 학습한 후, 1만 달러의 컴퓨팅 자원 제한 하에 ARC-AGI의 준공개 평가 데이터셋에서 높은 점수를 받았다고 주장했습니다. ARC-AGI는 AI 모델의 지능을 측정하기 위해 퍼즐 형태의 입력값들을 제공하는 데이터셋입니다.
구글(Google) 또한 최근에 제미나이 프로(Gemini Pro) 모델을 발표하면서, 이 모델이 MMLU에서 높은 점수를 받았다고 밝혔습니다. MMLU는 자연어 이해 능력을 테스트하기 위해 설계된 데이터셋입니다.
한편, 코히어(Cohere)는 2024년 4월에 MMLU 5-shot에서 높은 점수를 받았다고 발표했습니다. “5-shot”은 테스트 단계에서 AI 모델에게 제공되는 예시의 수를 의미합니다.
유럽연합 집행위원회 공동연구센터(European Commission’s Joint Research Center)의 연구진은 “AI 벤치마크를 신뢰할 수 있을까? AI 평가의 현재 문제점에 대한 학제적 검토”라는 논문을 통해 이러한 벤치마크 자체도 모델만큼이나 면밀히 조사해야 한다고 주장합니다.
벤치마크의 숨겨진 문제점들
연구진은 지난 10년간의 양적 벤치마킹 사례를 다룬 100개의 연구를 검토했습니다. 그 결과, 관련 평가 데이터셋 생성 방식의 편향성, 문서 부족, 데이터 오염, 신호와 노이즈를 구분하지 못하는 문제 등 벤치마크 테스트 설계 및 적용과 관련된 다양한 문제점을 발견했습니다.
이는 마치 하드웨어 제조사들이 자사 제품의 벤치마크 결과를 언론 발표나 마케팅에 활용하는 것과 같습니다. 우리는 이러한 결과들을 신뢰하지 않죠.
유럽 연구팀은 또한 일회성 테스트 로직이 사람 및 기술 시스템과의 지속적인 상호 작용을 포함하는 다중 모드 모델 사용을 제대로 반영하지 못한다는 사실을 발견했습니다.
연구진은 논문에서 “우리의 검토는 또한 잘못된 인센티브, 구성 타당성 문제, 알려지지 않은 미지의 것들, 벤치마크 결과 조작 문제 등 현재 벤치마킹 관행의 일련의 체계적인 결함을 강조합니다”라고 밝혔습니다.
또한 “벤치마크 관행이 더 넓은 사회적 관심사보다 최첨단 성능을 우선시하는 문화적, 상업적, 경쟁적 역학에 의해 근본적으로 형성되는 방식을 강조합니다”라고 덧붙였습니다.
벤치마크 점수가 중요한 이유
연구진은 이러한 점수가 중요한 이유는 종종 규제의 근거가 되기 때문이라고 지적합니다. 예를 들어, 유럽연합의 AI 법(AI Act)은 다양한 벤치마크를 포함하고 있습니다. 또한 AI 모델의 벤치마크 점수는 미국 국립표준기술연구소(NIST)의 AI 위험 관리 프레임워크(AI Risk Management Framework)와 같은 다른 규제에도 관련될 것으로 예상됩니다. 미국에서 최근 발표된 AI 행정명령(Executive Order on AI) 또한 모델 평가 및 분류를 위한 벤치마크의 역할을 강조하고 있습니다.
연구진은 AI 벤치마크가 표준화되거나 통일되지 않았지만, 다양한 분야의 학자들이 벤치마크의 변동성과 유효성에 대한 우려를 점점 더 많이 제기하고 있음에도 불구하고 정책 결정의 중심이 되었다고 주장합니다.
이를 뒷받침하기 위해 그들은 법학, 철학, 과학기술학, 사회학, 인지과학 등 다양한 분야에서 제기된 비판을 인용하며 벤치마크 테스트의 위험과 한계에 대해 논의합니다.
벤치마크의 9가지 문제점
연구진은 벤치마크의 9가지 일반적인 문제점을 다음과 같이 제시합니다.
- 벤치마크 데이터셋이 어떻게, 언제, 누구에 의해 만들어졌는지 알 수 없음
- 측정한다고 주장하는 것을 실제로 측정하지 못함
- 테스트가 만들어지는 사회적, 경제적, 문화적 맥락을 명확히 밝히지 못함
- 다양한 데이터 세트에 대한 테스트 실패
- 투자자를 위해 AI를 과장하기 위한 쇼로 설계된 테스트
- 조작, 속임수 또는 기타 방식으로 조작될 수 있는 테스트
- 다른 방법론과 연구 목표를 희생하면서 “특정 방법론과 연구 목표를 강화”하는 테스트
- 급변하는 최첨단 기술을 따라가지 못하는 테스트
- 점점 더 복잡해지는 모델을 평가
이러한 문제점 각각에 대해 연구진은 벤치마킹 우려 사항을 탐구하는 다양한 관련 연구를 인용합니다. 예를 들어, 다양한 데이터 세트에 대한 테스트와 관련하여 연구진은 대부분의 벤치마크가 성공에 초점을 맞추고 있지만 실패에 초점을 맞춘 벤치마크가 더 유용할 수 있다고 지적합니다.
그들은 “단일 품질 번호에 따라 모델 순위를 매기는 것은 쉽고 실행 가능합니다. 목록 상단의 모델을 선택하기만 하면 됩니다. 그러나 모델이 언제, 왜 실패하는지 이해하는 것이 훨씬 더 중요합니다”라고 말합니다.
또한 벤치마크 결과 조작과 관련하여 그들은 “적대적 견고성(adversarial robustness)”으로 알려진 것을 지적합니다. 이는 모델이 특정 테스트(예: 신경 작용제 생성에 대한 프롬프트)에서 성능이 저하되도록 프로그래밍되어 조작에 대한 우려를 제기하는 것을 의미합니다.
폭스바겐(Volkswagen)이 배기가스 테스트에서만 배기가스 제어 장치를 작동하도록 자동차를 프로그래밍하여 배기가스 조작에 관여했을 때 큰 논란이 있었습니다. AI 기업에서 이와 유사한 일이 발생하지 않았다는 사실은 기술 부문이 얼마나 가볍게 규제되는지 시사합니다.
결론적으로, 공동연구센터 과학자들은 안전, 도덕성, 진실성, 독성 측면에서 AI 모델을 측정하는 방식이 광범위한 학문적 관심사가 되었다고 결론지었습니다.
그들은 “요컨대, AI 벤치마크는 알고리즘 시스템 및 AI 모델 전반에 걸쳐 투명성, 공정성 및 설명 가능성에 대한 동일한 요구 사항을 적용해야 합니다”라고 결론지었습니다.