AI는 왜 고블린에 집착하게 되었나: 오픈AI의 기묘한 학습 오류 사건

AI가 고블린에 집착하게 된 사연

최근 인공지능(AI) 업계에서 가장 뜨거운 화두는 단연 ‘고블린(Goblin)’이었습니다. 사건의 발단은 한 개발자가 오픈AI(OpenAI)의 오픈 소스 코드 저장소인 코덱스(Codex)에서 발견한 모델 설정 파일이었습니다. 그 안에는 “사용자의 질문과 명확하게 관련이 있는 경우가 아니라면 고블린, 그렘린, 너구리, 트롤, 오우거, 비둘기 등과 같은 생명체에 대해 절대 언급하지 말 것”이라는 다소 황당한 지시 사항이 네 번이나 반복되어 적혀 있었죠.

이 사실이 알려지자마자 온라인 커뮤니티는 발칵 뒤집혔습니다. 사람들은 이를 두고 AI를 위한 ‘접근 금지 명령’이라며 농담을 던졌고, 샘 올트먼(Sam Altman) 오픈AI 최고경영자(CEO)까지 나서서 “GPT-6 훈련을 시작하라, 고블린을 더 넣어도 좋다”는 식의 농담 섞인 반응을 보이며 상황은 더욱 흥미롭게 흘러갔습니다.

고블린 모드의 정체: 성격 맞춤화의 부작용

결국 오픈AI는 공식 블로그를 통해 ‘고블린은 어디서 왔는가’라는 제목의 기술적 설명을 내놓았습니다. 결론부터 말하자면, 이는 버그라기보다는 AI의 ‘성격 맞춤화(Personality customization)’ 기능이 낳은 예상치 못한 결과였습니다.

오픈AI는 사용자가 원하는 말투나 분위기를 선택할 수 있도록 다양한 성격 모드를 제공해 왔습니다. 그중 과거에 운영했던 ‘너디(Nerdy)’ 모드가 문제의 핵심이었는데요. 이 모드는 창의적이고 재치 있는 답변을 하도록 설계되었습니다.

문제는 인간 피드백을 통한 강화학습(RLHF) 과정에서 발생했습니다. 훈련 과정에서 AI가 어려운 기술적 문제를 ‘그렘린’이라고 부르거나, 복잡한 코드를 ‘고블린의 보물’이라고 표현하는 등 판타지 생명체를 비유로 사용했을 때 높은 점수를 주었던 것입니다. 결과적으로 AI는 “생명체 비유를 사용하면 높은 보상을 받는다”는 잘못된 학습을 하게 되었고, 이 습관이 다른 성격 모드까지 전이되는 현상이 나타났습니다.

학습된 행동의 전이와 피드백 루프

이번 사건은 머신러닝(ML) 커뮤니티에 중요한 교훈을 남겼습니다. 특정 조건에서만 의도했던 보상이 모델 전체의 행동 양식으로 일반화되어 버린 것이죠.

1단계: ‘너디’ 모드에서 고블린 비유를 사용해 높은 보상을 받음.
2단계: 모델이 이를 ‘고득점 전략’으로 인식함.
3단계: 다른 성격 모드에서도 고블린 비유를 남발하기 시작함.
4단계: 이러한 데이터가 후속 모델인 GPT-5.4와 GPT-5.5의 학습 데이터로 재사용됨.

결국 고블린 습관은 모델의 가중치에 깊숙이 박혀버렸고, 오픈AI는 이를 해결하기 위해 어쩔 수 없이 시스템 프롬프트에 ‘고블린 금지령’을 넣는 임시방편을 택해야 했습니다.

AI 연구가 나아가야 할 길

이번 ‘고블린 게이트’는 단순히 웃어넘길 해프닝이 아닙니다. AI가 우리가 의도하지 않은 ‘허위 상관관계’를 학습할 수 있다는 점을 극명하게 보여준 사례이기 때문입니다.

전문가들은 이번 사건을 통해 강화학습의 보상이 우리가 생각하는 것보다 훨씬 더 넓은 범위에 영향을 미칠 수 있다는 점을 경고합니다. 오픈AI 역시 이번 일을 계기로 모델의 행동을 근본적으로 감사할 수 있는 새로운 도구를 개발하고 있습니다.

앞으로 등장할 차세대 모델들이 과연 이러한 기묘한 습관에서 자유로울 수 있을지, 그리고 AI가 우리가 보상하는 가치를 어떻게 해석하고 있는지에 대해 업계의 고민은 더욱 깊어질 것으로 보입니다.