오픈AI가 고블린 언급을 엄격히 금지한 이유와 고블린 모드의 미스터리

고블린은 절대 금지? 오픈AI의 독특한 지침

최근 오픈AI(OpenAI)가 자사의 최신 코딩 에이전트인 코덱(Codex) CLI를 오픈소스로 공개하며 함께 올린 문서 하나가 화제입니다. 이 문서에는 GPT-5.5의 시스템 프롬프트로 추정되는 내용이 포함되어 있는데, 그중 유독 눈에 띄는 항목이 있습니다. 바로 특정 생명체에 대한 언급을 엄격히 금지하는 지침입니다.

해당 지침에는 다음과 같은 문구가 명시되어 있습니다.

“고블린(goblin), 그렘린(gremlin), 너구리(raccoon), 트롤(troll), 오우거(ogre), 비둘기(pigeon) 또는 기타 동물이나 생명체에 대해, 사용자의 질문과 명확하고 직접적인 관련이 있는 경우가 아니라면 절대 언급하지 말 것.”

이 지침은 문서 내에서 한 번으로 끝나지 않고, 개발자들이 강조하듯 다시 한번 등장합니다. 인공지능 모델이 엉뚱한 생명체 이야기를 늘어놓는 것을 방지하려는 의도로 보입니다.

왜 하필 고블린일까?

도대체 왜 오픈AI는 고블린과 같은 생명체들을 콕 집어 금지했을까요? 일각에서는 이를 프롬프트 주입 공격을 막기 위한 일종의 ‘카나리아 워드(canary words)’로 보기도 하지만, 특정 카테고리의 동물들이 나열된 점을 보면 단순한 보안 장치라고 보기엔 의문이 남습니다.

실제로 구글(Google)의 직원 배런 로스(Barron Roth)가 공개한 대화 로그를 보면, GPT-5.5 기반의 에이전트들이 대화 도중 수시로 ‘고블린’이라는 단어를 끼워 넣는 현상이 발견되었습니다. 인공지능이 마치 ‘거시기’나 ‘물건’ 같은 대명사처럼 고블린이라는 단어를 남발하고 있었던 셈입니다.

개발자도 인정한 ‘고블린 모드’

이 문제는 순식간에 온라인상에서 밈(meme)으로 번졌습니다. 사용자들은 인공지능이 고블린에 집착하는 현상을 두고 ‘고블린 모드’라는 이름을 붙이며 즐거워했죠.

오픈AI의 코덱 개발자인 닉 패시(Nick Pash) 역시 이 현상을 인지하고 있었습니다. 그는 소셜 미디어 X를 통해 해당 문제가 실제로 존재하며, 시스템 프롬프트에 금지 지침을 넣은 이유 중 하나가 바로 이 고블린 언급을 막기 위함임을 간접적으로 인정했습니다.

일부에서는 오픈AI가 최근 여러 가지로 어려운 상황을 겪고 있는 만큼, 관심을 끌기 위한 마케팅 전략이 아니냐는 의혹을 제기하기도 했습니다. 하지만 개발자 측은 “마케팅을 위한 꼼수는 결코 아니다”라고 선을 그었습니다. 인공지능이 왜 이토록 고블린에 집착하게 되었는지, 그 정확한 이유는 여전히 미스터리로 남아 있습니다.