세서미, 챗GPT 능가하는 자연스러운 AI 음성 어시스턴트 공개

AI 스타트업 Sesame의 새로운 음성 어시스턴트, ChatGPT를 능가하는 자연스러움?

인공지능 스타트업인 Sesame (세서미)에서 새로운 음성 어시스턴트를 선보였는데, 이게 챗GPT (ChatGPT)의 음성 모드보다 훨씬 더 자연스럽다는 이야기가 나오고 있어요. 잠시나마 봇과 대화하고 있다는 사실을 잊을 정도라고 하니, 정말 놀랍지 않나요?

세서미의 대화형 음성 모델 (CSM) 데모 공개

세서미는 지난 2월 27일, 인공지능 챗봇과의 더욱 의미 있는 상호작용을 목표로 하는 대화형 음성 모델 (Conversational Speech Model, CSM) 데모를 공개했습니다. 세서미 측은 단순히 요청을 처리하는 것이 아니라, 시간이 지남에 따라 신뢰를 구축하는 진정한 대화를 나누는 파트너를 만드는 것을 목표로 한다고 밝혔습니다. 또한, 음성이야말로 최고의 인터페이스로서 잠재력을 실현하고자 한다고 덧붙였어요.

세서미의 음성 어시스턴트는 현재 웹사이트에서 무료 데모로 이용할 수 있으며, Maya (마야)와 Miles (마일즈) 두 가지 목소리를 제공합니다.

사용자들의 반응은?

세서미의 음성 어시스턴트 데모가 공개된 이후, 사용자들은 경탄을 금치 못하고 있다고 합니다. 한 Reddit (레딧) 사용자는 “어린 시절부터 AI에 관심이 많았지만, 우리가 드디어 AI 시대에 도달했다는 느낌을 받은 것은 이번이 처음”이라고 언급했어요. 또 다른 사용자는 “세서미는 대화형 AI에서 인간과 거의 구별할 수 없을 정도로 가장 근접한 경험을 제공한다”라고 극찬했습니다.

직접 체험해 보니…

직접 마야의 목소리로 10분 정도 AI를 동반자로 사용하는 윤리에 대해 이야기를 나눠봤다고 합니다. 그 결과, 사려 깊고 지식이 풍부한 사람과 진솔한 대화를 나눈 듯한 느낌을 받았다고 하네요. 마야의 말투는 자연스러운 억양을 가지고 있었고, “아시잖아요”나 “음”과 같은 감탄사를 사용하며 혀를 차거나 숨을 들이쉬는 소리까지 냈다고 합니다.

가장 인상 깊었던 점은 마야가 즉각적으로 질문을 던지며 대화에 참여를 유도했다는 점입니다. 챗GPT 음성 모드는 먼저 말을 걸기 전까지 기다리는 반면, 마야는 대화를 시작하면서 수요일 아침을 어떻게 보내고 있는지 물어봤다고 해요.

챗GPT와의 차이점

AI 동반자가 “인간처럼 너무 잘하게 되는 것”에 대한 위험에 대해 질문했을 때, 마야는 “사기꾼은 어차피 사기를 칠 것이고, 인간 관계에 대해서는 대체제가 아닌 더 나은 동반자가 되는 방법을 배워야 할지도 모른다”라고 답했습니다. 반면, 챗GPT는 “그것은 타당한 우려입니다. 기술과 실제 인간 관계의 균형을 맞추는 것이 중요합니다. AI는 유용한 도구가 될 수 있지만, 진정한 인간 관계를 대체해서는 안 됩니다.”와 같이 다소 틀에 박힌 답변을 내놓았다고 하네요.

OpenAI (오픈AI)가 음성 모드의 중단 기능과 유연한 대화 방식을 개척했지만, 챗GPT는 여전히 완전한 문장과 문단 덩어리로 응답하는 경향이 있어 로봇처럼 들린다는 평가가 있습니다. 챗GPT 음성 모드를 사용할 때는 봇과 대화하고 있다는 사실을 잊을 수 없으며, 이는 어색하고 부자연스러운 대화로 이어질 수 있다는 것이죠.

역할극도 완벽 소화

팟캐스트 ‘AI for Humans’의 공동 진행자인 Gavin Purcell (개빈 퍼셀)은 레딧에 세서미와의 대화 내용을 게시했는데, 어느 목소리가 봇인지 구별하기가 거의 불가능했다고 합니다. 퍼셀은 마일즈에게 화난 상사처럼 행동하라고 지시했고, 돈세탁, 뇌물 수수, 몰타에서의 미스터리한 사건에 대한 매우 어리석은 대화가 이어졌지만 마일즈는 막힘없이 대화를 이어나갔다고 합니다. 지연 시간도 느껴지지 않았고, 대화의 맥락을 기억하며 퍼셀을 “망상에 빠졌다”고 부르며 해고하는 등 즉흥적인 주장을 창의적으로 발전시켰다고 하네요.

한계점도 존재

물론 한계점도 있습니다. 마야의 목소리가 대화 도중 몇 번 끊기기도 했고, “It’s a heavy talk that come.”과 같이 구문이 정확하지 않은 경우도 있었다고 합니다.

세서미는 Meta (메타)의 Llama (라마) 모델을 기반으로 CSM을 훈련했으며, 의미론적 토큰과 음향 토큰에 대한 텍스트 음성 변환 모델을 훈련하는 기존의 2단계 프로세스를 결합하여 지연 시간을 줄였다고 합니다. OpenAI도 음성 모드를 훈련하기 위해 유사한 다중 모드 접근 방식을 사용했지만, 음성 모드의 내부 작동 방식에 대한 기술 논문을 발표한 적은 없다고 하네요.

이러한 점을 고려할 때 세서미의 모델이 대화형 대화에서 훨씬 더 뛰어나다는 점은 놀랍습니다. 하지만 세서미의 출시는 데모에 불과하므로, 정식 모델이 출시되면 추가적인 검토가 필요할 것으로 보입니다. 데모 발표에 따르면 세서미는 “향후 몇 달 안에” 모델을 오픈 소스로 공개하고 20개 이상의 언어로 확장할 계획이라고 합니다.

위로 스크롤