오픈AI, ‘gpt-realtime’으로 실시간 대화형 음성 AI 선봬

OpenAI, 더욱 자연스러운 음성 AI ‘gpt-realtime’ 공개

기업용 음성 인공지능(AI) 시장이 점점 더 치열해지는 가운데, 오픈AI(OpenAI)가 새로운 모델인 GPT-리얼타임(gpt-realtime)을 선보이며 경쟁에 뛰어들었습니다. 이 모델은 복잡한 지시를 따르고, 더욱 자연스럽고 표현력이 풍부한 음성을 제공하는 것이 특징이라고 해요.

음성 AI 기술이 발전하고 고객 서비스 전화나 실시간 번역과 같은 다양한 활용 사례가 늘어나면서, 실제 사람과 같은 음성을 제공하면서도 기업 수준의 보안을 갖춘 AI 음성 시장은 그야말로 뜨겁게 달아오르고 있습니다. 오픈AI는 새로운 모델이 더욱 인간적인 음성을 제공한다고 주장하지만, 엘레븐랩스(ElevenLabs)와 같은 기존 강자들과의 경쟁은 피할 수 없을 것으로 보입니다.

GPT-리얼타임 모델은 오픈AI가 일반에 공개한 리얼타임 API(Realtime API)를 통해 사용할 수 있습니다. 이와 함께 오픈AI는 시더(Cedar)와 마린(Marin)이라는 새로운 음성도 API에 추가했으며, 기존 음성들도 최신 모델과 호환되도록 업데이트했다고 밝혔습니다. 오픈AI는 라이브스트림을 통해 음성 애플리케이션을 구축하는 고객들과 협력하여 GPT-리얼타임을 훈련했으며, 고객 지원이나 학술 튜터링과 같은 실제 시나리오를 기반으로 모델을 정교하게 조정했다고 설명했습니다.

실시간 상호작용에 최적화된 음성-음성 모델

GPT-리얼타임은 음성-음성(speech-to-speech) 프레임워크 내에서 작동합니다. 이는 사용자의 음성 프롬프트를 이해하고 음성으로 응답할 수 있다는 의미인데요. 음성-음성 모델은 고객이 애플리케이션과 상호작용하는 실시간 응답에 이상적이라고 할 수 있습니다.

예를 들어, 고객이 제품 반품을 위해 고객 서비스 플랫폼에 전화했을 때, AI 음성 비서가 마치 사람과 대화하는 것처럼 질문과 요청에 응답할 수 있게 되는 것이죠. 오픈AI의 라이브스트림에서는 T-모바일(T-Mobile)이 AI 음성 기반 상담원이 새로운 휴대폰을 찾는 것을 돕는 사례를, 부동산 검색 플랫폼 질로우(Zillow)는 고객이 완벽한 동네를 찾도록 돕는 상담원 사례를 시연했습니다.

오픈AI는 GPT-리얼타임이 “가장 진보되고 상용화 준비가 완료된 음성 모델”이라고 강조했습니다. 다른 음성 모델과 마찬가지로 문장 중간에 언어를 전환할 수 있으며, “프랑스 억양으로 강조하여 말해줘”와 같은 더욱 복잡한 지시도 따를 수 있다고 연구원들은 언급했습니다.

치열한 음성 AI 시장의 경쟁자들

하지만 GPT-리얼타임은 이미 많은 브랜드에서 사용하고 있는 다른 모델들과 경쟁해야 합니다. 엘레븐랩스는 지난 5월 대화형 AI 2.0(Conversation AI 2.0)을 출시했으며, 사운드하운드(Soundhound)는 패스트푸드 프랜차이즈와 협력하여 AI 음성 드라이브스루를 제공하고 있습니다. 감성 AI 스타트업 흄(Hume)은 사용자가 자신의 음성 AI 버전을 생성할 수 있는 EVI 3 모델을 출시하기도 했습니다.

기업들이 음성 AI의 다양한 활용 사례를 발견함에 따라, 멀티모달(multimodal) 대규모 언어 모델(LLM)을 제공하는 일반 모델 제공업체들도 시장에 뛰어들고 있습니다. 미스트랄(Mistral)은 실시간 번역에 효과적일 것이라고 밝힌 새로운 복스트랄(Voxtral) 모델을 공개했습니다. 구글(Google) 역시 오디오 기능을 강화하고 있으며, 연구 노트를 팟캐스트로 변환하는 노트북LM(NotebookLM)의 오디오 기능으로 인기를 얻고 있습니다.

향상된 지시 이해 능력과 API 기능

오픈AI는 GPT-리얼타임이 더 똑똑해졌고, 웃음이나 한숨과 같은 비언어적 신호를 포함한 원본 오디오를 더 잘 이해한다고 말합니다. 빅 벤치 오디오(Big Bench Audio) 평가를 사용한 벤치마킹 결과, 이 모델은 82.8%의 정확도를 기록하여 이전 모델의 65.6%보다 크게 향상된 모습을 보였습니다. 다만, 오픈AI는 경쟁사 모델과의 비교 수치는 제공하지 않았습니다.

오픈AI는 모델의 지시 이해 능력 향상에 중점을 두어, 모델이 지시를 더욱 효과적으로 따르도록 했습니다. 새로운 모델은 멀티챌린지(MultiChallenge) 오디오 벤치마크에서 30.5%의 점수를 달성했습니다. 또한, 엔지니어들은 GPT-리얼타임이 올바른 도구에 접근할 수 있도록 함수 호출(function calling) 기능을 강화했습니다.

리얼타임 API에도 여러 새로운 기능이 추가되어, 기업들이 실시간 AI 기능을 애플리케이션에 통합하는 방식을 개선했습니다. 이제 API는 멀티모달 대화형 프롬프트(MCP)를 지원하고 이미지 입력을 인식하여, 실시간으로 사용자에게 보이는 것에 대한 정보를 제공할 수 있습니다. 이는 구글이 작년에 프로젝트 아스트라(Project Astra) 발표에서 크게 강조했던 기능이기도 합니다.

리얼타임 API는 또한 세션 개시 프로토콜(SIP)을 처리할 수 있습니다. SIP는 앱을 공중 전화망이나 유선 전화와 같은 전화에 연결하여 더 많은 컨택 센터 활용 사례를 가능하게 합니다. 사용자들은 API에서 프롬프트를 저장하고 재사용할 수도 있습니다.

시장의 반응과 가격 정책

현재까지 초기 사용자들은 이 모델에 깊은 인상을 받고 있는 것으로 보입니다.

“솔직히 MCP와 SIP 기능이 진짜 핵심이지, 단순히 또 다른 모델이 아니에요. 외부 도구 및 시스템과 원활하게 연결되는 능력이야말로 이 모델들이 인상적인 데모를 넘어 실제 워크플로우에 통합될 수 있게 할 거예요.”
“GPT-리얼타임을 테스트해봤는데, 초기 평가는 다음과 같아요. 눈에 띄는 오디오 개선, 지시를 철저히 따름 (매우 좋음), 빠르다고 느껴져요.”
“GPT-리얼타임이 라이브스트림을 한 것은 대부분의 사용자가 관심 있어서가 아니라 전략적인 비즈니스 이유 때문일 거예요. 콜센터는 LLM 제공업체들의 주요 목표 시장이고, 진정한 돌파구를 마련하는 첫 번째 회사가 막대한 수익을 얻을 겁니다.”
“AI 오디오를 개발하는 사람으로서 오픈AI 실시간 업데이트의 장단점은 다음과 같아요. 장점: 더 나은 함수 호출, 더 많은 감정 표현, 20% 저렴해진 가격, 더 나은 제어, 이미지 기능은 멋지지만 사용하지 않을 것 같아요. 단점: 맞춤형 음성 없음 (창의적인 경험에는 필수), TTS-LLM-STT 파이프라인에 비해 여전히 비싸요.”

오픈AI는 GPT-리얼타임의 가격을 20% 인하하여, 오디오 입력 토큰 백만 개당 32달러, 오디오 출력 토큰 백만 개당 64달러로 책정했습니다.