구글, Vertex AI 플랫폼에 HD 음성 모델 Chirp 3 추가
최근 생성형 인공지능(AI)의 초점이 텍스트 기반 인터페이스에 맞춰져 텍스트, 이미지 등을 생성하는 데 집중되어 왔는데요. 이제는 음성 분야가 빠르게 떠오르고 있다고 합니다. 이러한 흐름에 발맞춰 구글(Google)이 HD 음성 인터페이스인 Chirp 3를 다음 주부터 Vertex AI 개발 플랫폼에 추가한다고 발표했습니다.
Chirp 3의 새로운 기능
지난주, 구글은 Chirp 3가 31개 언어에 대해 8개의 새로운 음성을 제공할 예정이라고 조용히 발표했습니다. 이 플랫폼은 음성 비서 구축, 오디오북 제작, 고객 지원 에이전트 개발, 비디오 음성 해설 등에 활용될 수 있다고 해요. 이 소식은 런던에 있는 구글의 딥마인드(DeepMind) 사무실에서 열린 행사에서 발표되었습니다.
음성 AI 분야의 경쟁 심화
구글의 이러한 노력은 다른 기업들이 음성 AI 분야에서 도약하는 시기와 맞물려 더욱 주목받고 있습니다. 예를 들어, 매우 사실적인 사운드를 제공하는 “Maya”와 “Miles” AI 앱을 개발한 스타트업 Sesame은 개발자들이 자체 맞춤형 앱과 서비스를 구축할 수 있도록 기술 모델을 출시했습니다.
오용 방지를 위한 사용 제한
Chirp 3의 오용을 막기 위해 사용에 제한이 있을 예정이라고 합니다. 구글 클라우드(Google Cloud)의 CEO인 토마스 쿠리안(Thomas Kurian)은 안전팀과 함께 이러한 문제들을 해결하고 있다고 밝혔습니다.
AI 음성 서비스 확장을 위해 수억 달러의 투자를 유치한 ElevenLabs와 같은 주요 스타트업들도 이 분야에서 활발하게 활동하고 있습니다.
Vertex AI 플랫폼 강화
이번 Chirp 3의 추가는 구글의 주력 LLM인 Gemini의 최신 버전, 이미지 생성 모델인 Imagen, 그리고 고가의 비디오 생성 도구인 Veo 2와 함께 Vertex AI 플랫폼을 더욱 강화할 것으로 보입니다.
현실적인 음성 구현, 아직은 숙제
구글이 Chirp 3를 통해 제공하는 음성이 다른 AI 기업들의 “인간” 음성 생성 노력만큼 “현실적”일지는 논쟁의 여지가 있습니다. 딥마인드의 CEO인 데미스 하사비스(Demis Hassabis)는 이것이 단거리 경주가 아닌 마라톤임을 강조했습니다.
그는 “단기적으로 AI가 향후 몇 년 안에 모든 문제에 대한 해결책이 될 것이라는 생각은 아직 시기상조라고 생각합니다. AGI(인공 일반 지능)가 실현되기까지는 몇 년 더 걸릴 것입니다. 하지만 중장기적으로는 향후 10년 동안 많은 변화를 가져올 것이며, 지금은 매우 흥미로운 순간입니다.”라고 덧붙였습니다.
Vertex AI의 진화
구글은 2021년에 개발자들이 클라우드에서 머신러닝 서비스를 구축할 수 있는 플랫폼으로 Vertex AI를 출시했습니다. 이는 OpenAI의 GPT 서비스 출시와 함께 생성형 AI에 대한 관심이 폭발하기 훨씬 이전의 일입니다.
그 이후 구글은 마이크로소프트(Microsoft)나 아마존(Amazon)과 같은 다른 기업들이 개발자를 위한 생성형 AI 도구를 구축하는 데 발맞춰 Vertex AI를 강화하고 있습니다. 개발자들은 Gemini를 기반으로 생성형 AI를 구축하는 것 외에도 Vertex AI를 사용하여 데이터를 분류하고, 모델을 훈련하고, 프로덕션 모델을 설정할 수 있습니다. 구글이 자체적으로 만든 모델 외에도 다른 모델로 확장할지 여부가 주목됩니다.
구글은 아마존의 알렉사(Alexa) 서비스에 대항하기 위한 초기 노력의 코드명으로 “Chirp”라는 이름을 사용하면서 수년간 “Chirp” 음성 서비스를 구축해 왔습니다.