메타의 올인원 AI 번역 모델 SeamlessM4T, 거의 100개 언어를 지원하다

2023년 8월, 메타가 거의 100개 언어를 이해할 수 있는 ‘올인원’ AI 번역 모델을 공개했어요.

이 모델의 이름은 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation)로, 더글라스 애덤스의 고전 SF 시리즈 은하수를 여행하는 히치하이커를 위한 안내서에 등장하는 바벨피시와 같은 ‘유니버설 트랜슬레이터’를 만들기 위한 메타의 시도예요.

SeamlessM4T 팀은 이 도구에 대한 작업을 Nature 저널에 발표하며, 텍스트-텍스트, 음성-텍스트, 음성-음성, 텍스트-음성 번역을 지원하는 고급 시스템을 소개했어요. 이 시스템은 인상적이고 계속해서 확장되는 언어 목록을 다룰 수 있답니다.

400년 이상의 원시 오디오

SeamlessM4T는 현재 페이스북과 인스타그램에서 자동 더빙에 사용되고 있으며, 101개 언어에서 36개 언어로의 음성-음성 번역, 101개 언어에서 96개 언어로의 음성-텍스트 번역, 96개 언어 간의 텍스트-텍스트 번역, 96개 언어에서 36개 언어로의 텍스트-음성 번역, 그리고 96개 언어에 대한 자동 음성 인식을 지원해요. 이 통합 접근 방식은 전통적인 계단식 시스템의 한계를 극복했어요. 전통적인 시스템은 종종 음성 인식, 번역, 텍스트-음성 합성을 위해 별도의 하위 시스템이 필요하거든요.

메타는 SeamlessM4T가 기존 모델보다 성능이 뛰어나며, 번역 정확도에서 최대 23% 높은 BLEU 점수를 기록하고, 배경 소음과 화자 변동에 대한 저항력이 인상적이라고 밝혔어요.

SeamlessM4T를 만들기 위해 메타는 공개적으로 이용 가능한 웹 데이터에서 수집한 400년 이상의 다국어 원시 오디오 400만 시간을 시작으로 했어요. 팀은 47만 시간 이상의 정렬된 음성을 포함하는 다중 모달 코퍼스인 SeamlessAlign을 개발하고, 이 데이터셋을 최신 기계 학습 기술과 결합했답니다. 여기에는 텍스트와 음성을 위한 다국어 및 모달리티 무관 인코딩을 가능하게 하는 SONAR(Sentence-level Multimodal and Language-Agnostic Representations) 임베딩이 포함되어 있어요.

메타는 사회적 및 윤리적 문제를 해결하기 위해 안전 장치를 사용함으로써 SeamlessM4T가 글로벌 커뮤니케이션에 유용한 도구가 될 수 있다고 말했어요. 이러한 안전 장치는 성별 편향을 줄이고, 원본 소스에는 없는 공격적인 단어가 번역에 나타나는 문제를 완화해준답니다.

위로 스크롤