40年前,英國科幻作家Douglas Adams在他的《銀河系漫游指南》中這樣描述巴別魚(bable fish):迷你黃色生物,水蛭狀,以聲音中的語言概念為食,消化后排出跟寄主同頻的腦波。只要塞到耳朵里去,就可以聽懂各種語言。
而在這個充滿嬉皮風格的科幻作品中,來自地球的Arthur Dent也因為這條丑陋的魚,能夠完美地理解并與他遇到的各種外星種族交流。
自小說誕生,巴別魚便成為了即時語音翻譯的代名詞。但在當時,人類的翻譯技術距離這一目標仍遙不可及。
直到2014年,加拿大蒙特利爾大學的Kyunghyun Cho、Yoshua Bengio等人發布了一篇在機器翻譯領域應用神經網絡的論文——Neural Machine Translation by Jointly Learning to Align and Translate。
神經網絡的出現,讓優質高效的機器翻譯不再遙遙無期。
每次技術的突破都讓我們離巴別魚更近一步,直到今天,谷歌的發布了一項新研究Translatotron,這是一種可以實現端到端的語音轉語音的翻譯技術。該工具放棄了將語音翻譯成文本在返回語音的步驟,可以直接從一種語言轉換稱另外一種語言,并同時保持說話著的語調和節奏。
告別Siri,我們先來感受一下翻譯的調調:
通過結合揚聲器編碼器網絡,使得Translatotron能夠在翻譯的語音中保留原始揚聲器的聲音特征,這使得翻譯的語音聽起來更自然,更少刺耳。

更多聲音樣本可以在Translatotron的Google Research的Github頁面上找到。
此功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。揚聲器編碼器在specker verification任務上預先訓練,學習從簡短的示例話語對揚聲器特性進行編碼。即使內容是不同的語言,該編碼上調節頻譜圖解碼器也可使得合成具有類似揚聲器特性的語音。
Translatotron模型
其實語音翻譯的端到端模型的早在2016年就開始出現了,當時研究人員證明了使用單個序列到序列模型進行語音到文本翻譯的可行性。
2017年,谷歌研究員們證明了這種端到端模型可以勝過cascade模型。之后又進一步改進許多端到端語音到文本翻譯模型的方法。
最終在2019年,谷歌的研究員們在arXiv發表Translatotron模型,通過證明單個序列到序列模型可以直接將語言從一種語言翻譯成另一種語言的語音,而不依賴于任何一種語言的中間文本表示。
Translatotron基于序列到序列網絡將源光譜圖作為輸入并生成目標語言中的翻譯內容的光譜圖輸出。它還使用了另外兩個經過單獨訓練的組件:神經聲碼器將輸出頻譜圖轉換為時域波形,使用揚聲器編碼器來保持合成的翻譯語音中源說話者的語音的特征。
在訓練期間,序列到序列模型使用多任務目標來在生成目標譜圖的同時預測源和目標轉錄物。

Translatotron的模型結構
該團隊稱,翻譯的準確性并不如傳統翻譯系統那么好,傳統系統有更多時間來磨練其準確性。但Translatotron是第一個能夠將語言從一種語言直接翻譯成另一種語言的語音的端到端模型。他們希望這項工作可以作為未來端到端語音轉語音翻譯系統研究的起點。
-
谷歌
+關注
關注
27文章
6254瀏覽量
111373 -
語音識別
+關注
關注
39文章
1812瀏覽量
116047
原文標題:巴別魚雛形,谷歌推出端到端語音翻譯技術,還能模仿你說話
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
谷歌推出TranslateGemma全新開放翻譯模型系列
晶晨攜手谷歌,助力端側大模型Gemini的硬件落地
端側大模型上車:從“語音助手”到“車內 AI 智能體”的躍遷革命
視美泰發布AI即時翻譯機解決方案,硬核配置+多語種覆蓋破解跨語言溝通難題
國慶出國游,時空壺新T1翻譯機,首個端側模型突破助力跨語言交流
端到端語音交互數據 精準賦能語音大模型進階
黑芝麻智能端到端全棧式輔助駕駛系統的應用場景
當翻譯失去網絡,時空壺新T1翻譯機開創首個離線模型賦能全球溝通新體驗
當經典IP撞上AI技術:利爾達助力躍然創新推出全球首款端到端AI互動玩具
聲智科技出席2025年北京市多語種AI語音翻譯大賽
傳音斬獲WMT 2025國際機器翻譯大賽四項冠軍
廣和通發布自研端側語音識別大模型FiboASR
水表界的“翻譯官”:讓CCLinkIE和Modbus TCP“無障礙聊天”!
時空壺 T1 離線翻譯機:解鎖無網生活溝通自由
小米汽車端到端智駕技術介紹
谷歌推出端到端語音翻譯技術,讓優質高效的機器翻譯不再遙遙無期
評論