精品亚洲午夜久久久久,国产成人久久精品激情,国产精品成人一区二区无码久久

40年前，英國科幻作家Douglas Ad ams在他的《銀河系漫游指南》中這樣描述巴別魚（bable fish）：迷你黃色生物，水蛭狀，以聲音中的語言概念為食，消化后排出跟寄主同頻的腦波。只要塞到耳朵里去，就可以聽懂各種語言。

而在這個充滿嬉皮風格的科幻作品中，來自地球的Arthur Dent也因為這條丑陋的魚，能夠完美地理解并與他遇到的各種外星種族交流。

自小說誕生，巴別魚便成為了即時語音翻譯的代名詞。但在當時，人類的翻譯技術距離這一目標仍遙不可及。

直到2014年，加拿大蒙特利爾大學的Kyunghyun Cho、Yoshua Bengio等人發布了一篇在機器翻譯領域應用神經網絡的論文——Neural Machine Translation by Jointly Learning to Align and Translate。

神經網絡的出現，讓優質高效的機器翻譯不再遙遙無期。

每次技術的突破都讓我們離巴別魚更近一步，直到今天，谷歌的發布了一項新研究Translatotron，這是一種可以實現端到端的語音轉語音的翻譯技術。該工具放棄了將語音翻譯成文本在返回語音的步驟，可以直接從一種語言轉換稱另外一種語言，并同時保持說話著的語調和節奏。

告別Siri，我們先來感受一下翻譯的調調：

通過結合揚聲器編碼器網絡，使得Translatotron能夠在翻譯的語音中保留原始揚聲器的聲音特征，這使得翻譯的語音聽起來更自然，更少刺耳。

更多聲音樣本可以在Translatotron的Google Research的Github頁面上找到。

此功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。揚聲器編碼器在specker verification任務上預先訓練，學習從簡短的示例話語對揚聲器特性進行編碼。即使內容是不同的語言，該編碼上調節頻譜圖解碼器也可使得合成具有類似揚聲器特性的語音。

Translatotron模型

其實語音翻譯的端到端模型的早在2016年就開始出現了，當時研究人員證明了使用單個序列到序列模型進行語音到文本翻譯的可行性。

2017年，谷歌研究員們證明了這種端到端模型可以勝過cascade模型。之后又進一步改進許多端到端語音到文本翻譯模型的方法。

最終在2019年，谷歌的研究員們在arXiv發表Translatotron模型，通過證明單個序列到序列模型可以直接將語言從一種語言翻譯成另一種語言的語音，而不依賴于任何一種語言的中間文本表示。

Translatotron基于序列到序列網絡將源光譜圖作為輸入并生成目標語言中的翻譯內容的光譜圖輸出。它還使用了另外兩個經過單獨訓練的組件：神經聲碼器將輸出頻譜圖轉換為時域波形，使用揚聲器編碼器來保持合成的翻譯語音中源說話者的語音的特征。

在訓練期間，序列到序列模型使用多任務目標來在生成目標譜圖的同時預測源和目標轉錄物。