国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌發布Translatotron語音翻譯系統

DPVg_AI_era ? 來源:lq ? 2019-05-19 10:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,谷歌發布Translatotron語音翻譯系統,這是第一個可以直接將一個人的聲音從一種語言轉換成另一種語言,同時保持說話人的聲音和節奏的翻譯模型。

讓說不同語言的人更容易地、直接地相互交流,這是語音到語音的翻譯系統(Speech-to-speech translation)的目的,這樣的系統在過去幾十年里取得了不錯的進展。

今天,谷歌發布Translatotron語音翻譯系統,這是第一個可以直接將一個人的聲音從一種語言轉換成另一種語言,同時保持說話人的聲音和節奏的翻譯模型。

傳統上,語音翻譯系統通常有3個獨立的部分:自動語音識別將源語音轉錄為文本,機器翻譯將轉錄的文本翻譯成目標語言,最后,文本到語音合成(TTS)系統將翻譯文本轉換成目標語言的語音。

許多商業語音到語音翻譯的產品都采用這樣的系統,包括Google Translate。但是,這類系統依賴于中間文本,準確率不高,而且效率較低。

谷歌的新工具Translatotron舍棄了將語音翻譯為文本再返回語音的步驟,而是采用端到端的技術,直接將說話者的聲音翻譯成另一種語言。這使它能夠快速地翻譯,但更重要的是,能夠更容易反映說話人的語調和節奏。

在論文《基于序列到序列模型的直接語音到語音翻譯》(Direct speech-to-speech translation with a sequence-to-sequence model)中,谷歌的研究人員提出一種基于單個注意力序列到序列模型的直接語音到語音翻譯的新實驗系統,該系統不依賴于中間文本表示。

這個系統被稱為Translatotron,避免了將任務劃分為獨立的階段,比級聯系統更有優勢,包括推理速度快、自然地避免了識別和翻譯之間的復合錯誤,能夠在翻譯后保留原說話者的聲音,以及能夠更好地處理不需要翻譯的單詞(如名稱和專有名詞)。

Translatotron:不依賴中間文本,直接翻譯語音

語音翻譯端到端模型的出現始于2016年,當時研究人員證明了使用單個序列到序列模型進行語音到文本翻譯的可行性。2017年,我們證明了這種端到端模型可以超越級聯模型(cascade models)。

最近有許多工作進一步改進了端到端語音到文本翻譯模型的方法,包括同樣來自谷歌的利用弱監督數據的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更進一步,證明了單個序列到序列模型可以直接將一種語言的語音翻譯成另一種語言的語音,而不需要像級聯系統那樣依賴于任何一種語言的中間文本表示。

Translatotron基于一個sequence-to-sequence網絡,它將源聲譜圖(spectrograms)作為輸入,生成目標語言翻譯內容的聲譜圖。

輸入和生成的聲譜圖

此外,Translatotron還使用了另外兩個單獨訓練的組件:一個神經聲音編碼器(neuralvocoder),可以將輸出聲譜圖轉換為時域波形;另外,還可以選擇使用一個speaker encoder,用于在合成翻譯語音時保持源speaker的語音特征。

在訓練過程中,序列到序列模型使用一個多任務目標預測源和目標轉錄文本,同時生成目標聲譜圖。然而,推理過程中不需要使用轉錄文本或其他中間文本表示。

Translatotron的模型結構

性能

谷歌通過測量BLEU分數來驗證Translatotron的翻譯質量。該分數是通過語音識別系統轉錄的文本計算的。雖然結果落后于傳統的級聯系統,但已經證明了端到端直接語音到語音轉換的可行性。

對比Translatotron到基線級聯方法的直接語音到語音翻譯輸出,在這種情況下,兩個系統都提供合適的翻譯并使用相同的規范語音很自然的說話。

保持聲音特征

通過結合揚聲器編碼器網絡,Translatotron還能夠在翻譯的語音中,保留原始說話者的聲音特征,這使得翻譯的語音聽起來更自然,不那么刺耳。

此功能利用了之前針對TTS的演講者驗證和演講者調整的Google研究。揚聲器編碼器在演講者驗證任務上進行預訓練,學習從簡短的示例話語對揚聲器特性進行編碼。在該編碼上調節頻譜圖解碼器,即使內容是在不同的語言中,也可以合成具有類似揚聲器特性的語音。

谷歌提供了諸多使用示例,如下面的例子,Translatotron將西班牙語對話轉換為英語,下面的音頻分別是西班牙語輸入、真人參考翻譯,以及Translatotron的翻譯。

(由于微信智能插入一個音頻,請點擊原文鏈接聽更多語音。)

Translatotron的翻譯:

更多示例:

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在這個例子中,Translatotron提供比基線級聯模型更準確的平移,同時能夠保留原始說話者的聲音特征。保留原始說話者聲音的Translatotron輸出訓練的數據,少于使用規范聲音的數據,因此它們產生的翻譯略有不同。

結論

谷歌聲稱,Translatotron是第一個可以直接將一種語言的語音,翻譯成另一種語言的語音的端到端模型。它還能夠在翻譯的語音中保留源說話者的聲音。谷歌希望這項工作可以作為未來端到端語音轉語音翻譯系統研究的起點。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3957

    瀏覽量

    142733
  • 谷歌
    +關注

    關注

    27

    文章

    6254

    瀏覽量

    111467
  • 語音
    +關注

    關注

    3

    文章

    405

    瀏覽量

    39794

原文標題:同聲傳譯被攻陷!谷歌發布Translatotron直接語音翻譯系統

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    谷歌推出TranslateGemma全新開放翻譯模型系列

    我們已正式推出 TranslateGemma,這一全新的開放翻譯模型系列基于 Gemma 3 構建,并提供 4B、12B 和 27B 三種參數規模。TranslateGemma 的問世標志著開放翻譯領域邁出了重要一步,它可幫助人們跨越 55 種語言進行交流,無論身在何處或
    的頭像 發表于 02-26 10:22 ?555次閱讀

    谷歌評論卡,碰一碰即可完成谷歌評論 #谷歌評論卡 #NFC標簽 #nfc卡

    谷歌
    深圳市融智興科技有限公司
    發布于 :2026年01月15日 17:02:00

    芯知識|語音芯片是如何讓機器“開口說話”的?

    在智能音箱回應你的詢問、車載導航提示你轉彎、甚至醫療設備發出清晰提醒的瞬間,你是否曾好奇,這些機器是如何“開口說話”的?其背后的核心功臣,正是一枚枚精巧的語音芯片。它如同一個高度集成的“聲音翻譯
    的頭像 發表于 12-29 09:05 ?324次閱讀
    芯知識|<b class='flag-5'>語音</b>芯片是如何讓機器“開口說話”的?

    Gemini AI 再進化:谷歌聯合XREAL發布Project Aura, 打開“看見世界”的新能力

    [2025年12月9日,美國加利福尼亞州山景城]?—— 在今日舉行的 The Android Show 上,谷歌首次公布了 Project Aura產品和 Android XR系統的關鍵細節,該產品
    發表于 12-09 11:06 ?1272次閱讀
    Gemini AI 再進化:<b class='flag-5'>谷歌</b>聯合XREAL<b class='flag-5'>發布</b>Project Aura, 打開“看見世界”的新能力

    視美泰發布AI即時翻譯機解決方案,硬核配置+多語種覆蓋破解跨語言溝通難題

    在全球化深入推進與AI技術規模化商用的雙重驅動下,跨語言溝通需求正迎來爆發式增長。近日,視美泰正式發布AI即時翻譯機解決方案,以“核心硬件+智能算法+多模態交互”的完整技術矩陣,依托在線語音轉寫
    的頭像 發表于 12-03 10:50 ?1087次閱讀
    視美泰<b class='flag-5'>發布</b>AI即時<b class='flag-5'>翻譯</b>機解決方案,硬核配置+多語種覆蓋破解跨語言溝通難題

    樓宇自控系統語音控制集成,操作更便捷智能

    在智慧建筑升級浪潮中,樓宇自控系統的交互方式不斷革新,語音控制集成作為新型操作模式,打破了傳統按鍵、觸屏的操作局限,讓樓宇管理更高效、更人性化。這種 “動口不動手” 的控制方式,不僅簡化了操作流程
    的頭像 發表于 11-27 10:30 ?354次閱讀

    語音識別系統的技術核心:從聲音到文字的智能轉換

    ? ? ? 語音識別技術,也稱為自動語音識別(ASR),其核心目標是將人類語音信號轉換為對應的文本或指令。隨著人工智能的發展,語音識別已成為智能助手、實時
    的頭像 發表于 09-05 14:04 ?856次閱讀

    語音機器人交互系統:核心技術與應用挑戰

    ? ? ? 語音機器人交互系統是融合多學科技術的復雜工程,其核心目標是實現人與機器間的自然、流暢語音對話。該系統已廣泛應用于智能客服、智能家居、企業助手等場景,其技術架構主要包含以下幾
    的頭像 發表于 09-02 11:08 ?842次閱讀

    聲智科技出席2025年北京市多語種AI語音翻譯大賽

    8月20日,由北京市科委、中關村管委會主辦,北京語言大學、北京第二外國語學院、北京市翻譯協會、中國人工智能百人會共同承辦的“2025年北京市多語種AI語音翻譯大賽”在中關村展示中心順利啟幕。聲智作為
    的頭像 發表于 08-25 17:18 ?1250次閱讀

    廣和通發布自研端側語音識別大模型FiboASR

    7月,全球領先的無線通信模組及AI解決方案提供商廣和通,發布其自主研發的語音識別大模型FiboASR。該模型專為端側設備上面臨的面對面實時對話及多人會議場景深度優化,在低延遲語音交互、實時語音
    的頭像 發表于 08-04 11:43 ?1616次閱讀

    EASY EAl Orin Nano(RK3576) whisper語音識別訓練部署教程

    1Whisper簡介Whisper是OpenAI開源的,識別語音識別能力已達到人類水準自動語音識別系統。Whisper作為一個通用的語音識別模型,它使用了大量的多語言和多任務的監督數據
    的頭像 發表于 07-25 15:21 ?861次閱讀
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>語音</b>識別訓練部署教程

    廣和通發布新一代AI語音智能體FiboVista

    近日,2025火山引擎Force原動力大會正式開幕。廣和通發布新一代AI語音智能體FiboVista,并已率先應用于車聯網,成為智能駕駛的“用車伙伴”和“出行伴侶”。通過創新AI大模型和場景服務洞察,FiboVista將在智慧家居、工業互聯等更多萬億級市場應用,打造全場景
    的頭像 發表于 06-17 09:22 ?1271次閱讀

    谷歌地圖GPS定位

    的導航體驗。 GPS(全球定位系統)技術起始于軍事應用,現已廣泛用于民用領域。谷歌地圖通過整合這一技術,讓用戶能夠隨時隨地獲取精確的位置信息。以下是谷歌地圖GPS定位的幾個關鍵技術點: 1. **衛星信號接收**:
    的頭像 發表于 05-29 16:54 ?1480次閱讀

    “System Level EOS Testing Method”可以翻譯為: “系統級電性過應力測試方法”

    “System Level EOS Testing Method”可以翻譯為: “系統級電性過應力測試方法”
    的頭像 發表于 05-05 15:55 ?945次閱讀
    “System Level EOS Testing Method”可以<b class='flag-5'>翻譯</b>為: “<b class='flag-5'>系統</b>級電性過應力測試方法”

    谷歌發布混合量子模擬方法

    據外媒報道,谷歌發布了一種混合量子模擬方法;論文已經在Nature正式發表,谷歌混合量子模擬器的核心在于將模擬和數字技術相結合;是全新的模擬-數字方案,可在保持速度的同時增強可控制性,這一方案顛覆了
    的頭像 發表于 04-22 17:17 ?835次閱讀