利用計算機把一種自然語言轉變成另一種自然語言的過程就是機器翻譯。
機器翻譯對于信息時代下海量信息的捕獲無疑具有重要作用,事實上,人們對于機器翻譯的需求也與日俱增。除了專業的出版水平的翻譯,機器翻譯還包括以了解信息或以交流信息為目的的機器翻譯。
多語言翻譯是機器翻譯需要面臨的一大技術現實。其中,一個理想的模型是一個統一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平。
EMNLP 2020 最新的多語言翻譯新范式 multilingual Random Aligned Substitution Pre-training (mRASP)就成功實現了這一理想模型:mRASP通過預訓練技術再在具體語種上微調即可達到領先的翻譯效果,其在 32 個語種上預訓練出的統一模型在 47 個翻譯測試集上取得了全面顯著地提升。
不同于以往的翻譯模式,mRASP樹立了翻譯的預訓練和微調的成功路徑。mRASP中的關鍵思想就是一種新的隨機對齊子串技術,它使具有相似意義的單詞和短語更接近多種語言的表現空間。研究人員預先訓練了32種語言,對聯合的mrap模型建立公共數據集。模型就是這樣對下游語言對進行微調以獲得專門的機器翻譯模型。

研究人員在不同環境下對42個翻譯方向進行了廣泛的實驗,包括跨文化的異國語言等。實驗結果表明,與傳統的mRASP相比,mRASP對訓練目標具有顯著的性能改進。這也是其第一次驗證多個低資源語言對可以用來證明豐富的資源機器翻譯,甚至可以提高關于訓練前語料庫中從未出現過的外來語的翻譯質量。
mRASP 主要針對機器翻譯任務而設計,它有三個應用優勢:
一是打破了資源場景的限制,不論平行雙語資源高低都能有所提升。在資源豐富的語言,比如標準英法翻譯任務上已經有 4000 萬平行語句訓練情況下,使用 mRASP 依然能獲得顯著提升,達到了 44.3 的 BLEU 值。
二是打破了語種數量的限制。任何語言的翻譯,無論是孟加拉語到古吉拉特語還是印地語到菲利賓語,只要是地球上的語言,mRASP 都可以直接拿來微調,并且效果可期。
三是資源消耗低。相比于上百張卡的“軍備競賽”預訓練玩法,mRASP 更平民,僅需要 8 卡訓練一周就可以得到。
隨著計算機運算能力的提升和多語言信息資源的爆發式增長,機器翻譯技術日益精進,未來還將為普通用戶提供更加實時便捷的翻譯服務。
責任編輯:xj
-
人工智能
+關注
關注
1817文章
50094瀏覽量
265273 -
機器翻譯
+關注
關注
0文章
141瀏覽量
15526
發布評論請先 登錄
谷歌推出TranslateGemma全新開放翻譯模型系列
亮亮視野AR翻譯眼鏡斬獲CES 2026多項大獎
視美泰發布AI即時翻譯機解決方案,硬核配置+多語種覆蓋破解跨語言溝通難題
智能“翻譯官”:MODBUS轉PROFIBUS網關,解鎖攪拌站無人裝載新紀元
亮亮視野AR翻譯眼鏡閃耀2025進博會國際論壇
聲智科技AI翻譯耳機重塑智能聽覺體驗
國慶出國游,時空壺新T1翻譯機,首個端側模型突破助力跨語言交流
當翻譯失去網絡,時空壺新T1翻譯機開創首個離線模型賦能全球溝通新體驗
聲智科技出席2025年北京市多語種AI語音翻譯大賽
挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!
傳音斬獲WMT 2025國際機器翻譯大賽四項冠軍
CAN收發器:總線信號的“翻譯官”
時空壺 T1 離線翻譯機:解鎖無網生活溝通自由
人工智能翻譯mRASP:可翻譯32種語言
評論