亚洲tv,97亚洲se最新网址,亚洲精品国产精品99久久

語(yǔ)言是文化的有機(jī)組成部分，也是文化的載體，世界文明的多樣性在很大程度上表現(xiàn)為世界語(yǔ)言的多樣性。而在 21 世紀(jì)的今天，語(yǔ)言學(xué)家們顯然已經(jīng)不滿足于傳統(tǒng)的、對(duì)已知語(yǔ)言的研究。相反，許多科學(xué)家開(kāi)始利用計(jì)算機(jī)技術(shù)，去探索已經(jīng)消失的、幾乎成為謎底的滅絕古老語(yǔ)言。

近日，麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室（Computer Science and Artificial Intelligence Laboratory 簡(jiǎn)稱 CSAIL）的研究人員就開(kāi)發(fā)出一種計(jì)算機(jī)算法，旨在幫助語(yǔ)言學(xué)家破譯歷史上已消失的語(yǔ)言。

無(wú)法“谷歌翻譯”的古老語(yǔ)言

如今，世界上現(xiàn)存約有 7100 種語(yǔ)言。然而，古時(shí)存在的大多數(shù)語(yǔ)言都已不再使用，幾近滅絕。數(shù)十種已滅絕語(yǔ)言也被認(rèn)為是“未破譯”的語(yǔ)言，也就是說(shuō)，我們對(duì)它們的語(yǔ)法（grammar）、詞匯（vocabulary）或句法（syntax）了解不足，也無(wú)法理解其文本的意思。

圖 | 世界語(yǔ)言分布地圖 2018

而研究這些“未破譯”的語(yǔ)言，不僅僅是處于學(xué)術(shù)上的好奇心。還是因?yàn)椋焕斫庹Z(yǔ)言，我們就會(huì)錯(cuò)過(guò)與講這些語(yǔ)言的人有關(guān)的一整套知識(shí)體系。不幸的是，大多數(shù)滅絕語(yǔ)言的相關(guān)記錄極少，因此，科學(xué)家無(wú)法使用谷歌翻譯之類的機(jī)器翻譯工具或AI算法來(lái)對(duì)其進(jìn)行解密。

而傳統(tǒng)的研究方法是，找出目標(biāo)語(yǔ)言的“相關(guān)”語(yǔ)言來(lái)作比較研究，例如同一語(yǔ)系或相似度較高的現(xiàn)存語(yǔ)言。然而，有些語(yǔ)言并沒(méi)有對(duì)應(yīng)的、已被深入研究過(guò)的“相關(guān)”語(yǔ)言，并且它們通常缺少諸如空格和標(biāo)點(diǎn)符號(hào)之類的傳統(tǒng)分隔符（想像一下，要解密出用這種語(yǔ)言寫(xiě)出的文字該有多么令人頭禿）。

但是，CSAIL 的研究人員發(fā)明的新系統(tǒng)，已被證明能夠自動(dòng)破譯消失的語(yǔ)言，且無(wú)需對(duì)其與其他語(yǔ)言的關(guān)系有深入的了解。他們還表明，該系統(tǒng)自身就可以確定語(yǔ)言之間的關(guān)系，并可以用它來(lái)證實(shí)最近的一項(xiàng)表明 Iberian 語(yǔ)言實(shí)際上與 Basque 語(yǔ)言無(wú)關(guān)的學(xué)術(shù)研究。

語(yǔ)言破譯：從文本到矢量的轉(zhuǎn)變

此研究由 MIT 教授 Regina Barzilay 牽頭，依賴于基于歷史語(yǔ)言學(xué)（historical linguistics）見(jiàn)解的幾項(xiàng)原則。其中一條原則是，一種給定的語(yǔ)言很少會(huì)直接添加或刪除整個(gè)音節(jié)，但是很可能會(huì)發(fā)生某些近似發(fā)音的替換。比如，母語(yǔ)中帶有“ p”發(fā)音的單詞可能會(huì)在其后代演變中變?yōu)椤?b”，但是由于明顯的發(fā)音差異，變?yōu)椤?k”的可能性則較小。

通過(guò)整合這些原則和其他語(yǔ)言學(xué)約束，Barzilay 等人的新算法學(xué)習(xí)將語(yǔ)言發(fā)音嵌入多維向量空間，在該多維空間中，相應(yīng)矢量之間的距離反映了不同發(fā)音的差異。這種設(shè)計(jì)使他們能夠捕獲語(yǔ)言變化的相關(guān)特征，并將這些特征表達(dá)為計(jì)算約束（computational constraints）。因此，它可以評(píng)估兩種語(yǔ)言之間的相似度。實(shí)際上，當(dāng)對(duì)已知語(yǔ)言進(jìn)行測(cè)試時(shí)，它甚至可以準(zhǔn)確地識(shí)別出該語(yǔ)言屬于哪個(gè)語(yǔ)系（language families）。例如英語(yǔ)、德語(yǔ)同屬于日耳曼語(yǔ)系。

不僅如此，算法生成的模型可以將古語(yǔ)言中的單詞進(jìn)行細(xì)分，并將其一一映射到“相關(guān)”語(yǔ)言中的對(duì)應(yīng)單詞上去。研究團(tuán)隊(duì)的最終目標(biāo)是使該系統(tǒng)僅僅使用幾千個(gè)單詞，就能夠破譯數(shù)十年來(lái)語(yǔ)言學(xué)家們都無(wú)法理解的古語(yǔ)言。

機(jī)器翻譯相關(guān)研究

實(shí)際上，這并非 MIT 首個(gè)使用計(jì)算機(jī)技術(shù)破譯已消失語(yǔ)言的研究。

早在 2010 年，Barzilay 就和其他合作者一起，開(kāi)發(fā)出一個(gè)新的計(jì)算機(jī)算法，該算法在幾個(gè)小時(shí)內(nèi)就破解了古老的猶太語(yǔ)言烏加里特語(yǔ)（Ugaritic）。除了幫助破譯“神秘的”八種左右古老語(yǔ)言外，這項(xiàng)工作還可以擴(kuò)大自動(dòng)翻譯系統(tǒng)可以處理的語(yǔ)言數(shù)量。例如目前，谷歌翻譯支持103種語(yǔ)言，而破譯系統(tǒng)中使用的技術(shù)可以幫助其為數(shù)千種語(yǔ)言構(gòu)建詞典。

去年，Barzilay 等人也發(fā)表過(guò)一篇論文，文中使用改進(jìn)的計(jì)算機(jī)算法破譯了線形文字 B（Linear B，出現(xiàn)在公元前 1400 年左右）。他們說(shuō)，“我們的翻譯腳本能夠以 67．3%的準(zhǔn)確率將線性文字 B 的同源詞轉(zhuǎn)換成對(duì)應(yīng)的希臘語(yǔ)。據(jù)我們所知，該試驗(yàn)是自動(dòng)解讀線性文字 B 的第一次嘗試。”

在未來(lái)的工作中，該團(tuán)隊(duì)希望擴(kuò)展到將文本與已知語(yǔ)言的相關(guān)單詞相關(guān)聯(lián)的范圍之外，這種方法被稱為“基于同源的破譯方法”。

Barzilay 說(shuō)：“例如，我們可以識(shí)別文本中涉及到的所有人或地點(diǎn)的信息，然后可以根據(jù)已知的歷史證據(jù)對(duì)其進(jìn)行進(jìn)一步的調(diào)查。這些實(shí)體識(shí)別（entity recognition）方法如今已廣泛用于各種文本處理應(yīng)用程序中，并且具有很高的準(zhǔn)確性。”
責(zé)編AJX

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6254

瀏覽量
111466
算法

算法

+關(guān)注

關(guān)注
23

文章
4784

瀏覽量
98095
AI

AI

+關(guān)注

關(guān)注
91

文章
39866

瀏覽量
301524

搜索歷史

無(wú)法被AI識(shí)別翻譯的古老語(yǔ)言，將去何方？

評(píng)論