很多時(shí)候,機(jī)器學(xué)習(xí)和人工智能像是在遠(yuǎn)程、復(fù)雜的超級(jí)計(jì)算機(jī)上運(yùn)行的高端技術(shù),以解決棘手的問(wèn)題。然而最近,我有幸與一群了不起的工程師和科學(xué)家合作,共同開(kāi)展了一個(gè)將人工智能融入日常生活的重大項(xiàng)目。
從2019年開(kāi)始,在ML Commons的支持下成立了一個(gè)工作組,旨在通過(guò)創(chuàng)建大規(guī)模、多樣化和公開(kāi)許可的語(yǔ)音數(shù)據(jù)集來(lái)增強(qiáng)并普及語(yǔ)音識(shí)別技術(shù)。迄今為止,該項(xiàng)目已經(jīng)產(chǎn)生了兩個(gè)頂級(jí)數(shù)據(jù)集,涵蓋了全球數(shù)十個(gè)語(yǔ)種。該小組的成員來(lái)自英特爾、哈佛大學(xué)、阿里巴巴、甲骨文、Landing AI、密歇根大學(xué)、谷歌、百度等。
介紹這些口語(yǔ)數(shù)據(jù)集的兩份白皮書(shū)——《人的語(yǔ)言》和《多語(yǔ)種口語(yǔ)語(yǔ)料庫(kù)》,已于12月7日舉辦的NeurIPS大會(huì)上發(fā)布。其中,《人的語(yǔ)言》主要針對(duì)“自動(dòng)語(yǔ)音識(shí)別”任務(wù);《多語(yǔ)種口語(yǔ)語(yǔ)料庫(kù)》則包含“關(guān)鍵詞識(shí)別”。這兩個(gè)項(xiàng)目的數(shù)據(jù)集都貢獻(xiàn)了大量豐富的音頻數(shù)據(jù),且每個(gè)數(shù)據(jù)集在同類中都擁有最大的可用體量。
這將會(huì)對(duì)人們的日常生活產(chǎn)生哪些影響?通過(guò)對(duì)這些數(shù)據(jù)集的訓(xùn)練,計(jì)算機(jī)或其他設(shè)備可以“聽(tīng)到”口頭語(yǔ)言并采取適當(dāng)?shù)男袆?dòng),例如響應(yīng)用戶的查詢或生成自動(dòng)轉(zhuǎn)錄文本。在當(dāng)今多元化、國(guó)際化、多語(yǔ)言的工作環(huán)境中,準(zhǔn)確轉(zhuǎn)錄和翻譯的能力愈發(fā)重要。
這兩個(gè)項(xiàng)目都運(yùn)用了“多樣化語(yǔ)音”,這意味著它們更好地展現(xiàn)自然環(huán)境音,如背景噪音、非正式語(yǔ)言模式、錄音設(shè)備混音以及其他聲學(xué)環(huán)境等。這與諸如有聲讀物之類的高度受控的內(nèi)容不同,后者產(chǎn)生的聲音更加“純凈”。然而,在實(shí)際應(yīng)用中,多樣化語(yǔ)音訓(xùn)練有助于提高識(shí)別的準(zhǔn)確性。
“人的語(yǔ)言”項(xiàng)目?jī)?nèi)含數(shù)萬(wàn)小時(shí)的對(duì)話音頻。如今,它是世界上最大的、可免費(fèi)下載的、用于學(xué)術(shù)和商用的英語(yǔ)語(yǔ)音識(shí)別數(shù)據(jù)集之一。
“多語(yǔ)種口語(yǔ)語(yǔ)料庫(kù)”是一個(gè)音頻語(yǔ)音數(shù)據(jù)集,不僅擁有超過(guò)30萬(wàn)個(gè)關(guān)鍵字的數(shù)十種語(yǔ)言,能夠通過(guò)智能設(shè)備訪問(wèn),還涵蓋了50多億用戶的日常對(duì)話,有助于推動(dòng)全球范圍內(nèi)受眾語(yǔ)音應(yīng)用的研發(fā)。
開(kāi)發(fā)這些數(shù)據(jù)集的研究人員來(lái)自于一個(gè)跨越多個(gè)大洲的國(guó)際小組。多年來(lái),我們每周通過(guò)電話會(huì)議會(huì)面,每個(gè)人都為項(xiàng)目貢獻(xiàn)特定專業(yè)知識(shí)。
這兩個(gè)數(shù)據(jù)集都將被研究人員和開(kāi)發(fā)者廣泛使用,而且它們包括商用在內(nèi)的授權(quán)許可條款都相對(duì)較為寬松。適當(dāng)開(kāi)放授權(quán)的重要性被無(wú)意識(shí)地低估了,導(dǎo)致許多有應(yīng)用前景的數(shù)據(jù)集在可用性和適用規(guī)模方面受到限制。
這兩個(gè)數(shù)據(jù)集將由MLCommons進(jìn)行長(zhǎng)期維護(hù)。MLCommons是一個(gè)由全球技術(shù)提供商、學(xué)者和研究人員組成的聯(lián)盟,而英特爾是聯(lián)盟的創(chuàng)始成員之一。
在語(yǔ)言的人工智能領(lǐng)域,這個(gè)項(xiàng)目是一個(gè)飛躍,同時(shí)它也為未來(lái)開(kāi)啟了諸多可能性。未來(lái),我期待與同事們繼續(xù)合作,將其推向新的階段。
原文標(biāo)題:傾聽(tīng)世界:人工智能的突破
文章出處:【微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
審核編輯:湯梓紅
-
英特爾
+關(guān)注
關(guān)注
61文章
10301瀏覽量
180455 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7807瀏覽量
93203 -
人工智能
+關(guān)注
關(guān)注
1817文章
50098瀏覽量
265393
原文標(biāo)題:傾聽(tīng)世界:人工智能的突破
文章出處:【微信號(hào):英特爾中國(guó),微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
讓英特爾再次偉大,新CEO推動(dòng)18A提前量產(chǎn),14A已在路上
香港科技大學(xué)與英特爾共建聯(lián)合實(shí)驗(yàn)室,聚焦高能效智能計(jì)算
英特爾開(kāi)發(fā)者年度盛會(huì)智潮涌動(dòng),推動(dòng)AI創(chuàng)新走向產(chǎn)業(yè)縱深
銳寶智聯(lián)入選英特爾首批尊享級(jí)合作伙伴
Intewell×Intel 強(qiáng)強(qiáng)聯(lián)合 | 光亞鴻道亮相2025英特爾生態(tài)大會(huì)
吉方工控?cái)y手英特爾推動(dòng)中國(guó)智能產(chǎn)業(yè)發(fā)展
40個(gè)項(xiàng)目脫穎而出!2025英特爾人工智能大賽圓滿收官,下一個(gè)AI應(yīng)用浪潮開(kāi)啟
今日看點(diǎn)丨英特爾獲軟銀 20 億美元投資;ARM 為自研芯片挖角對(duì)手:亞馬遜 AI 芯片主管加盟
硬件與應(yīng)用同頻共振,英特爾Day 0適配騰訊開(kāi)源混元大模型
英特爾銳炫Pro B系列,邊緣AI的“智能引擎”
英特爾發(fā)布全新GPU,AI和工作站迎來(lái)新選擇
英特爾首秀上海車展:以“芯”賦能,攜手合作伙伴推動(dòng)全車智能化
英特爾推動(dòng)人工智能走向新階段
評(píng)論