新發(fā)布的 Granary 數(shù)據(jù)集包含約 100 萬小時(shí)音頻,可用于訓(xùn)練高精度、高吞吐量的 AI 音頻轉(zhuǎn)錄與翻譯模型。
在全球約 7,000 種語言中,AI 語言模型所支持的語言僅占到極少數(shù)。NVIDIA 正通過新發(fā)布的數(shù)據(jù)集與模型攻克此難題。新數(shù)據(jù)集與模型可用于為 25 種歐洲語言開發(fā)高質(zhì)量的語音識(shí)別與翻譯 AI ,涵蓋克羅地亞語、愛沙尼亞語、馬耳他語等數(shù)據(jù)稀缺的語言。
借助這些工具,開發(fā)者能夠輕松擴(kuò)展 AI 應(yīng)用,支持全球用戶在生產(chǎn)級(jí)用例中使用快速、精準(zhǔn)的語音技術(shù),例如多語種聊天機(jī)器人、客服語音智能體和近實(shí)時(shí)翻譯服務(wù)。具體包括:
Granary:一個(gè)龐大的開源多語種語音數(shù)據(jù)集,包含約百萬小時(shí)的音頻素材,其中包括近 65 萬小時(shí)的語音識(shí)別數(shù)據(jù),以及超過 35 萬小時(shí)的語音翻譯數(shù)據(jù)。
NVIDIA Canary-1b-v2:一個(gè)基于 Granary 數(shù)據(jù)集訓(xùn)練的十億參數(shù)模型,可實(shí)現(xiàn)歐洲語言的高質(zhì)量轉(zhuǎn)錄,并支持英語與二十余種語言間的互譯。該模型在 Hugging Face 開放模型榜多語言語音識(shí)別評(píng)測(cè)中排名靠前。
NVIDIA Parakeet-tdt-0.6b-v3:一個(gè)精簡(jiǎn)型 6 億參數(shù)模型,專為實(shí)時(shí)或大批量轉(zhuǎn)錄 Granary 支持的語言而設(shè)計(jì)。該模型是 Hugging Face 排行榜的多語言模型中吞吐量最高的(以轉(zhuǎn)錄音頻時(shí)長(zhǎng)除以計(jì)算時(shí)間衡量)。
Granary 相關(guān)論文已于語言處理大會(huì) Interspeech 上發(fā)表。該數(shù)據(jù)集及全新 Canary 和 Parakeet 模型現(xiàn)已在 Hugging Face 平臺(tái)上開放獲取。
Granary 如何解決數(shù)據(jù)稀缺問題
為構(gòu)建 Granary 數(shù)據(jù)集,NVIDIA 語音 AI 團(tuán)隊(duì)與卡內(nèi)基梅隆大學(xué)和布魯諾 · 凱斯勒基金會(huì) (Fondazione Bruno Kessler) 的研究人員開展了協(xié)作。團(tuán)隊(duì)通過NVIDIA NeMo語音數(shù)據(jù)處理器 (NVIDIA NeMo Speech Data Processor) 套件驅(qū)動(dòng)的創(chuàng)新處理管線,將未標(biāo)注的音頻轉(zhuǎn)換成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)。
該管線使研究人員無需耗費(fèi)大量人力對(duì)數(shù)據(jù)進(jìn)行標(biāo)記,即可將公開語音數(shù)據(jù)升級(jí)成適用于 AI 訓(xùn)練的格式。該套件已在 GitHub 上開源。
憑借 Granary 數(shù)據(jù)集提供的整潔、即用的數(shù)據(jù),開發(fā)者可以搶先一步開發(fā)處理歐盟 24 種官方語言的轉(zhuǎn)錄與翻譯模型。
對(duì)于在人工標(biāo)記數(shù)據(jù)集中代表性不足的歐洲語言,Granary 提供了開發(fā)更具包容性的語音技術(shù)所需的關(guān)鍵資源,可在減少訓(xùn)練數(shù)據(jù)量的同時(shí),更加充分地反映出歐洲語言的多樣性。
該團(tuán)隊(duì)在 Interspeech 論文中證明了:相較于其他常見的數(shù)據(jù)集,只需使用約一半量的 Granary 訓(xùn)練數(shù)據(jù),即可讓自動(dòng)語音識(shí)別 (ASR) 和自動(dòng)語音翻譯 (AST) 達(dá)到目標(biāo)準(zhǔn)確率。
使用 NVIDIA NeMo 大幅加快轉(zhuǎn)錄速度
新發(fā)布的 Canary 和 Parakeet 模型,向開發(fā)者展示了如何利用 Granary 構(gòu)建符合其目標(biāo)應(yīng)用需求的定制化模型。Canary-1b-v2 針對(duì)復(fù)雜任務(wù)提高了準(zhǔn)確性,而 Parakeet-tdt-0.6b-v3 則專為需要高速、低延遲的任務(wù)設(shè)計(jì)。
通過分享 Granary 數(shù)據(jù)集及這兩個(gè)模型的開發(fā)方法,NVIDIA 幫助全球語音 AI 開發(fā)者社區(qū)將該數(shù)據(jù)處理工作流應(yīng)用于其他 ASR / AST 模型或更多語言領(lǐng)域,從而推動(dòng)語音 AI 的創(chuàng)新。
Canary-1b-v2 采用寬松型許可證,將 Canary 系列模型支持的語言從 4 種擴(kuò)展至 25 種。其轉(zhuǎn)錄與翻譯質(zhì)量可媲美 3 倍規(guī)模的模型,同時(shí)推理速度最快可提升 10 倍。
NVIDIA NeMo 是一個(gè)用于管理 AI 智能體生命周期的模塊化軟件套件,極大加快了語音 AI 模型的開發(fā)。該軟件套件中的 NeMo Curator 幫助團(tuán)隊(duì)從源數(shù)據(jù)中篩選合成樣本,確保僅使用高質(zhì)量樣本進(jìn)行訓(xùn)練模型。團(tuán)隊(duì)還使用 NeMo 語音數(shù)據(jù)處理器套件完成文本轉(zhuǎn)錄與音頻文件的對(duì)齊、數(shù)據(jù)格式轉(zhuǎn)換等任務(wù)。
Parakeet-tdt-0.6b-v3 優(yōu)先保障高吞吐量,單次推理即可轉(zhuǎn)錄 24 分鐘音頻片段。該模型能自動(dòng)識(shí)別輸入音頻的語言類型,無需額外提示步驟即可完成轉(zhuǎn)錄。
Canary 與 Parakeet 模型均能在輸出中提供精準(zhǔn)的標(biāo)點(diǎn)符號(hào)、規(guī)范的大小寫及單詞級(jí)時(shí)間戳。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5594瀏覽量
109743 -
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301428 -
模型
+關(guān)注
關(guān)注
1文章
3752瀏覽量
52111
原文標(biāo)題:推動(dòng)語音 AI 創(chuàng)新:NVIDIA 發(fā)布多語種語音 AI 開放數(shù)據(jù)集與模型
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA推出代理式AI藍(lán)圖與電信推理模型
利用NVIDIA Nemotron開放模型構(gòu)建智能文檔處理系統(tǒng)
NVIDIA在CES 2026發(fā)布全新開放模型、數(shù)據(jù)和工具
NVIDIA 推出 Alpamayo 系列開源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)
NVIDIA 推出 Nemotron 3 系列開放模型
NVIDIA推動(dòng)面向數(shù)字與物理AI的開源模型發(fā)展
利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)
給智能門鎖“裝個(gè)移動(dòng)硬盤”:廣州唯創(chuàng)電子WTV語音芯片外置SPI Flash方案破解多語種語音存儲(chǔ)困局
云知聲多項(xiàng)業(yè)務(wù)營(yíng)收大漲
聲智科技出席2025年北京市多語種AI語音翻譯大賽
Votee AI借助NVIDIA技術(shù)加速方言小語種LLM開發(fā)
廣和通發(fā)布自研端側(cè)語音識(shí)別大模型FiboASR
普強(qiáng)智能語音技術(shù)重新定義車載交互邊界
英偉達(dá)GTC2025亮點(diǎn) NVIDIA推出Cosmos世界基礎(chǔ)模型和物理AI數(shù)據(jù)工具的重大更新
NVIDIA 推出開放推理 AI 模型系列,助力開發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)
NVIDIA推出多語種語音AI開放數(shù)據(jù)集與模型
評(píng)論