案例簡介
Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 數據處理軟件、NeMo Framework 模型訓練框架及 Auto Configurator 優化工具,高效構建了精準的方言及小語種大語言模型 (LLM)。此舉成功解決了數據稀缺、語言復雜及計算效率等挑戰,為全球數以百萬計、缺乏數字化資源的語言使用者提供了技術支持。
用技術打破小眾語言數字化障礙
Votee AI 是一家致力于通過人工智能推動語言多樣性發展與文化遺產保護的初創公司。全球有超過 6000 種語言,其中大量是缺乏數字化資源的方言和小語種(如粵語、伊班語、爪哇語等)。Votee AI 的使命是“讓 AI 技術以用戶的母語服務社區”,專注于為這些語言開發先進的 LLM。
Votee AI 提供定制化的 AI 語言解決方案,服務范圍覆蓋教育、媒體、金融、零售、公共服務和文化遺產保護等多個領域。公司自主研發的粵語 LLM,是一個開源、開放數據和開放模型的項目,旨在服務全球的粵語使用者。通過技術創新,Votee AI 希望打破小眾語言面臨的數字化障礙,不僅為這些語言社群提供更貼近本土需求的 AI 工具,更以科技力量守護全球的語言多樣性。
小語種 LLM 構建的嚴峻挑戰
為粵語等方言和小語種構建高性能的 LLM,面臨著幾大嚴峻挑戰:
嚴重的數據稀缺性與質量問題:與英語或普通話等資源豐富的語言相比,粵語等方言和小語種的高質量、適用于計算處理的文本數據極其有限?,F有的網絡爬取數據往往充滿噪聲、格式不一致,甚至包含錯誤信息,且可能存在地域或主題偏差,影響模型訓練的基礎和泛化能力。
語言本身的復雜性:粵語等語言擁有豐富的俚語、口語化表達、網絡用語以及獨特的語法結構和聲調系統(例如粵語的“水文化”習語)。傳統 NLP 模型和分詞器難以準確捕捉這些細微差別,容易導致理解錯誤、生成不自然甚至完全錯誤的“幻覺”內容。
巨大的計算需求:訓練能夠理解復雜語言細微差別的大規模 LLM 需要強大的計算能力。傳統的 CPU 計算方案或資源不足的 GPU 環境會導致訓練周期過長(數周甚至數月),使得模型迭代、實驗和優化變得極其緩慢和昂貴,難以快速響應需求或改進模型。
評估困難:標準的 NLP 評估指標(如 BLEU、ROUGE)可能不足以全面衡量模型在方言和小語種上的真實表現,特別是在理解文化背景和口語地道性方面。需要結合語言特定指標和成本高昂的人工評估。
NVIDIA 技術加速方言小語種 LLM 開發
面對這些挑戰,Votee AI 選擇采用端到端的 NVIDIA 技術進行賦能,利用其硬件和軟件堆棧來加速和優化方言和小語種語言 LLM 的開發流程:
硬件基礎:Votee AI 借助 NVIDIA GPU 所具備的大規模并行計算能力,為數據處理與模型訓練提供了核心支撐,成為應對計算密集型任務的底層技術基礎。
數據準備與清洗:為了解決數據稀缺和質量問題,Votee AI 利用NVIDIA NeMo Curator進行高效的數據準備。NeMo Curator 是一個 GPU 加速的數據整理庫,能夠處理從數據下載、提取(支持 Common Crawl, Wikipedia 等)、清洗(語言識別、格式化、去噪、自定義規則處理粵語特定字符和表達)、過濾到去重(精確/模糊)的全流程。結合 NVIDIA RAPIDS cuDF 進行底層加速,數據清洗和分詞等預處理任務速度提升了 20 倍,例如,處理 1TB 的粵語語料庫,清理時間從數周縮短至僅需 2 小時,確保了輸入模型的數據質量和處理效率。
模型訓練:Votee AI 采用NVIDIA NeMo Framework,這是一個端到端的平臺,用于開發和訓練大規模語言模型。利用其 NeMo Megatron 組件,Votee AI 能夠:
a. 高效分布式訓練:在多 GPU 和多節點環境上高效擴展訓練,支持張量并行 (TP)、流水線并行 (PP) 等多種并行策略。
b. 混合精度訓練:使用 BF16 混合精度進行訓練,顯著減少內存占用并加速計算,使 Votee AI 的 120 億參數粵語模型訓練時間縮短了 40%(從預計 14 天減少到 8.4 天)。
c. 靈活架構與優化:支持多種 Transformer 架構,并允許針對方言和小語種進行調整(如模型大小、正則化策略、遷移學習)。
優化與評估:
a. 自動配置優化:使用NVIDIA Auto Configurator自動搜索和推薦影響訓練吞吐量和效率的最佳超參數組合(如并行策略 TP/PP、微批量大小 MBS 等),簡化了復雜的配置過程,幫助快速找到最優訓練方案。
b. 超參數調優:利用NVIDIA cuML(RAPIDS 的一部分)進行加速的自動化超參數調優,以提升模型在下游任務上的性能。這使得模型的困惑度 (Perplexity) 降低了 15%,并在粵語特定評估任務中(如 BLEU 分數)提升了 22%,顯著增強了模型對粵語俚語和口語化表達的理解能力。
通過整合這些 NVIDIA 技術,Votee AI 建立了一個高效、可擴展的工作流程,專用于應對方言和小語種語言 LLM 開發的獨特挑戰。
使用效果及影響
通過采用 NVIDIA AI 技術,Votee AI 在為方言和小語種(以粵語為起點)構建 LLM 方面取得了顯著的成果:
大幅提升研發效率:借助 NVIDIA GPU和 NeMo 軟件棧,Votee AI 的模型迭代周期縮短了 50%,從原來的平均 6 周減少到僅需 3 周。這使得團隊能夠更快地進行實驗、優化模型并響應社區需求。
顯著提高模型準確性與魯棒性:通過 NeMo Curator 精心準備數據和 NeMo Framework 以及 Nemo Megatron 進行優化訓練,結合 cuML 進行超參數調優,所構建的粵語 LLM 在理解復雜粵語(包括俚語和口語)方面的準確率從基線的 68% 提高到了 89%。這確保了模型在實際應用中能提供更自然、更精準的交互。
增強應用性能與用戶體驗:GPU 的高效計算能力不僅加速了訓練,還將模型推理速度提高了 3 倍。這意味著基于該 LLM 的應用(如智慧客服、教育工具、媒體內容生成)能夠實時響應用戶查詢,提供更流暢、更自然的交互體驗。
推動語言包容性與文化傳承:Votee AI 構建的高質量粵語 LLM 為全球粵語使用者提供先進 AI 工具,既彌合數字鴻溝,也助力粵語文化遺產保護與傳承。
奠定可擴展的基礎:Votee AI 使用 NVIDIA 技術構建的這套方法論和技術架構具有高度可擴展性,正在被應用于開發其他方言和小語種(如伊班語、爪哇語)的 LLM,推動 AI 技術在全球多語言環境中的公平普及和創新應用。
Votee AICTO陳豪杰表示:“借助NVIDIA GPU和NeMo Framework,我們成功克服了方言和小語種建模中數據稀缺性和語言復雜性的挑戰。這使得我們能夠高效、精準地開發AI應用,并使粵語及其他語言的大模型和AI場景能夠真正在世界各地落地應用,賦能全球使用這些語言的社區?!?/p>
-
NVIDIA
+關注
關注
14文章
5513瀏覽量
109200 -
AI
+關注
關注
90文章
38413瀏覽量
297697 -
模型
+關注
關注
1文章
3658瀏覽量
51804 -
LLM
+關注
關注
1文章
341瀏覽量
1272
原文標題:初創加速計劃 | NVIDIA 助力 Votee AI 構建方言及小語種語言大模型
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發
使用NVIDIA NVLink Fusion技術提升AI推理性能
Cadence 借助 NVIDIA DGX SuperPOD 模型擴展數字孿生平臺庫,加速 AI 數據中心部署與運營
全球知名品牌借助NVIDIA技術規模化交付個性化廣告
NVIDIA RTX AI加速FLUX.1 Kontext現已開放下載
如何在魔搭社區使用TensorRT-LLM加速優化Qwen3系列模型推理部署
NVIDIA攜手諾和諾德借助AI加速藥物研發
歐洲借助NVIDIA Nemotron優化主權大語言模型
Wandercraft借助NVIDIA技術開發個人外骨骼設備
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發
NVIDIA AI Foundry服務助力藥物和醫療設備開發
NVIDIA發布Cosmos平臺,加速物理AI開發
在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

Votee AI借助NVIDIA技術加速方言小語種LLM開發
評論