NVIDIA 發(fā)布一系列涵蓋語(yǔ)音、安全與輔助駕駛領(lǐng)域的全新 AI 工具,其中包括面向移動(dòng)出行領(lǐng)域的行業(yè)級(jí)開(kāi)源視覺(jué)-語(yǔ)言-動(dòng)作推理模型(Reasoning VLA)NVIDIA DRIVE Alpamayo-R1。此外,一項(xiàng)新的獨(dú)立基準(zhǔn)測(cè)試認(rèn)可了 NVIDIA Nemotron 模型及數(shù)據(jù)集的開(kāi)放性與透明度。
全球研究人員將開(kāi)源技術(shù)作為其工作的基礎(chǔ)。為使業(yè)界能夠獲取數(shù)字與物理 AI 領(lǐng)域的最新成果,NVIDIA 正進(jìn)一步擴(kuò)展其開(kāi)源 AI 模型、數(shù)據(jù)集及工具庫(kù),這些資源幾乎可以應(yīng)用于所有研究領(lǐng)域。
在全球頂級(jí) AI 會(huì)議NeurIPS上,NVIDIA 發(fā)布了支持科學(xué)研究的開(kāi)放式物理 AI 模型與工具,其中包括面向輔助駕駛的行業(yè)級(jí)開(kāi)源 VLA 推理模型 Alpamayo-R1。在數(shù)字 AI 領(lǐng)域,NVIDIA 推出了面向語(yǔ)音處理與 AI 安全領(lǐng)域的新模型及數(shù)據(jù)集。
NVIDIA 研究人員將在本次大會(huì)上帶來(lái) 70 余篇論文、演講及專題研討會(huì),分享涵蓋 AI 推理、醫(yī)學(xué)研究、智能汽車開(kāi)發(fā)等多個(gè)領(lǐng)域的創(chuàng)新項(xiàng)目。
這些舉措進(jìn)一步深化了 NVIDIA 對(duì)開(kāi)源生態(tài)的承諾。這一努力獲得了獨(dú)立 AI 基準(zhǔn)測(cè)試機(jī)構(gòu)Artificial Analysis最新“開(kāi)放性指數(shù)” (Openness Index) 的認(rèn)可。該指數(shù)基于模型許可的開(kāi)放性、數(shù)據(jù)透明度及技術(shù)細(xì)節(jié)的可用性,將NVIDIA Nemotron系列開(kāi)源技術(shù)評(píng)為 AI 生態(tài)系統(tǒng)中最開(kāi)放的前沿 AI 開(kāi)發(fā)技術(shù)之一。
NVIDIA DRIVE Alpamayo-R1 為輔助駕駛開(kāi)辟了全新的研究前沿
NVIDIA DRIVE Alpamayo-R1 (AR1)作為面向輔助駕駛研究的開(kāi)源 VLA 推理模型,創(chuàng)新性地將思維鏈 AI 推理與路徑規(guī)劃技術(shù)深度融合。該技術(shù)對(duì)于提升輔助駕駛系統(tǒng)在復(fù)雜路況下的安全性以及實(shí)現(xiàn)L4 級(jí)自動(dòng)駕駛至關(guān)重要。
此前的輔助駕駛模型在復(fù)雜場(chǎng)景下易于出錯(cuò),例如人流密集的路口、前方車道即將封閉,或者有車輛在自行車道上違規(guī)停車。推理能力賦予了輔助駕駛系統(tǒng)類人的“常識(shí)”,讓它們像人類一樣更自然地駕駛。
AR1 通過(guò)對(duì)場(chǎng)景進(jìn)行分解并逐步推理來(lái)實(shí)現(xiàn)這一目標(biāo)。它會(huì)考慮所有可能的軌跡后,結(jié)合上下文數(shù)據(jù)選擇最優(yōu)路線。
舉例而言,在行人密集且緊鄰自行車道的區(qū)域,搭載 AR1 的智能汽車可通過(guò)思維鏈進(jìn)行推理:首先采集行駛路徑數(shù)據(jù),同時(shí)整合推理軌跡 (即系統(tǒng)對(duì)采取特定操作的解釋說(shuō)明),繼而利用這些信息規(guī)劃后續(xù)行駛路線,例如主動(dòng)避讓自行車道或?yàn)闈撛跈M穿馬路的行人提前減速或停車。
AR1 基于NVIDIA Cosmos Reason構(gòu)建的開(kāi)放式基礎(chǔ)架構(gòu),使研究人員能夠根據(jù)自身非商業(yè)用途需求定制模型,包括用于基準(zhǔn)測(cè)試與開(kāi)發(fā)實(shí)驗(yàn)性輔助駕駛應(yīng)用。
對(duì)于經(jīng)過(guò)后訓(xùn)練的 AR1,強(qiáng)化學(xué)習(xí)表現(xiàn)出了顯著效果,研究人員觀察到,相比預(yù)訓(xùn)練模型,AR1 的推理能力有了大幅提升。
NVIDIA DRIVE Alpamayo-R1 將在 GitHub 和 Hugging Face 平臺(tái)開(kāi)放獲取,以及用于訓(xùn)練和評(píng)估該模型的數(shù)據(jù)子集已收錄于NVIDIA 物理 AI 開(kāi)放數(shù)據(jù)集。NVIDIA 同時(shí)發(fā)布了用于評(píng)估 AR1 的開(kāi)源框架AlpaSim。
深入了解用于輔助駕駛的 VLA 推理模型(中文字幕)。
為任意物理 AI 應(yīng)用場(chǎng)景定制 NVIDIA Cosmos
開(kāi)發(fā)者現(xiàn)可通過(guò) Cosmos Cookbook 中的分步指南,快速入門(mén)推理示例和高級(jí)后訓(xùn)練工作流,學(xué)習(xí)如何使用和后訓(xùn)練基于 Cosmos 的模型。這本面向物理 AI 開(kāi)發(fā)者的綜合指南涵蓋了 AI 開(kāi)發(fā)的全流程,包括數(shù)據(jù)整理、合成數(shù)據(jù)生成及模型評(píng)估。
Cosmos 支持的應(yīng)用場(chǎng)景極為豐富。NVIDIA 的最新案例包括:
LidarGen,為輔助駕駛仿真生成激光雷達(dá)數(shù)據(jù)的世界模型。
Omniverse NuRec Fixer,一款面向輔助駕駛與機(jī)器人仿真的模型,可依托NVIDIA CosmosPredict,近乎即時(shí)的修復(fù)神經(jīng)重建數(shù)據(jù)中的瑕疵,如新視角或噪聲數(shù)據(jù)導(dǎo)致的模糊與區(qū)域缺失問(wèn)題。
Cosmos Policy,將大型預(yù)訓(xùn)練視頻模型轉(zhuǎn)化為穩(wěn)健機(jī)器人策略的框架——該策略可指導(dǎo)機(jī)器人行為的一系列規(guī)則。
ProtoMotions3,基于 NVIDIA Newton 和 Isaac Lab 構(gòu)建的開(kāi)源 GPU 加速框架,用于訓(xùn)練物理仿真的數(shù)字人與人形機(jī)器人,其逼真場(chǎng)景由Cosmos 世界基礎(chǔ)模型 (WFM)生成。
此為基于 Cosmos 構(gòu)建的 LidarGen 模型輸出示例。上方圖片展示了疊加生成激光雷達(dá)數(shù)據(jù)的輸入數(shù)據(jù)。中間圖像呈現(xiàn)了生成與真實(shí)激光雷達(dá)距離圖對(duì)比。左下角為真實(shí)激光雷達(dá)點(diǎn)云,右下角則展示了由 LidarGen 生成的點(diǎn)云。
策略模型可在 NVIDIA Isaac Lab 和 Isaac Sim 中進(jìn)行訓(xùn)練,隨后可利用策略模型生成的數(shù)據(jù)對(duì)適用于機(jī)器人的 NVIDIA GR00T N 系列模型進(jìn)行后訓(xùn)練。
在 Isaac Sim 中使用 ProtoMotions3 訓(xùn)練的人形機(jī)器人策略,其 3D 背景場(chǎng)景由 Lyra 基于 Cosmos 世界基礎(chǔ)模型生成。
NVIDIA 生態(tài)合作伙伴正利用 Cosmos 世界基礎(chǔ)模型開(kāi)發(fā)其最新技術(shù)。
輔助駕駛開(kāi)發(fā)商Voxel51正為 Cosmos Cookbook 貢獻(xiàn)模型實(shí)施方案。物理 AI 開(kāi)發(fā)商1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI 和X-Humanoid均在其最新物理 AI 應(yīng)用中采用世界基礎(chǔ)模型技術(shù)。蘇黎世聯(lián)邦理工學(xué)院的研究團(tuán)隊(duì)將在NeurIPS會(huì)議上發(fā)表論文,重點(diǎn)展示如何利用 Cosmos 模型創(chuàng)建逼真且連貫的 3D 場(chǎng)景。
NVIDIA Nemotron 新功能擴(kuò)充數(shù)字 AI 開(kāi)發(fā)工具集
NVIDIA 同步發(fā)布了全新的多說(shuō)話人語(yǔ)音 AI模型、一款具備推理能力的新模型,以及用于 AI 安全的數(shù)據(jù)集,并推出可生成高質(zhì)量合成數(shù)據(jù)集的開(kāi)源工具,以支持強(qiáng)化學(xué)習(xí)和特定領(lǐng)域模型定制。這些工具包括:
MultiTalker Parakeet:一款面向流媒體音頻的多說(shuō)話人自動(dòng)語(yǔ)音識(shí)別模型,即使在對(duì)話重疊或語(yǔ)速較快的對(duì)話中,也能準(zhǔn)確識(shí)別不同說(shuō)話人的內(nèi)容。
Sortformer:一款先進(jìn)的實(shí)時(shí)多說(shuō)話人分割模型,能夠在音頻流精準(zhǔn)識(shí)別不同說(shuō)話者的語(yǔ)音片段 (該過(guò)程稱為聲紋分割)。
Nemotron 內(nèi)容安全推理模型:一個(gè)基于邏輯推理的 AI 安全模型,能夠跨領(lǐng)域動(dòng)態(tài)執(zhí)行定制化策略。
Nemotron 內(nèi)容安全音頻數(shù)據(jù)集:一個(gè)合成數(shù)據(jù)集,可用于訓(xùn)練模型以識(shí)別不安全音頻內(nèi)容,從而助力開(kāi)發(fā)能同時(shí)適用于文本和音頻的跨模態(tài)護(hù)欄。
NeMo Gym:一個(gè)用于加速和簡(jiǎn)化大語(yǔ)言模型訓(xùn)練中強(qiáng)化學(xué)習(xí)環(huán)境開(kāi)發(fā)的開(kāi)源庫(kù)。該庫(kù)還提供了不斷豐富的即用型訓(xùn)練環(huán)境集合,以支持基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí) (RLVR) 訓(xùn)練方法。
NeMo 數(shù)據(jù)設(shè)計(jì)庫(kù):該庫(kù)現(xiàn)已基于 Apache 2.0 協(xié)議開(kāi)源,提供了一套端到端工具集,用于生成、驗(yàn)證并優(yōu)化生成式 AI 開(kāi)發(fā)所需的高質(zhì)量合成數(shù)據(jù)集,還涵蓋領(lǐng)域特定模型定制與評(píng)估功能。
采用 NVIDIA Nemotron 和 NeMo 工具構(gòu)建安全、專業(yè)化的代理式 AI 的 NVIDIA 生態(tài)系統(tǒng)合作伙伴包括 CrowdStrike、Palantir 和 ServiceNow。
NVIDIA 研究中心推動(dòng)語(yǔ)言 AI 創(chuàng)新
在 NeurIPS 大會(huì)上發(fā)布了數(shù)十篇 NVIDIA 研究論文,以下幾篇是推進(jìn)語(yǔ)言模型發(fā)展的重點(diǎn)研究成果:
Audio Flamingo 3:通過(guò)完全開(kāi)源的大型音頻語(yǔ)言模型推動(dòng)音頻智能發(fā)展:該大型音頻語(yǔ)言模型具備跨語(yǔ)音、聲音與音樂(lè)的推理能力,可理解并推理長(zhǎng)達(dá) 10 分鐘的音頻片段,在超過(guò) 20 項(xiàng)基準(zhǔn)測(cè)試中取得了業(yè)界領(lǐng)先的性能表現(xiàn) (SOTA)。
Minitron-SSM:通過(guò)分組感知 SSM 剪枝實(shí)現(xiàn)高效混合語(yǔ)言模型壓縮:該研究提出一種可壓縮混合模型的新剪枝方法,通過(guò)對(duì) Nemotron-H 8B 模型進(jìn)行剪枝與蒸餾,將其參數(shù)從 80 億壓縮至 40 億。所得模型在精度上超越同規(guī)模模型,同時(shí)實(shí)現(xiàn)推理吞吐量?jī)杀短嵘?/p>
Jet-Nemotron:基于后神經(jīng)架構(gòu)搜索 (Post Neural Architecture Search, PostNAS) 的高效語(yǔ)言模型:該研究提出了一種高性價(jià)比的后訓(xùn)練流程,用于開(kāi)發(fā)新型高效語(yǔ)言模型架構(gòu),并介紹了通過(guò)該流程生成的混合架構(gòu)模型系列。該系列模型在精度上達(dá)到或超越了目前領(lǐng)先的全注意力基線模型的同時(shí),顯著提升生成吞吐量。
Nemotron-Flash:面向延遲優(yōu)化的混合小語(yǔ)言模型:該項(xiàng)目提出一種全新小語(yǔ)言模型 (SLM) 架構(gòu),其設(shè)計(jì)核心從參數(shù)數(shù)量轉(zhuǎn)向真實(shí)場(chǎng)景的延遲優(yōu)化,最終在速度與精度方面均達(dá)到業(yè)界領(lǐng)先水平。
ProRL:延長(zhǎng)強(qiáng)化學(xué)習(xí)拓展大語(yǔ)言模型的推理邊界:延長(zhǎng)強(qiáng)化學(xué)習(xí) (ProRL) 是一種通過(guò)延長(zhǎng)模型訓(xùn)練周期提升性能的技術(shù)。在這篇NeurIPS論文中,NVIDIA 研究人員闡述了該方法如何使模型在推理能力上持續(xù)超越基礎(chǔ)模型。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5513瀏覽量
109200 -
AI
+關(guān)注
關(guān)注
90文章
38414瀏覽量
297711 -
開(kāi)源
+關(guān)注
關(guān)注
3文章
4056瀏覽量
45651
原文標(biāo)題:在 NeurIPS 大會(huì)上,NVIDIA 推動(dòng)面向數(shù)字與物理 AI 的開(kāi)源模型發(fā)展
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
利用NVIDIA Cosmos開(kāi)放世界基礎(chǔ)模型加速物理AI開(kāi)發(fā)
NVIDIA推出面向語(yǔ)言、機(jī)器人和生物學(xué)的全新開(kāi)源AI技術(shù)
NVIDIA 利用全新開(kāi)源模型與仿真庫(kù)加速機(jī)器人研發(fā)進(jìn)程
NVIDIA如何推動(dòng)工業(yè)AI與物理AI發(fā)展
NVIDIA通過(guò)全新 Omniverse庫(kù)、Cosmos物理AI模型及AI計(jì)算基礎(chǔ)設(shè)施,為機(jī)器人領(lǐng)域開(kāi)啟新篇章
如何本地部署NVIDIA Cosmos Reason-1-7B模型
NVIDIA Cosmos加速機(jī)器人和自動(dòng)駕駛汽車物理AI發(fā)展
英偉達(dá)GTC2025亮點(diǎn):NVIDIA、Alphabet 和谷歌攜手開(kāi)啟代理式與物理AI的未來(lái)

NVIDIA推動(dòng)面向數(shù)字與物理AI的開(kāi)源模型發(fā)展
評(píng)論