Project Mellon 是一個輕量級的 Python 軟件包,能夠利用強大的語音 AI(NVIDIA Riva)和大型語言模型(LLMs)(NVIDIA NeMo 服務),簡化沉浸式環境中的用戶交互。NVIDIA 在 GTC 2023 上宣布,Project Mellon 現已支持開發者進行測試。基于此,開發者可開始探索如何創建由自然語言語音指令控制的、解放雙手的擴展現實(XR)體驗。
正如 J·R·R·托爾金(J.R.R.Tolkien)在《都林之門(Doors of Durin)》中的謎語—“請說,朋友,而后進入”所示,文字可以移山倒海。Project Mellon 背后蘊含著一個基本理念,即以更實用有效的方式來利用語音 AI 和 LLM 之力打開虛擬世界的大門,并在其中完成更多的事情。
在 XR 中,用戶界面可能非常復雜且難以使用,會破壞虛擬、混合和增強現實的本質—即沉浸式體驗的自然感。Project Mellon 可賦能多類應用程序(無論是 XR 還是平板生態)開發者,輕松地將自然語言理解作為以人為本且可解放雙手的新型用戶界面,添加至其開發的軟件之中。
Project Mellon 平臺包含以下組成部分:
-
Project Mellon SDK(軟件開發套件)
-
NVIDIA Riva(ASR 、TTS 、NMT)
-
NeMo 服務(其他 LLM 也可獲取支持)
Project Mellon 1.0 發布的主要功能包括:
-
輕量且易于集成的 Python 庫
-
保持自然語言理解準確性的 LLM
-
無需特定指令進行訓練的零樣本語言模型
-
具有對話和視覺上下文的自然語言指令支持
-
支持詢問有關指令和情境的問題,并提供自然語言回答
-
用于理解和執行指令的簡單 Python API
-
基于 Web 的測試應用程序
-
可以在本地或遠程托管 ASR、TTS、LLM 和神經網絡機器翻譯(NMT),以實現低延遲響應
ESI 集團解決方案和技術專家 Jan Wurster 在 GTC 主題演講—“在虛擬現實中與 AI 協作:沉浸式數字助手(會議代碼:[S51355])”中表示:“我們發現,通過集成對話式 AI 與 NVIDIA Project Mellon,可以降低使用 XR 展開協作的技術門檻,并為 IC.IDO Weave 用戶提供更加人性化的體驗。通過輸入自然語音,我們的虛擬 AI 助手可以幫助團隊完成復核任務、查詢可用情況或發現相關問題,這些功能無需記住特定指令、僅需輸入自然語言就可使用。”
(2023 年 4 月 10 日前登錄 GTC 官網,即可觀看演講回放,了解其團隊如何在動態、協作的 XR 環境中,在使用對話式 AI 的過程中受益)
Project Mellon 現已可供開發人員使用。觀看 Project Mellon 相關演示,了解如何利用自然語音指令,驅動設計審查、更改實時配置、控制機器人以及操縱相機和場景元素。
了解如何啟用 Project Mellon 進行開發
人工智能正在改變人類與工作及工具進行交互的方式。開發人員可以通過語音 AI 和 Project Mellon,簡化并提升用戶體驗的人性化水平,且不再需要培訓用戶操作虛擬現實(VR)中的每一項功能。用戶可以在虛擬現實應用程序中,用自己的語言來控制 XR 體驗。
點擊“閱讀原文”,申請試用 Project Mellon。
?
掃描海報二維碼,即可觀看 NVIDIA 創始人兼首席執行官黃仁勛 GTC23 主題演講重播!

原文標題:使用自然語言語音指令創建 XR 體驗:Project Mellon 應用測試
文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
23文章
4087瀏覽量
99187
原文標題:使用自然語言語音指令創建 XR 體驗:Project Mellon 應用測試
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
谷歌XR生態加速落地:Galaxy XR上線月入60+應用,Project Aura明年發售
智能語音識別控制器是什么?圖形中文編程,多路設備控制
AI人工智能語音識別控制模塊:自定義命令詞,全維度落地應用場景
云知聲論文入選自然語言處理頂會EMNLP 2025
什么是語音芯片串口AT指令?實現智能語音交互的核心技術詳解
HarmonyOSAI編程自然語言代碼生成
【HZ-T536開發板免費體驗】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發板上搭建 MCP 服務器,自然語言輕松控板
UTP測試系統如何對智能家居進行自動化測試
語音控制模塊工作原理
智能座艙:車載語音交互測試內容
自然語言提示原型在英特爾Vision大會上首次亮相
零知開源——ESP32語音交互系統(AI小智)開發教程
使用自然語言語音指令創建 XR 體驗:Project Mellon 應用測試
評論