電子發燒友網綜合報道 當地時間2025年8月5日,谷歌DeepMind正式推出第三代通用世界模型Genie3。這款被英偉達科學家Jim Fan譽為“游戲引擎2.0”的模型,通過單文本提示即可生成實時交互的720p動態世界,將世界模擬技術推向全新高度。
技術突破:實時交互與超真實模擬
Genie3的核心創新在于首次實現了世界模型的實時交互能力。傳統生成模型需完整處理輸入后輸出結果,而Genie3采用流式處理架構,支持每秒24幀的持續生成,用戶可實時導航并修改生成環境。這種突破性設計使模型能即時響應用戶輸入,在動態世界中保持數分鐘的環境一致性。
在物理模擬層面,Genie3展現出驚人的真實感。模型可精準呈現水體流動、光影變化等復雜現象,在佛羅里達颶風場景演示中,系統精確模擬了海浪拍打、棕櫚樹彎曲等細節,連雨衣的褶皺變化都符合物理規律。這種深度模擬能力源于對海量視頻數據的無監督學習,模型通過110億參數構建起對現實世界的深層理解。
視覺記憶技術是Genie3的另一大亮點。系統采用自回歸生成機制,每幀生成時需參考此前所有幀信息。當用戶一分鐘后重返某地,模型能準確還原之前生成的物體狀態,建筑物左側的樹木在整個交互過程中始終保持一致。這種"涌現能力"使生成的世界更具沉浸感,遠超依賴3D表示的傳統方法。
可提示的世界事件功能為模型注入動態靈魂。用戶可通過文本指令改變天氣、引入新物體,甚至創造反事實場景。在威尼斯汽船演示中,系統不僅重現了運河的逼真倒影,還能根據指令添加貢多拉船和水上出租車,這種靈活性使Genie3超越單純的環境生成,成為真正的交互式創作平臺。
應用革命:從游戲開發到具身智能
在游戲產業,Genie3正引發創作范式的根本變革。傳統3D游戲開發需數月構建場景,而Genie3通過單張圖片和文本描述即可生成可交互的虛擬世界。在面包房任務演示中,系統為通用智能體SIMA創建了包含工業攪拌機、冷卻架的復雜環境,智能體通過發送導航指令即可完成任務學習。這種能力不僅縮短開發周期,更可能催生《我的世界》級別的開放世界游戲革命。
機器人訓練領域迎來突破性進展。DeepMind已將Genie3與Gemini Robotics模型結合,為機械臂和雙足機器人創建多樣化訓練場景。在物流分揀測試中,系統生成的動態環境包含隨機障礙物和突發狀況,使機器人能在接近真實的風險條件下完成策略學習。這種訓練方式相比傳統方法效率提升300%,且無需實體設備支持。
自動駕駛模擬同樣受益匪淺。Genie3可生成包含極端天氣的駕駛場景,系統能根據指令隨時引入行人、動物等突發因素。在暴雨場景測試中,模型不僅模擬了路面反光和水花飛濺,還能通過世界事件功能制造輪胎打滑等意外狀況,為自動駕駛算法提供前所未有的訓練數據。
教育領域的應用前景同樣廣闊。歷史教師可通過文本提示重現古羅馬斗獸場,學生能在虛擬場景中自由探索;地理課堂可生成實時演變的火山噴發模型,配合可提示的世界事件功能,讓學生直觀理解地質變化規律。這種沉浸式學習體驗,正重新定義教育技術的可能性邊界。
盡管Genie3已實現重大突破,仍存在三大技術瓶頸:智能體行動空間受限,復雜多智能體交互模擬不足,地理精度無法完美復現現實世界。DeepMind研究團隊透露,下一代模型將重點突破這些限制,計劃通過分層強化學習擴展行動維度,引入社會規范約束提升多智能體交互真實度。
發布評論請先 登錄
眾智FlagOS適配面壁智能開源全模態大模型MiniCPM-o 4.5
云知聲山海知音大模型2.0重磅發布
谷歌正式推出Gemini 3 Flash模型
VLA與世界模型有什么不同?
泰凌微:布局端側AI,產品支持谷歌LiteRT、TVM開源模型
Gemini AI 再進化:谷歌聯合XREAL發布Project Aura, 打開“看見世界”的新能力
谷歌正式推出最新Gemini 3 AI模型
谷歌AlphaEarth和維智時空AI大模型的技術路徑
成都匯陽投資關于大模型白熱化,應用加速分化
商湯大裝置重磅發布多項標志性成果
廣和通發布自研端側語音識別大模型FiboASR
德賽西威與面壁智能發布端側大模型語音交互方案
genie nano c2020無法顯示畫面
軟通計算機重磅發布DeepSeek大模型一體機產品
谷歌DeepMind重磅發布Genie 3,首次實現世界模型實時交互
評論