欧美成人精精品一区二区红桃,亚洲国产精品乱码一区二区三区,久久婷婷国产麻豆91天堂

圖靈獎得主楊立昆認為，目前AI界持續追捧的大語言模型并非十全十美，它隱藏著四個難以突破的致命弱點：一是理解物理世界，二是擁有持久記憶，三是具備推理能力，四是復雜規劃能力。

而能夠克服第一個“致命弱點”的技術，叫作世界模型。

這聽起來或許很抽象，但你一定知道谷歌的3D游戲、特斯拉的自動駕駛。

世界模型意味著機器能夠像人一樣辨別物理空間、理解物理規律、根據經驗做出推理決策。

與大語言模型不同的是，世界模型不再遵循從海量文本語料生成概率的邏輯，而是在深度分析大規模現實世界視頻后推測因果。

就像人類世界的嬰兒一樣，在交互學習中構建對這個世界的認知。

想象一個剛出生的嬰兒，她的眼睛尚未完全聚焦，卻能通過觸摸、溫度、聲音的碎片拼湊出世界的輪廓。人類大腦用數百萬年進化出這種能力——將感官信息轉化為對物理規律的理解。

而這恰是今天人工智能所欠缺的，世界模型正在努力發展的——從數據中重構對重力、時間等知識的理解。

世界模型的概念最早可追溯至1980s到1990s的認知科學和控制理論，那時的研究者受心理學影響，提出AI系統需要構建對環境的內部模擬，從而進行預測和決策，即AI的環境建模能力。

這里有一個重要的要素：環境。

從生物學上來講，不論是微生物、動物還是人，行為都遵循著一個最基本的規則：刺激－反應模式，即生物反應是對環境刺激的直接響應。

隨著生物千億年漫長的進化，動物發展出感覺和心理，通過視覺、聽覺、嗅覺等感官感知外界，產生出興奮、恐懼等簡單情緒；人類進一步發展出自我意識，而人類意識和動物感覺最大的區別是能否自主規劃、有目的地進行決策和行動。

拿生物進化過程和AI的發展歷程相比，我們不難發現，其實AI的終極形態AGI就是要發展出自主感知現實、自我規劃、有目的決策的能力。

世界模型的雛形就萌芽于心理學家對人類和動物認知理解世界并做出決策的觀察。這個理論叫作心智模型，1990年由David Rumelhart提出，強調智能體需對環境形成抽象表征。

以我們自身舉例，人類大腦對周圍世界有一種習得的內在認知框架，根據經驗做決策，如看到烏云就聯想到下雨。再比如，我們不會記住每片樹葉的形狀，卻能瞬間判斷樹枝能否承受體重。同理，世界模型就是讓機器構建起對周圍環境和世界的理解和預測能力，比如看到火就聯想到燙傷。這種抽象能力，正是這一時期學者希望機器具有的稟賦。

但是，這階段的世界模型研究停留在理論構想階段，雖有了較為清晰的定義和目標，仍沒有具體的技術路徑。

世界模型研究開始落地是2000s到2010s的計算建模階段，隨著強化學習和深度學習的深入發展，學者開始嘗試用神經網絡構建可訓練的世界模型。

強化學習通過獎懲機制讓其在與環境交互過程中不斷習得策略，類似于“訓狗”，深度學習通過分層特征提取讓其從海量數據中自動學習規律，類似于“煉金”。

2018年，DeepMind 《World Models》（Ha & Schmidhuber）論文首次用“VAE+RNN+控制器”的三段式架構，構建可預測環境的神經網絡模型，成為現代世界模型的里程碑。

這一過程類似于“造夢”——先通過自動編碼器VAE將現實場景壓縮成數據，再利用RNN循環神經網絡推演未來可能的情節，最后用精簡的控制器指導行動。這意味著世界模型首次具備了顱內推演的能力，像人類一樣在行動前預判后果，大大降低了試錯成本。

2022年后，世界模型進入大模型時代，借助Transformer的序列建模能力和多模態學習技術，應用范圍從單一模態擴展到跨模態仿真，世界模型的推演也從2D走向3D（如OpenAI的GATO、DeepMind的Genie）。

近期研究如Meta的VC-1、Google的PaLM-E進一步將世界模型的概念帶入公眾視野，將世界模型與大語言模型結合以實現更通用的環境推理成為一種技術發展路徑。

Google的PaLM-E（5620億參數）模型成功將語言模型與視覺、傳感器數據等物理世界信息結合，機器人能夠理解復雜指令（如“撿起掉落的錘子”）并適應新環境執行任務。Meta Llama系列的開源多模態框架（如MultiPLY）進一步促進了對物理環境的3D感知研究。

由上，從概念推演到落地實踐，世界模型在發展中逐步摸索，漸漸走出一條從混沌到清明的路。

Transformer架構的進化、多模態數據的爆發，讓世界模型走出訓練場，走進游戲場，再走向真實世界——谷歌、騰訊通過其生成逼真的游戲場景，特斯拉用神經網絡預測車輛軌跡，DeepMind通過建模預測全球天氣。

就這樣，在實驗室中蹣跚學步的世界模型開始了他對現實物理規律的探索之路。

就像人類幼年通過游戲感受規則完成社會化一樣，世界模型的第一關也是游戲。

初期的模型應用仰賴規則明確的虛擬環境和邊界清晰的離散空間，如Atari游戲（DQN）、星際爭霸（AlphaStar），采用表格型模型（如Dyna），后期結合CNN/RNN處理圖像輸入。

進化至3D版后，谷歌DeepMind的Genie 2可通過單張圖片生成可交互的無限3D世界，時長達1min，用戶可自由探索動態環境（如地形變化、物體互動）。由騰訊、港科大、中國科大聯合推出的GameGen-O模型可一鍵生成西部牛仔、魔法師、馴獸師等游戲角色，還能以更高保真度、更復雜的物理效果生成海嘯、龍卷風、激光等各種場景。

經過大量訓練后，世界模型由游戲過渡到工業場景。

游戲引擎的核心能力在于構建高保真、可交互的3D虛擬環境。這種能力被直接遷移到工業場景中，用于模擬工業場景中各種可能出現故障的復雜場景。

機器人公司波士頓動力在虛擬環境中預演機器人動作（如摔倒恢復），再遷移到實體機器；特斯拉2023年提出的世界模型直接整合了游戲引擎的仿真技術，利用合成數據訓練自動駕駛系統，減少對真實路測數據的依賴；蔚來的智能世界模型能夠在極短時間內推演數百種可能情境并做好預案和決策。

最近，世界模型還走進了基礎研究領域。

DeepMind的GraphCast靠世界模型處理百萬級網格氣象變量，預測天氣能力比傳統數值模擬快1000倍，能耗降低1000倍。它通過圖神經網絡架構，能夠直接從歷史再分析數據中學習天氣系統的復雜動力學，精準、高效預測全球天氣。

從游戲般的虛擬場景到自動駕駛等現實場景，世界模型的本質是通過大量多模態資料理解物理世界的規律。未來，“世界模型+大語言模型”可能成為AGI的核心架構，讓AI不僅能聊天，還能真正理解并做出決策改變現實世界。

不過，我們為何需要世界模型？在大語言模型火爆全球的今天，是什么讓其顯得不可替代呢？

讓AI真正從模仿表征到感知本質，克服其各種恐怖谷效應的關鍵是：讓它真正理解這個世界，了解現實空間和物理規律，進而理解它為什么會做這件事，而不是機械地根據海量數據的關聯概率推測下一個token是什么。

這是基于大規模文本語料的大語言模型和不斷試錯優化尋找最優路徑的強化學習做不到的，只有世界模型能做到。

傳統AI是數據驅動型的被動反應系統，而世界模型通過構建內部虛擬環境理解了物理、碰撞等現實規律，能夠像人類一樣通過想象預演行動后果，并在游戲、機器人等領域共享底層推理算力。

首先是通過底層建模和多模態整合構建出跟人類一樣的心智模型。外部，世界模型不僅模擬物理規律，還試圖理解社會規則和生物行為，從而在復雜場景中趨利避害。內部，世界模型根據感知、預測、規劃和學習的協同，形成類似人類心智的時空認知能力。

其次是因果預測和反事實推理能力。世界模型能夠基于當前狀態和行動，預測未來的演變結果。其具備類似人類的常識庫，能填補缺失信息并進行反事實推理（what if），即使未直接觀察某事件，也能推斷“如果采取不同行動會如何”。這種能力使其在數據稀缺時仍能有效決策，減少對海量標注數據的依賴，在自動駕駛領域應用較多。

最后，世界模型通過自監督學習構建對世界的通用表征，獲得了跨任務、跨場景的泛化能力，而傳統模型通常需針對特定領域的具體任務微調。

但是，這些能力，為什么火極一時的大語言模型做不到呢？