国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大語言模型火爆的今天,我們為什么還要擁抱世界模型?

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2025-04-11 14:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgZO2f3wmiAPyRWAAnbq_XukYE361.jpg

圖靈獎得主楊立昆認為,目前AI界持續追捧的大語言模型并非十全十美,它隱藏著四個難以突破的致命弱點:一是理解物理世界,二是擁有持久記憶,三是具備推理能力,四是復雜規劃能力。

而能夠克服第一個“致命弱點”的技術,叫作世界模型。

這聽起來或許很抽象,但你一定知道谷歌的3D游戲、特斯拉自動駕駛

世界模型意味著機器能夠像人一樣辨別物理空間、理解物理規律、根據經驗做出推理決策。

與大語言模型不同的是,世界模型不再遵循從海量文本語料生成概率的邏輯,而是在深度分析大規模現實世界視頻后推測因果。

就像人類世界的嬰兒一樣,在交互學習中構建對這個世界的認知。

wKgZO2f3wmmAMlNZAAJG7j7X5f8486.jpg

想象一個剛出生的嬰兒,她的眼睛尚未完全聚焦,卻能通過觸摸、溫度、聲音的碎片拼湊出世界的輪廓。人類大腦用數百萬年進化出這種能力——將感官信息轉化為對物理規律的理解。

而這恰是今天人工智能所欠缺的,世界模型正在努力發展的——從數據中重構對重力、時間等知識的理解。

世界模型的概念最早可追溯至1980s到1990s的認知科學和控制理論,那時的研究者受心理學影響,提出AI系統需要構建對環境的內部模擬,從而進行預測和決策,即AI的環境建模能力。

這里有一個重要的要素:環境。

從生物學上來講,不論是微生物、動物還是人,行為都遵循著一個最基本的規則:刺激-反應模式,即生物反應是對環境刺激的直接響應。

隨著生物千億年漫長的進化,動物發展出感覺和心理,通過視覺、聽覺、嗅覺等感官感知外界,產生出興奮、恐懼等簡單情緒;人類進一步發展出自我意識,而人類意識和動物感覺最大的區別是能否自主規劃、有目的地進行決策和行動。

拿生物進化過程和AI的發展歷程相比,我們不難發現,其實AI的終極形態AGI就是要發展出自主感知現實、自我規劃、有目的決策的能力。

世界模型的雛形就萌芽于心理學家對人類和動物認知理解世界并做出決策的觀察。這個理論叫作心智模型,1990年由David Rumelhart提出,強調智能體需對環境形成抽象表征。

以我們自身舉例,人類大腦對周圍世界有一種習得的內在認知框架,根據經驗做決策,如看到烏云就聯想到下雨。再比如,我們不會記住每片樹葉的形狀,卻能瞬間判斷樹枝能否承受體重。同理,世界模型就是讓機器構建起對周圍環境和世界的理解和預測能力,比如看到火就聯想到燙傷。這種抽象能力,正是這一時期學者希望機器具有的稟賦。

但是,這階段的世界模型研究停留在理論構想階段,雖有了較為清晰的定義和目標,仍沒有具體的技術路徑。

世界模型研究開始落地是2000s到2010s的計算建模階段,隨著強化學習和深度學習的深入發展,學者開始嘗試用神經網絡構建可訓練的世界模型。

強化學習通過獎懲機制讓其在與環境交互過程中不斷習得策略,類似于“訓狗”,深度學習通過分層特征提取讓其從海量數據中自動學習規律,類似于“煉金”。

2018年,DeepMind 《World Models》(Ha & Schmidhuber)論文首次用“VAE+RNN+控制器”的三段式架構,構建可預測環境的神經網絡模型,成為現代世界模型的里程碑。

這一過程類似于“造夢”——先通過自動編碼器VAE將現實場景壓縮成數據,再利用RNN循環神經網絡推演未來可能的情節,最后用精簡的控制器指導行動。這意味著世界模型首次具備了顱內推演的能力,像人類一樣在行動前預判后果,大大降低了試錯成本。

2022年后,世界模型進入大模型時代,借助Transformer的序列建模能力和多模態學習技術,應用范圍從單一模態擴展到跨模態仿真,世界模型的推演也從2D走向3D(如OpenAI的GATO、DeepMind的Genie)。

近期研究如Meta的VC-1、Google的PaLM-E進一步將世界模型的概念帶入公眾視野,將世界模型與大語言模型結合以實現更通用的環境推理成為一種技術發展路徑。

Google的PaLM-E(5620億參數)模型成功將語言模型與視覺、傳感器數據等物理世界信息結合,機器人能夠理解復雜指令(如“撿起掉落的錘子”)并適應新環境執行任務。Meta Llama系列的開源多模態框架(如MultiPLY)進一步促進了對物理環境的3D感知研究。

由上,從概念推演到落地實踐,世界模型在發展中逐步摸索,漸漸走出一條從混沌到清明的路。

wKgZO2f3wmqAEHVBAAIGV0l8Bw4836.jpg

Transformer架構的進化、多模態數據的爆發,讓世界模型走出訓練場,走進游戲場,再走向真實世界——谷歌、騰訊通過其生成逼真的游戲場景,特斯拉用神經網絡預測車輛軌跡,DeepMind通過建模預測全球天氣。

就這樣,在實驗室中蹣跚學步的世界模型開始了他對現實物理規律的探索之路。

就像人類幼年通過游戲感受規則完成社會化一樣,世界模型的第一關也是游戲。

初期的模型應用仰賴規則明確的虛擬環境和邊界清晰的離散空間,如Atari游戲(DQN)、星際爭霸(AlphaStar),采用表格型模型(如Dyna),后期結合CNN/RNN處理圖像輸入。

進化至3D版后,谷歌DeepMind的Genie 2可通過單張圖片生成可交互的無限3D世界,時長達1min,用戶可自由探索動態環境(如地形變化、物體互動)。由騰訊、港科大、中國科大聯合推出的GameGen-O模型可一鍵生成西部牛仔、魔法師、馴獸師等游戲角色,還能以更高保真度、更復雜的物理效果生成海嘯、龍卷風、激光等各種場景。

經過大量訓練后,世界模型由游戲過渡到工業場景。

游戲引擎的核心能力在于構建高保真、可交互的3D虛擬環境。這種能力被直接遷移到工業場景中,用于模擬工業場景中各種可能出現故障的復雜場景。

機器人公司波士頓動力在虛擬環境中預演機器人動作(如摔倒恢復),再遷移到實體機器;特斯拉2023年提出的世界模型直接整合了游戲引擎的仿真技術,利用合成數據訓練自動駕駛系統,減少對真實路測數據的依賴;蔚來的智能世界模型能夠在極短時間內推演數百種可能情境并做好預案和決策。

最近,世界模型還走進了基礎研究領域。

DeepMind的GraphCast靠世界模型處理百萬級網格氣象變量,預測天氣能力比傳統數值模擬快1000倍,能耗降低1000倍。它通過圖神經網絡架構,能夠直接從歷史再分析數據中學習天氣系統的復雜動力學,精準、高效預測全球天氣。

從游戲般的虛擬場景到自動駕駛等現實場景,世界模型的本質是通過大量多模態資料理解物理世界的規律。未來,“世界模型+大語言模型”可能成為AGI的核心架構,讓AI不僅能聊天,還能真正理解并做出決策改變現實世界。

不過,我們為何需要世界模型?在大語言模型火爆全球的今天,是什么讓其顯得不可替代呢?

wKgZO2f3wmyAb_ohAAJwYcdfFpw084.jpg

讓AI真正從模仿表征到感知本質,克服其各種恐怖谷效應的關鍵是:讓它真正理解這個世界,了解現實空間和物理規律,進而理解它為什么會做這件事,而不是機械地根據海量數據的關聯概率推測下一個token是什么。

這是基于大規模文本語料的大語言模型和不斷試錯優化尋找最優路徑的強化學習做不到的,只有世界模型能做到。

傳統AI是數據驅動型的被動反應系統,而世界模型通過構建內部虛擬環境理解了物理、碰撞等現實規律,能夠像人類一樣通過想象預演行動后果,并在游戲、機器人等領域共享底層推理算力。

首先是通過底層建模和多模態整合構建出跟人類一樣的心智模型。外部,世界模型不僅模擬物理規律,還試圖理解社會規則和生物行為,從而在復雜場景中趨利避害。內部,世界模型根據感知、預測、規劃和學習的協同,形成類似人類心智的時空認知能力。

其次是因果預測和反事實推理能力。世界模型能夠基于當前狀態和行動,預測未來的演變結果。其具備類似人類的常識庫,能填補缺失信息并進行反事實推理(what if),即使未直接觀察某事件,也能推斷“如果采取不同行動會如何”。這種能力使其在數據稀缺時仍能有效決策,減少對海量標注數據的依賴,在自動駕駛領域應用較多。

最后,世界模型通過自監督學習構建對世界的通用表征,獲得了跨任務、跨場景的泛化能力,而傳統模型通常需針對特定領域的具體任務微調。

但是,這些能力,為什么火極一時的大語言模型做不到呢?

wKgZO2f3wm2AGQzNAAEnTczKTcE796.jpg

要弄清為什么世界模型的預測能力和大語言模型的推測token能力不一樣,我們需要弄清一個概念:相關性≠因果性。前者是概率關聯、后者是因果推理。

大語言模型(如GPT系列)側重于大數據驅動的自回歸學習,通過海量文本數據訓練模型以生成文本,本質是預測概率,而世界模型學派認為自回歸的Transformer無法通往AGI。AI需要具備真正的常識性理解能力,這些能力只能通過深度分析大量照片、音視頻等多模態數據對世界的內在表征來獲得。

模型結構層面,大語言模型主要依賴Transformer架構,通過自注意力機制處理文本序列。世界模型則包含多個模塊,如配置器、感知、世界模型、角色等,能夠估計世界狀態、預測變化、尋找最優方案。

通俗地講,大語言模型訓練出的文本天才是紙上談兵的文將,對常識可能一竅不通。而世界模型更像在建模環境里身經百戰的武將,可以憑直覺和經驗預判對手如何出招。

世界模型雖前景可期,目前依然面臨著一些瓶頸。

算力上,訓練世界模型所需要的計算資源遠超大語言模型,且存在“幻覺”(錯誤預測)問題;泛化能力上,如何平衡模型復雜度與跨場景適應性仍需突破;訓練集上,多模態的數據規模更少,且需深度標注,質量把關是重中之重。

如果說類似GPT一樣的大語言模型已經到了能言善辯的青春期,世界模型實則還處于牙牙學語的幼年期。

總的來講,世界模型是深度學習之外的另一條探索道路。如果未來深度學習陷入發展瓶頸,世界模型可能是一種備選方案。但現階段,世界模型仍在探索期,我們仍要將主心骨放在大語言模型和深度學習這條技術線上。

多點發力,協同并進,才能讓AI的成長有更多道路可走。

wKgZO2f3wm6ACDHBAAHebBTAgJE146.jpg

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39776

    瀏覽量

    301372
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11310
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何構建適合自動駕駛的世界模型

    [首發于智駕最前沿微信公眾號]世界模型經歷了系統動力學階段(1960年~2000年)、認知科學階段(2001年~2017年)、深度學習階段(2018年至今),但將其應用到自動駕駛汽車上,還是近幾年才
    的頭像 發表于 02-18 08:14 ?1w次閱讀
    如何構建適合自動駕駛的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>?

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數規模巨大(通常達到數十億甚至萬億級別)、使用海量數據訓練而成的人工智能模型。2.什么是大語言模型
    的頭像 發表于 02-02 16:36 ?891次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    自動駕駛中常提的世界模型是什么?

    在很多廠家的技術方案中,會提到世界模型的介紹。世界模型,就是自動駕駛系統內部用來表示外部世界并預測未來演變的一組
    的頭像 發表于 01-05 16:23 ?902次閱讀

    VLA與世界模型有什么不同?

    Language Action,VLA),另一些則致力于構建并應用世界模型(World Model)。這兩種路徑有什么不同? 什么是VLA,什么是世界模型 先說說VLA。VLA是英文
    的頭像 發表于 12-17 09:13 ?617次閱讀
    VLA與<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    VLA和世界模型,誰才是自動駕駛的最優解?

    [首發于智駕最前沿微信公眾號]隨著自動駕駛技術發展,其實現路徑也呈現出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為主導的世界模型
    的頭像 發表于 11-05 08:55 ?783次閱讀
    VLA和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,誰才是自動駕駛的最優解?

    3萬字長文!深度解析大語言模型LLM原理

    我們正在參加全球電子成就獎的評選,歡迎大家幫我們投票~~~謝謝支持本文轉自:騰訊技術工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數學解決了工業場景的問題,筆者基
    的頭像 發表于 09-02 13:34 ?3453次閱讀
    3萬字長文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    聲學世界模型將如何改變我們的生活

    近日,聲智科技發表標題為“A Survey on World Models Grounded in Acoustic Physical Information”的聲學世界模型綜述文章,調研了全球研究
    的頭像 發表于 06-27 11:36 ?1051次閱讀

    自動駕駛中常提的世界模型是個啥?

    [首發于智駕最前沿微信公眾號]隨著自動駕駛技術的不斷成熟,車輛需要在復雜多變的道路環境中安全地行駛,這就要求系統不僅能“看見”周圍的世界還要能“理解”和“推測”未來的變化。世界模型
    的頭像 發表于 06-24 08:53 ?1124次閱讀
    自動駕駛中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個啥?

    【教程】使用NS1串口服務器對接智普清言免費AI大語言模型

    AI大語言模型可以幫助我們解決各種問題,如翻譯、寫文案、創作詩歌、解決數學問題、情感陪伴等等。今天教大家如何使用NS1串口服務器模塊實現對接智普清言AI大
    的頭像 發表于 06-12 19:33 ?793次閱讀
    【教程】使用NS1串口服務器對接智普清言免費AI大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    FA模型卡片和Stage模型卡片切換

    卡片切換 卡片切換主要包含如下三部分: 卡片頁面布局:FA模型卡片和Stage模型卡片的布局都采用類web范式開發可以直接復用。 卡片配置文件:FA模型的卡片配置在config.json中
    發表于 06-06 08:10

    小白學大模型:從零實現 LLM語言模型

    在當今人工智能領域,大型語言模型(LLM)的開發已經成為一個熱門話題。這些模型通過學習大量的文本數據,能夠生成自然語言文本,完成各種復雜的任務,如寫作、翻譯、問答等。https
    的頭像 發表于 04-30 18:34 ?1305次閱讀
    小白學大<b class='flag-5'>模型</b>:從零實現 LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    如何借助大語言模型打造人工智能生態系統

    語言模型(LLMs)正以革命性的姿態重塑我們與科技的互動模式。然而,由于其龐大的規模,它們往往屬于資源密集型范疇,不僅大幅推高了成本,還造成了能源消耗的激增。本文深入剖析了大語言
    的頭像 發表于 04-27 09:19 ?1079次閱讀
    如何借助大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>打造人工智能生態系統

    在恩智浦FRDM-MCXN947開發板部署DeepSeek大語言模型

    還在羨慕那些動輒幾十GB顯存的AI大佬?今天我們用一塊小小的FRDM-MCXN947開發板,就能讓你體驗到與大語言模型暢聊的快感!誰說嵌入式設備只能閃爍LED?
    的頭像 發表于 04-10 17:23 ?3440次閱讀
    在恩智浦FRDM-MCXN947開發板部署DeepSeek大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    英偉達Cosmos-Reason1 模型深度解讀

    英偉達近期發布的 Cosmos-Reason1 模型在物理常識推理領域引發廣泛關注。作為專為物理世界交互設計的多模態大語言模型,它通過融合視覺感知與復雜邏輯推理,重新定義了AI對物理
    的頭像 發表于 03-29 23:29 ?2985次閱讀

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能模型,能夠理解并生成與視覺內容相關的自然
    的頭像 發表于 03-17 15:32 ?8828次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析