国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Sora與世界模型:為何它未能成為全面代表?

新機(jī)器視覺 ? 來源:算法進(jìn)階 ? 2024-02-29 12:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

新年伊始,OpenAI Sora 橫空出世,聲稱是“作為世界模擬的視頻生成模型”(Video generation models as world simulators),讓“世界模型”這一概念再次進(jìn)入人們的視野。那么什么是世界模型?Sora 到底是不是 world simulator 呢?南京大學(xué)人工智能學(xué)院教授俞揚(yáng)近日撰文溯源了世界模型(world model)的概念,認(rèn)為世界模型的核心作用是反事實(shí)推理,而 Sora 更多是視頻工具,難以作為反事實(shí)推理的工具準(zhǔn)確回答 what if 問題。Sora沒有準(zhǔn)確學(xué)到物理規(guī)律這一現(xiàn)象或許表明,簡單的堆砌數(shù)據(jù)并不是通向更高級智能技術(shù)的道路。

俞揚(yáng) | 作者
隨著媒體狂炒 Sora,OpenAI的介紹材料中稱Sora是 “world simulator”,世界模型這個(gè)詞又進(jìn)入視野,但很少有文章來介紹世界模型。這里回顧一下什么是世界模型,以及討論 Sora 是不是 world simulator。

什么是世界模型

當(dāng)AI領(lǐng)域中講到 世界/world、環(huán)境/environment 這個(gè)詞的時(shí)候,通常是為了與 智能體/agent 加以區(qū)分。研究智能體最多的領(lǐng)域,一個(gè)是強(qiáng)化學(xué)習(xí),一個(gè)是機(jī)器人領(lǐng)域。因此可以看到,world models、world modeling 最早也最常出現(xiàn)在機(jī)器人領(lǐng)域的論文中。而今天world models這個(gè)詞影響最大的,可能是Jurgen 2018年放到arxiv的這篇以“world models”命名的文章,該文章最終以 “Recurrent World Models Facilitate Policy Evolution”的title發(fā)表在NeurIPS‘18。

62116b24-d6b8-11ee-a297-92fbcf53809c.png

論文題目:Recurrent World Models Facilitate Policy Evolution

論文地址:

https://worldmodels.github.io/

該論文中并沒有定義什么是World models,而是類比了認(rèn)知科學(xué)中人腦的mental model,引用了1971年的文獻(xiàn)。

62258f96-d6b8-11ee-a297-92fbcf53809c.png

mental model是人腦對周邊世界的鏡像

Wikipedia 中介紹的 mental model,很明確的指出其可能參與認(rèn)知、推理、決策過程。并且說到 mental model 主要包含 mental representations 和 mental simulation 兩部分。

an internal representation of external reality, hypothesized to play a major role incognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到這里還是說得云霧繚繞,那么論文中的結(jié)構(gòu)圖一目了然的說明了什么是一個(gè)world model:

623b5c72-d6b8-11ee-a297-92fbcf53809c.png

圖中縱向V->z是觀測的低維表征,用VAE實(shí)現(xiàn),水平的M->h->M->h是序列的預(yù)測下一個(gè)時(shí)刻的表征,用RNN實(shí)現(xiàn),這兩部分加起來就是World Model。

也就是說,World model 主要包含狀態(tài)表征和轉(zhuǎn)移模型,這也正好對應(yīng)mental representations 和 mental simulation。

看到上面這張圖可能會(huì)想,這不是所有的序列預(yù)測都是world model了?其實(shí)熟悉強(qiáng)化學(xué)習(xí)的同學(xué)能一眼看出來,這張圖的結(jié)構(gòu)是錯(cuò)誤(不完整)的,而真正的結(jié)構(gòu)是下面這張圖,RNN的輸入不僅是z,還有動(dòng)作action,這就不是通常的序列預(yù)測了(加一個(gè)動(dòng)作會(huì)很不一樣嗎?是的,加入動(dòng)作可以讓數(shù)據(jù)分布自由變化,帶來巨大的挑戰(zhàn))。

6243bf7a-d6b8-11ee-a297-92fbcf53809c.png

Jurgen的這篇論文屬于強(qiáng)化學(xué)習(xí)領(lǐng)域。那么,強(qiáng)化學(xué)習(xí)里不是有很多model-based RL嗎,其中的model跟world model有什么區(qū)別?答案是沒有區(qū)別,就是同一個(gè)東西。Jurgen先說了一段:

625e446c-d6b8-11ee-a297-92fbcf53809c.png

基本意思就是,不管有多少model-based RL工作,我是RNN先驅(qū),RNN來做model是我發(fā)明的,我就是要搞。

在Jurgen文章的早期版本中,還說到很多 model-based RL,雖然學(xué)了model,但并沒有完全在model中訓(xùn)練RL。

62771406-d6b8-11ee-a297-92fbcf53809c.jpg

沒有完全在model中訓(xùn)練RL,實(shí)際上并不是model-based RL的model有什么區(qū)別,而是model-based RL這個(gè)方向長久以來的無奈:model不夠準(zhǔn)確,完全在model里訓(xùn)練的RL效果很差。這一問題直到近幾年才得到解決。

編注:強(qiáng)化學(xué)習(xí)算法可以分為無模型(model-free)強(qiáng)化學(xué)習(xí)與有模型(model-based)強(qiáng)化學(xué)習(xí),后者中的模型也被稱為世界模型(World model)。在基于世界模型的強(qiáng)化學(xué)習(xí)方法中,智能體首先學(xué)習(xí)一個(gè)關(guān)于環(huán)境的內(nèi)嵌的模型,在內(nèi)嵌的模型中學(xué)習(xí)行為決策,從而提高在真實(shí)環(huán)境中的表現(xiàn)。

聰明的Sutton在很久以前就意識(shí)到model不夠準(zhǔn)確的問題。在1990年提出Dyna框架的論文 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(發(fā)表在第一次從workshop變成conference的ICML上),管這個(gè) model 叫 action model,強(qiáng)調(diào)預(yù)測action執(zhí)行的結(jié)果。RL一邊從真實(shí)數(shù)據(jù)中學(xué)習(xí)(第3行),一邊從model中學(xué)習(xí)(第5行),以防m(xù)odel不準(zhǔn)確造成策略學(xué)不好。

627aebe4-d6b8-11ee-a297-92fbcf53809c.png

62960866-d6b8-11ee-a297-92fbcf53809c.png

論文題目:Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming

論文地址:https://dl.acm.org/doi/10.1145/122344.122377

可以看到,world model對于決策十分重要。如果能獲得準(zhǔn)確的world model,那就可以通過在world model中反復(fù)試錯(cuò),找到現(xiàn)實(shí)最優(yōu)決策

這就是 world model 的核心作用:反事實(shí)推理/Counterfactual reasoning, 也就是說,即便對于數(shù)據(jù)中沒有見過的決策,在world model中都能推理出決策的結(jié)果。

了解因果推理的同學(xué)會(huì)很熟悉反事實(shí)推理這個(gè)詞,在圖靈獎(jiǎng)得主Judea Pearl的科普讀物The book of why中繪制了一副因果階梯:

最下層是“關(guān)聯(lián)”,也就是今天大部分預(yù)測模型主要在做的事;

中間層是“干預(yù)”,強(qiáng)化學(xué)習(xí)中的探索就是典型的干預(yù);

最上層是“反事實(shí)”,通過想象回答 what if 問題。

Judea為反事實(shí)推理繪制的示意圖,是科學(xué)家在大腦中想象,這與Jurgen在論文中用的示意圖異曲同工。

上:Jurgen論文中的世界模型示意圖。下:Judea書中的因果階梯。

到這里我們可以總結(jié),AI研究人員對world model的追求,是試圖超越數(shù)據(jù),進(jìn)行反事實(shí)推理,回答what if問題能力的追求。這是一種人類天然具備,而當(dāng)前的AI還做得很差的能力。一旦產(chǎn)生突破,AI決策能力會(huì)大幅提升,實(shí)現(xiàn)全自動(dòng)駕駛等場景應(yīng)用。

Sora 是不是 world simulator

simulator這個(gè)詞更多出現(xiàn)在工程領(lǐng)域,其作用與world model一樣,嘗試那些難以在現(xiàn)實(shí)世界實(shí)施的高成本高風(fēng)險(xiǎn)試錯(cuò)。OpenAI似乎希望重新組成一個(gè)詞組,但意思不變。

Sora生成的視頻,僅能通過模糊的提示詞引導(dǎo),而難以進(jìn)行準(zhǔn)確的操控。因此它更多的是視頻工具,而難以作為反事實(shí)推理的工具去準(zhǔn)確的回答what if問題

甚至難以評價(jià)Sora的生成能力有多強(qiáng),因?yàn)橥耆磺宄emo的視頻與訓(xùn)練數(shù)據(jù)的差異有多大。

更讓人失望的是,這些demo呈現(xiàn)出Sora并沒有準(zhǔn)確地學(xué)到物理規(guī)律。已經(jīng)看到有人指出了Sora生成視頻中不符合物理規(guī)律之處。(OpenAI 發(fā)布文生視頻模型 Sora,AI 能理解運(yùn)動(dòng)中的物理世界,這是世界模型嗎?意味著什么?https://www.zhihu.com/question/644478663/answer/3398992400)

我猜測OpenAI放出這些demo,應(yīng)該基于非常充足的訓(xùn)練數(shù)據(jù),甚至包括CG生成的數(shù)據(jù)。然而即便如此那些用幾個(gè)變量的方程就能描述的物理規(guī)律還是沒有掌握。OpenAI認(rèn)為Sora證明了一條通往simulators of the physical world的路線,但看起來簡單的堆砌數(shù)據(jù)并不是通向更高級智能技術(shù)的道路

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    31079

    瀏覽量

    222268
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301430
  • Sora
    +關(guān)注

    關(guān)注

    0

    文章

    86

    瀏覽量

    810

原文標(biāo)題:Sora為什么不是世界模型?

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    廣州唯創(chuàng)電子WT2605C-24SS音頻藍(lán)牙語音芯片:為何能成為標(biāo)準(zhǔn)藍(lán)牙與多樣化存儲(chǔ)播放的理想選擇?

    在無線音頻技術(shù)飛速發(fā)展的今天,一款功能全面、性能卓越的語音芯片往往能成為眾多智能設(shè)備的核心競爭力。作為國內(nèi)知名的語音IC廠家,廣州唯創(chuàng)電子推出的WT2605C-24SS音頻藍(lán)牙錄放語音芯片,憑借其
    的頭像 發(fā)表于 03-06 08:55 ?35次閱讀
    廣州唯創(chuàng)電子WT2605C-24SS音頻藍(lán)牙語音芯片:<b class='flag-5'>為何</b>它<b class='flag-5'>能成為</b>標(biāo)準(zhǔn)藍(lán)牙與多樣化存儲(chǔ)播放的理想選擇?

    NVIDIA Cosmos世界基礎(chǔ)模型如何塑造機(jī)器人未來

    在這一演進(jìn)過程中,世界模型逐漸成為連接高層智能與底層執(zhí)行的關(guān)鍵基礎(chǔ)設(shè)施。通過對環(huán)境狀態(tài)及其時(shí)間演化進(jìn)行建模,世界模型使機(jī)器人系統(tǒng)能夠在受控環(huán)
    的頭像 發(fā)表于 01-22 16:38 ?524次閱讀
    NVIDIA Cosmos<b class='flag-5'>世界</b>基礎(chǔ)<b class='flag-5'>模型</b>如何塑造機(jī)器人未來

    智能戒指成新寵!元器件技術(shù)解鎖穿戴設(shè)備新可能

    與微型化提出了全新挑戰(zhàn),這也為整個(gè)產(chǎn)業(yè)鏈帶來了新的機(jī)遇。智能戒指:為何能成為“黑馬”?以戒指形態(tài)為代表的新型智能穿戴設(shè)備,憑借其小巧便攜、無感佩戴的優(yōu)勢,正快速搶占細(xì)分
    的頭像 發(fā)表于 01-12 18:23 ?258次閱讀
    智能戒指成新寵!元器件技術(shù)解鎖穿戴設(shè)備新可能

    如何在瑞薩RL78/G15開發(fā)板實(shí)現(xiàn)LED的工作模式

    在嵌入式開發(fā)的世界里,即使只是一顆小小的LED燈,也能成為無盡創(chuàng)意的舞臺(tái)。
    的頭像 發(fā)表于 01-09 09:21 ?2195次閱讀
    如何在瑞薩RL78/G15開發(fā)板實(shí)現(xiàn)LED的工作模式

    大曉機(jī)器人發(fā)布開悟3.0,國產(chǎn)世界模型讓機(jī)器人擁有“超級大腦”

    電子發(fā)燒友網(wǎng)綜合報(bào)道,當(dāng)前,人工智能正加速從數(shù)字世界向物理世界延伸,具身智能成為AI演進(jìn)的關(guān)鍵方向。大曉機(jī)器人董事長王曉剛表示,當(dāng)前越來越多人意識(shí)到具身智能的瓶頸不在硬件,而是對世界
    的頭像 發(fā)表于 12-25 09:25 ?2521次閱讀
    大曉機(jī)器人發(fā)布開悟3.0,國產(chǎn)<b class='flag-5'>世界</b><b class='flag-5'>模型</b>讓機(jī)器人擁有“超級大腦”

    VLA與世界模型有什么不同?

    Language Action,VLA),另一些則致力于構(gòu)建并應(yīng)用世界模型(World Model)。這兩種路徑有什么不同? 什么是VLA,什么是世界模型 先說說VLA。VLA是英文
    的頭像 發(fā)表于 12-17 09:13 ?635次閱讀
    VLA與<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    世界模型是讓自動(dòng)駕駛汽車?yán)斫?b class='flag-5'>世界還是預(yù)測未來?

    ? [首發(fā)于智駕最前沿微信公眾號(hào)]世界模型在自動(dòng)駕駛技術(shù)中已有廣泛應(yīng)用。但當(dāng)談及它對自動(dòng)駕駛的作用時(shí),難免會(huì)出現(xiàn)分歧。到底是讓自動(dòng)駕駛汽車得以理解世界,還是為其提供了預(yù)測未來的視角?
    的頭像 發(fā)表于 12-16 09:27 ?873次閱讀
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是讓自動(dòng)駕駛汽車?yán)斫?b class='flag-5'>世界</b>還是預(yù)測未來?

    場景化適配!K88 系列連接器為何能成為多行業(yè)首選?

    一款優(yōu)質(zhì)的連接器,不僅需要具備出色的性能參數(shù),更要能適配多元場景的實(shí)際需求。日本端子K88系列SMT連接器憑借全面的功能設(shè)計(jì)與穩(wěn)定的核心性能,已在消費(fèi)電子、工業(yè)控制、汽車電子、物聯(lián)網(wǎng)設(shè)備等多個(gè)領(lǐng)域
    的頭像 發(fā)表于 12-10 17:26 ?628次閱讀
    場景化適配!K88 系列連接器<b class='flag-5'>為何能成為</b>多行業(yè)首選?

    稀土為何能成為中國反制的關(guān)鍵籌碼?#國產(chǎn)芯片

    行業(yè)資訊
    芯廣場
    發(fā)布于 :2025年11月25日 17:00:01

    廣凌智慧教室基礎(chǔ)建設(shè)解析,精準(zhǔn)破解行業(yè)痛點(diǎn)!

    在教育數(shù)字化轉(zhuǎn)型的浪潮中,智慧教室已成為推動(dòng)教學(xué)模式創(chuàng)新的核心場景。然而,許多學(xué)校對智慧教室的建設(shè)基礎(chǔ)仍存在疑問:究竟以什么為核心支撐?而廣凌智慧教室整體解決方案為何能成為行業(yè)標(biāo)桿?一起來了解一下吧~
    的頭像 發(fā)表于 10-29 10:54 ?474次閱讀
    廣凌智慧教室基礎(chǔ)建設(shè)解析,精準(zhǔn)破解行業(yè)痛點(diǎn)!

    OpenAI Sora 2模型上線微軟Azure AI Foundry國際版

    我們非常激動(dòng)地宣布,OpenAI 的新一代多模態(tài)視頻生成模型 Sora 2 現(xiàn)已在 Azure AI Foundry(國際版)上線,進(jìn)入公共預(yù)覽階段。
    的頭像 發(fā)表于 10-22 09:44 ?775次閱讀
    OpenAI <b class='flag-5'>Sora</b> 2<b class='flag-5'>模型</b>上線微軟Azure AI Foundry國際版

    如何在Ray分布式計(jì)算框架下集成NVIDIA Nsight Systems進(jìn)行GPU性能分析

    在大語言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,GPU 性能優(yōu)化至關(guān)重要。隨著模型規(guī)模不斷擴(kuò)大,如何高效地分析和優(yōu)化 GPU 性能成為開發(fā)者面臨的主要挑戰(zhàn)之一。
    的頭像 發(fā)表于 07-23 10:34 ?2402次閱讀
    如何在Ray分布式計(jì)算框架下集成NVIDIA Nsight Systems進(jìn)行GPU性能分析

    視覺檢測為何能成為工業(yè)質(zhì)檢的主流?

    視覺檢測技術(shù)因其成熟穩(wěn)定、檢測精度高、速度快、靈敏度高、經(jīng)濟(jì)性好、性價(jià)比高、通用性強(qiáng),長期獨(dú)占鰲頭。
    的頭像 發(fā)表于 07-13 11:37 ?743次閱讀
    視覺檢測<b class='flag-5'>為何能成為</b>工業(yè)質(zhì)檢的主流?

    世界模型:多模態(tài)融合+因果推理,解鎖AI認(rèn)知邊界

    電子發(fā)燒友網(wǎng)綜合報(bào)道 在人工智能的蓬勃發(fā)展進(jìn)程中,世界模型正嶄露頭角,成為推動(dòng)其邁向更高智能水平的關(guān)鍵力量。世界模型作為 AI 系統(tǒng)對外部
    的頭像 發(fā)表于 06-23 04:49 ?4055次閱讀

    2.5D封裝為何成為AI芯片的“寵兒”?

    2.5D封裝領(lǐng)域,英特爾的EMIB和臺(tái)積電的CoWoS是兩大明星技術(shù)。眾所周知,臺(tái)積電的CoWoS產(chǎn)能緊缺嚴(yán)重制約了AI芯片的發(fā)展,這正是英特爾EMIB技術(shù)可以彌補(bǔ)的地方。本文我們將以英特爾EMIB為例,深入解析2.5D封裝之所以能成為AI芯片的寵兒的原因。 為何EM
    的頭像 發(fā)表于 03-27 18:12 ?889次閱讀
    2.5D封裝<b class='flag-5'>為何</b><b class='flag-5'>成為</b>AI芯片的“寵兒”?