天天cao天天日,欧美一区二区三区四区视频,国产亚洲欧洲997久久综合

新年伊始，OpenAI Sora 橫空出世，聲稱是“作為世界模擬的視頻生成模型”（Video generation models as world simulators），讓“世界模型”這一概念再次進(jìn)入人們的視野。那么什么是世界模型？Sora 到底是不是 world simulator 呢？南京大學(xué)人工智能學(xué)院教授俞揚(yáng)近日撰文溯源了世界模型（world model）的概念，認(rèn)為世界模型的核心作用是反事實(shí)推理，而 Sora 更多是視頻工具，難以作為反事實(shí)推理的工具準(zhǔn)確回答 what if 問題。Sora沒有準(zhǔn)確學(xué)到物理規(guī)律這一現(xiàn)象或許表明，簡單的堆砌數(shù)據(jù)并不是通向更高級智能技術(shù)的道路。

俞揚(yáng) | 作者
隨著媒體狂炒 Sora，OpenAI的介紹材料中稱Sora是 “world simulator”，世界模型這個(gè)詞又進(jìn)入視野，但很少有文章來介紹世界模型。這里回顧一下什么是世界模型，以及討論 Sora 是不是 world simulator。

什么是世界模型

當(dāng)AI領(lǐng)域中講到世界/world、環(huán)境/environment 這個(gè)詞的時(shí)候，通常是為了與智能體/agent 加以區(qū)分。研究智能體最多的領(lǐng)域，一個(gè)是強(qiáng)化學(xué)習(xí)，一個(gè)是機(jī)器人領(lǐng)域。因此可以看到，world models、world modeling 最早也最常出現(xiàn)在機(jī)器人領(lǐng)域的論文中。而今天world models這個(gè)詞影響最大的，可能是Jurgen 2018年放到arxiv的這篇以“world models”命名的文章，該文章最終以 “Recurrent World Models Facilitate Policy Evolution”的title發(fā)表在NeurIPS‘18。

論文題目：Recurrent World Models Facilitate Policy Evolution

論文地址：

https://worldmodels.github.io/

該論文中并沒有定義什么是World models，而是類比了認(rèn)知科學(xué)中人腦的mental model，引用了1971年的文獻(xiàn)。

mental model是人腦對周邊世界的鏡像

Wikipedia 中介紹的 mental model，很明確的指出其可能參與認(rèn)知、推理、決策過程。并且說到 mental model 主要包含 mental representations 和 mental simulation 兩部分。

an internal representation of external reality, hypothesized to play a major role incognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到這里還是說得云霧繚繞，那么論文中的結(jié)構(gòu)圖一目了然的說明了什么是一個(gè)world model：

圖中縱向V->z是觀測的低維表征，用VAE實(shí)現(xiàn)，水平的M->h->M->h是序列的預(yù)測下一個(gè)時(shí)刻的表征，用RNN實(shí)現(xiàn)，這兩部分加起來就是World Model。

也就是說，World model 主要包含狀態(tài)表征和轉(zhuǎn)移模型，這也正好對應(yīng)mental representations 和 mental simulation。

看到上面這張圖可能會(huì)想，這不是所有的序列預(yù)測都是world model了？其實(shí)熟悉強(qiáng)化學(xué)習(xí)的同學(xué)能一眼看出來，這張圖的結(jié)構(gòu)是錯(cuò)誤（不完整）的，而真正的結(jié)構(gòu)是下面這張圖，RNN的輸入不僅是z，還有動(dòng)作action，這就不是通常的序列預(yù)測了（加一個(gè)動(dòng)作會(huì)很不一樣嗎？是的，加入動(dòng)作可以讓數(shù)據(jù)分布自由變化，帶來巨大的挑戰(zhàn)）。

Jurgen的這篇論文屬于強(qiáng)化學(xué)習(xí)領(lǐng)域。那么，強(qiáng)化學(xué)習(xí)里不是有很多model-based RL嗎，其中的model跟world model有什么區(qū)別？答案是沒有區(qū)別，就是同一個(gè)東西。Jurgen先說了一段：

基本意思就是，不管有多少model-based RL工作，我是RNN先驅(qū)，RNN來做model是我發(fā)明的，我就是要搞。

在Jurgen文章的早期版本中，還說到很多 model-based RL，雖然學(xué)了model，但并沒有完全在model中訓(xùn)練RL。

沒有完全在model中訓(xùn)練RL，實(shí)際上并不是model-based RL的model有什么區(qū)別，而是model-based RL這個(gè)方向長久以來的無奈：model不夠準(zhǔn)確，完全在model里訓(xùn)練的RL效果很差。這一問題直到近幾年才得到解決。

編注：強(qiáng)化學(xué)習(xí)算法可以分為無模型（model-free）強(qiáng)化學(xué)習(xí)與有模型（model-based）強(qiáng)化學(xué)習(xí)，后者中的模型也被稱為世界模型（World model）。在基于世界模型的強(qiáng)化學(xué)習(xí)方法中，智能體首先學(xué)習(xí)一個(gè)關(guān)于環(huán)境的內(nèi)嵌的模型，在內(nèi)嵌的模型中學(xué)習(xí)行為決策，從而提高在真實(shí)環(huán)境中的表現(xiàn)。

聰明的Sutton在很久以前就意識(shí)到model不夠準(zhǔn)確的問題。在1990年提出Dyna框架的論文 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming（發(fā)表在第一次從workshop變成conference的ICML上），管這個(gè) model 叫 action model，強(qiáng)調(diào)預(yù)測action執(zhí)行的結(jié)果。RL一邊從真實(shí)數(shù)據(jù)中學(xué)習(xí)（第3行），一邊從model中學(xué)習(xí)（第5行），以防m(xù)odel不準(zhǔn)確造成策略學(xué)不好。

論文題目：Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming

論文地址：https://dl.acm.org/doi/10.1145/122344.122377

可以看到，world model對于決策十分重要。如果能獲得準(zhǔn)確的world model，那就可以通過在world model中反復(fù)試錯(cuò)，找到現(xiàn)實(shí)最優(yōu)決策。

這就是 world model 的核心作用：反事實(shí)推理/Counterfactual reasoning，也就是說，即便對于數(shù)據(jù)中沒有見過的決策，在world model中都能推理出決策的結(jié)果。

了解因果推理的同學(xué)會(huì)很熟悉反事實(shí)推理這個(gè)詞，在圖靈獎(jiǎng)得主Judea Pearl的科普讀物The book of why中繪制了一副因果階梯：

最下層是“關(guān)聯(lián)”，也就是今天大部分預(yù)測模型主要在做的事；

中間層是“干預(yù)”，強(qiáng)化學(xué)習(xí)中的探索就是典型的干預(yù)；

最上層是“反事實(shí)”，通過想象回答 what if 問題。

Judea為反事實(shí)推理繪制的示意圖，是科學(xué)家在大腦中想象，這與Jurgen在論文中用的示意圖異曲同工。

上：Jurgen論文中的世界模型示意圖。下：Judea書中的因果階梯。

到這里我們可以總結(jié)，AI研究人員對world model的追求，是試圖超越數(shù)據(jù)，進(jìn)行反事實(shí)推理，回答what if問題能力的追求。這是一種人類天然具備，而當(dāng)前的AI還做得很差的能力。一旦產(chǎn)生突破，AI決策能力會(huì)大幅提升，實(shí)現(xiàn)全自動(dòng)駕駛等場景應(yīng)用。

Sora 是不是 world simulator

simulator這個(gè)詞更多出現(xiàn)在工程領(lǐng)域，其作用與world model一樣，嘗試那些難以在現(xiàn)實(shí)世界實(shí)施的高成本高風(fēng)險(xiǎn)試錯(cuò)。OpenAI似乎希望重新組成一個(gè)詞組，但意思不變。

Sora生成的視頻，僅能通過模糊的提示詞引導(dǎo)，而難以進(jìn)行準(zhǔn)確的操控。因此它更多的是視頻工具，而難以作為反事實(shí)推理的工具去準(zhǔn)確的回答what if問題。

甚至難以評價(jià)Sora的生成能力有多強(qiáng)，因?yàn)橥耆磺宄emo的視頻與訓(xùn)練數(shù)據(jù)的差異有多大。

更讓人失望的是，這些demo呈現(xiàn)出Sora并沒有準(zhǔn)確地學(xué)到物理規(guī)律。已經(jīng)看到有人指出了Sora生成視頻中不符合物理規(guī)律之處。（OpenAI 發(fā)布文生視頻模型 Sora，AI 能理解運(yùn)動(dòng)中的物理世界，這是世界模型嗎？意味著什么？https://www.zhihu.com/question/644478663/answer/3398992400）

我猜測OpenAI放出這些demo，應(yīng)該基于非常充足的訓(xùn)練數(shù)據(jù)，甚至包括CG生成的數(shù)據(jù)。然而即便如此那些用幾個(gè)變量的方程就能描述的物理規(guī)律還是沒有掌握。OpenAI認(rèn)為Sora證明了一條通往simulators of the physical world的路線，但看起來簡單的堆砌數(shù)據(jù)并不是通向更高級智能技術(shù)的道路。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴