国产欧美日韩在线观看一区二区,久久精品免费看国产成人,国产就去97色色

來源：絕影智能SenseAuto

近日，由汽車之家主辦的「汽車之家全球AI科技大會」在北京舉行。商湯科技聯合創始人、執行董事、CTO、商湯絕影CEO王曉剛出席大會，并發表《世界模型：智能駕駛范式演進新路標》主題演講，分享了“絕影開悟”世界模型給智能駕駛帶來的技術變遷。

演講中他談到三個核心點：

第一，世界模型“生成式智駕”帶來智能駕駛3.0階段。智能駕駛從依賴人工標注的“規則式智駕”1.0階段，發展到把人類行為積累轉化成為模型的“端到端智駕”2.0階段，最終正邁向通過世界模型和強化學習帶來超越人類的“生成式智駕”3.0階段。

第二，“絕影開悟”世界模型推動智能駕駛在三個方面取得突破。一是突破數據瓶頸，通過世界模型能夠生成無限長尾場景；二是有更加確定的技術安全邊界，通過仿真模擬物理世界，在仿真環境中不斷嘗試；三是通過自主進化達到超越人類駕駛的體驗。

第三，“絕影開悟”世界模型實現全場景覆蓋，推動智能駕駛、具身智能跨越式發展。世界模型積累百萬級數據集，覆蓋各種復雜的場景，實現高保真、多視角時空一致性、4D實時互動。同時，世界模型在自動駕駛場景里開發出來的技術體系，也將賦能具身智能發展。

以下為主題演講內容：

各位領導、各位同仁、各位嘉賓，大家下午好！

非常感謝汽車之家的邀請，來參加全球AI科技大會，也能夠有機會和大家分享世界模型——通用人工智能給自動駕駛帶來的技術的變遷。

世界模型“生成式智駕”帶來智能駕駛3.0階段

首先，我們認為自動駕駛技術演進的頻率是非?？斓?。自動駕駛作為人工智能非常重要的組成部分，它的技術變遷也反映了人工智能發展的三個階段。大家比較熟悉的基于規則的智能駕駛，是自動駕駛的第一個階段。這一階段通過AI輸出感知的結果，建立各種規則，并預定義這些邏輯，再根據優化物理模型實現規控。基于上述現象，我們在人工智能發展的每個階段會問這樣一個問題：智能到底是從哪里來？實際上，在第一個階段，很多的智能來自于人工。人類需要大量標注各類感知數據，然后得到它的輸出，并人工書寫各式各樣的規則。所以在上述階段有一句話：有多少人工就有多少的智能。而這個階段很像人工智能1.0發展的階段，例如我們會做很多人臉識別的視頻分析；我們會針對安防的場景，人工輸入智能的數據。

第二個階段是大模型的出現，這是人工智能領域2.0，代表產品如ChatGPT。在互聯網上出現了過去很多年人類行為的數據積累，比如各種文章、代碼，這些都是人類行為智能的體現。在自動駕駛領域，對應的是人類的駕駛行為，也就是第二階段行業內推動的端到端自動駕駛。端到端自動駕駛把過去長時間人類行為積累的智能轉化成為模型的智能，這時候就出現了很大的智能和體驗上的躍遷。但是其自身也有瓶頸，那便是人類的行為就是智能的天花板，同時這種智能依賴大量高質量數據。從自動駕駛發展來看，今天的大模型發展也遇到了上述瓶頸，因為我們在互聯網上積累起來的數據價值面臨枯竭境地。

因此，便進入了第三個階段，通過世界模型，通過生成式智駕，通過強化學習做出進一步的突破。舉一個非常典型的例子，2015年在圍棋領域出現了AIphaGo。之后又出現了AIphaZero，相較于AIphaGo，AIphaZero不需要任何人類知識的輸入，它也能夠產生大量的智能?，F如今在自動駕駛領域，大家都希望有一個世界模型，這個模型就像在圍棋里面，能夠創造棋盤和人類定義的圍棋規則，這便是更高階的智能。對照圍棋的例子，我們希望自動駕駛也能夠通過強化學習來突破人類行為上限。要達成這個目標，我們就需要一個世界模型。讓世界模型來模擬物理世界的規律、人類行為的法則和規律。在仿真的世界模型環境里面，機器通過強化學習做到不斷的提升，以及突破人類駕駛的上限。

我們可以看到今天在人工智能3.0的發展中，人們還提出了具身智能，這是從原來互聯網數據走出來，通過跟物理世界交互產生的新智能。在具身智能領域，世界模型也會扮演非常重要的角色。

“絕影開悟”世界模型推動智能駕駛在三個方面取得突破

回到端到端自動駕駛所面臨的問題，主要有三個方面。一是需要大量的數據。特斯拉擁有幾百萬臺車，而且這些車的傳感器配置是一致的，所以能夠回流大量的數據。而我們面臨的問題是沒有如此規模的數據。二是對于各種危險復雜的場景，尤其是Corner Case，這些場景獲得成本是非常高的，風險也是非常高的。怎么獲得這些高質量的數據是我們需要解決的問題。第三個是安全的邊界。現在端到端自動駕駛中發現一個問題場景，我們就需要采集很多跟這個場景所類似的其他數據，重新訓練模型。但是模型訓練完之后也不能夠確定這個場景是否真正被解決，因為端到端技術有不確定性在。

針對這些問題，我們要把世界模型、強化學習，以及端到端技術相結合。在這里，核心是要有一個端到端的多模態大模型。這個模型的輸入可能是各種視覺的、激光的、語言文字導航的信息，輸出是車輛的行為。端到端大模型會預測車輛的軌跡，基于預測的軌跡反饋給世界模型，世界模型就能夠模擬仿真出物理世界將會怎樣的變化，給我們反饋基于世界模型合成的視頻，這些反饋將重新訓練端到端模型。而且這個方法會告訴我們，什么樣的仿真模型是好的，如此循環往復的迭代，不斷提升端到端的性能。同時，在這個仿真環境里面可以無數次的試錯，有了問題場景以后，通過無數次的嘗試一定能夠解決我們所關心的問題，而且還能做到舉一反三、舉一反十、甚至反百。當下的世界模型并不是無中生有，而是針對問題場景，我們通過復現物理場景，把現實里不能改變的各種要素，如天氣、道路、車速等，通過模擬仿真場景，比較徹底地解決類似問題。

接下來我給大家舉一個例子，看一看我們是怎么用世界模型和強化學習來解決問題的。這里展示的是一個問題場景。前方有一個施工占道場景出現，我們需要急剎，大家想一想完成這個動作需要幾步？第一步需要做4D仿真的復現，通過3DGS和靜態場景復現，依托世界模型對它進行修復，就能夠得到更高質量的4D空間。在4D空間里就可以嘗試各種不同駕駛的行為，調整端到端模型，嘗試各種不同的駕駛行為，直到在這個環境里找到最佳的駕駛行為。我們有一套完善的辦法去評價什么樣的駕駛行為是好的。

在上述單一場景里我們得到模型的更新和驗證后，接下來我們需要得到它進一步的多個泛化場景。現實世界中有很多類似的場景，比如說復雜的施工區域，需要換道通行，遇到圍欄需要減速等。這些不同的場景都是通過世界模型所生成出來的各類泛化場景。我們的模型在這些泛化場景里面做進一步的學習，以及進行測試。

所以說現在的世界模型已經可以推動自動駕駛在三個方面取得突破。一是數據瓶頸，可以通過世界模型產生無限長尾場景。二是能夠得到驗證的技術邊界，通過仿真模擬恢復物理的世界，在仿真環境不斷的嘗試。三是通過強化學習達到超越人類駕駛的體驗。

“絕影開悟”世界模型實現全場景覆蓋，推動智能駕駛、具身智能跨越式發展

要解決這些問題，背后核心是需要有個非常強大、質量非常高的世界模型來重構萬千世界，讓安全有更多的確定性。我們對世界模型會有哪些要求呢？一是生成的數據應該是能夠面向量產的，能夠有更多的場景，而且能夠一鍵生成復雜可控的場景。二是場景里面有各種因素，可以針對各種因素進行編輯，能夠把各種因素通過自由組合方式，實現更多的拓展。三是實時，在一定空間里面有非常高效的推理效率，促使在世界模型里面進行實時互動。

這里我們給大家看一個例子。我們坐車里遇到Cut-in這樣比較危險的場景。我們可以看到車里有7個攝像頭，每個攝像頭都在記錄。而要生成一個好的世界模型，就要保持多個攝像頭下的時空一致性。早在2024年，Sora模型就可以完成各種視頻的生成，現如今用世界模型做自動駕駛的話，它的難點在哪里？那便是生成有連續性的視頻比圖像更難。生成用在自動駕駛環境里視頻需要面臨很多困難，面對有眾多的攝像頭，模型要保持多個攝像頭的時空一致性。比如說面對車牌、道路的限行情況，各個攝像頭里的內容應該是一致的。另外，還有空間的幾何關系得是一致的，這樣生成的視頻才能夠有效的用作自動駕駛的訓練和測試。

基于此，我們可以針對剛剛提到的打車Cut-in場景改變各種要素，比如換不同的天氣條件、不同的道路路形、插入的大車車型、車速和Cut-in的距離。有了這些之后，模型完全可以做到舉一反十、反一百、反一千。而且大家可以看到，這里一鍵生成了更加復雜的場景，例如車禍和碰撞的場景。

在這里我們還需要對場景里面的各種要素做到任意編輯，比如任意替換不同的車型、增加車輛、減少相應的車輛，模擬不同的駕駛環境。

而且模型也需要能夠做到實時的推理，這里我們展示的是在上海市區場景，在這個場景里可以自由地開車、加減速、轉彎。大家所看到的這些視頻都與真實世界的物理環境非常接近。

世界模型產品化，開放API后，用戶可以描述他所想采用的數據，然后一鍵生成形成各種各樣所期待的視頻。我們現在積累的百萬級數據集，覆蓋各種復雜的場景，能夠實現高保真?，F如今每一個Clips有150s，車輛有7個攝像頭就能保持比1080P更好的圖像質量。

再說到基礎設施，現在各地政府也建立了實訓場，能夠提供算力的平臺，真實采集實車的數據。另外，有一半的數據也是通過世界模型模擬仿真進行生成，兩組數據相結合可以提供給車企進行端到端模型的訓練。

最后說下，在自動駕駛場景里使用的世界模型所開發出來的所有技術體系，其實也可以用到具身智能里。具身智能對世界模型的需求更加迫切。因為機器人的數量比車輛數量更少，而且每個機器人硬件的配置千差萬別。我們希望在具身智能領域里，世界模型能夠做到多模態、數據對齊，能夠得到4D空間，能夠進行快速的推理。我給大家舉兩個例子，一是輸入一條指令讓機器人能夠在公園里進行跳躍，就會自動地生成機器人的骨骼、姿態、動作的變化，基于這個能夠生成機器人第一視角看到視頻的數據和第三視角的數據。另外輸入指令讓機器臂切黃瓜，同樣可以生成第一和第三視角的數據。未來我們可以用這些大量的模擬仿真數據，來推動自動駕駛和具身智能跨越到下一個階段。

謝謝大家！

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
40791

瀏覽量
302407
模型

模型

+關注

關注
1

文章
3808

瀏覽量
52236
智能駕駛

智能駕駛

+關注

關注
5

文章
3031

瀏覽量
51363
商湯

商湯

+關注

關注
0

文章
94

瀏覽量
4415

原文標題：商湯王曉剛：世界模型帶來智能駕駛3.0階段

文章出處：【微信號：SenseTime2017，微信公眾號：商湯科技SenseTime】歡迎添加關注！文章轉載請注明出處。

伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

搜索歷史

商湯絕影亮相汽車之家全球AI科技大會

評論