国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

華為、理想、特斯拉、商湯的世界模型是做什么用的

佐思汽車研究 ? 來源:佐思汽車研究 ? 2025-01-14 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近世界模型(World Model)很火,甚至有人說世界模型是終極自動駕駛解決方案,實際上它只是端到端大模型的一種,和VLM沒有本質區別。目前的研究基本都集中在用世界模型生成視頻或其他連續時間序列上的可視化數據,再用這些視頻訓練傳統或端到端的自動駕駛模型,幾乎沒有人研究直接用世界模型做自動駕駛的。即便是視頻生成,也還是處于實驗室的學術研究階段。

47a33876-cfc8-11ef-9310-92fbcf53809c.jpg

圖片來源:網絡

為什么要做世界模型,它實際上是端到端自動駕駛的閉環仿真,世界模型可以看做VLM的逆向工程,用prompt這些文字提示輸出視頻。世界模型和端到端模型是一個互相幫助的過程,世界模型生成的視頻交給車端大模型,車端大模型通過它的規劃執行接下來的動作,接下來的動作產生新的場景、新的視角,再通過世界模型繼續生成新的數據,進行閉環仿真的測試。

47b92f28-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:網絡

不同于CARLA這些測試型仿真,世界模型是訓練型仿真,它要達到海量規模才有價值。

47d6bf70-cfc8-11ef-9310-92fbcf53809c.jpg

圖片來源:網絡

世界模型生成視頻可以是自監督的,無需3D標簽,可以使用海量網絡汽車駕駛視頻。最重要的是它可以生成現實世界中極難采集到的長尾視頻,這是其核心價值。換句話說它生成的視頻價值是現實世界采集到的視頻數據的價值百倍以上,但成本是其1%不到。

47f20140-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:網絡

所謂世界模型就是視頻生成加prompt控制。視頻生成有四大類型,包括基于對抗網絡GAN的,基于擴散模型的,基于自回歸模型(基本上就是transformer)和基于掩碼的。其中,擴散模型再分為Stable Video Diffusion (SVD)和Stable Diffusion (SD)兩種,它們還有一種共同的稱呼即隱擴散模型(Latent Diffusion Model, LDM)。目前也有結合diffusion和transformer的模型即DiT,但它本質上還是擴散模型,只不過用transformer替換了擴散模型中的Unet。大名鼎鼎的SORA則是復合型,Sora模型的核心組成包括Diffusion Transformer(DiT)、Variational Autoencoder(VAE)和Vision Transformer(ViT)。DiT負責從噪聲數據中恢復出原始的視頻數據,VAE用于將視頻數據壓縮為潛在表示,而ViT則用于將視頻幀轉換為特征向量以供DiT處理。據說特斯拉就是用的SVD。

基于世界模型的端到端訓練

4811fe96-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:網絡

生成視頻的質量分為兩部分,一是視頻本身的準確度,主要指標有三個,一個是FID/FVD,另一個是CLIP得分。FID(Fréchet Inception Distance)是一種用于評估生成模型,尤其是在圖像生成任務中,生成圖像的質量和多樣性的指標。它通過比較生成圖像與真實圖像在特定空間內的分布來工作。這個特定的空間通常是通過預訓練的Inception網絡的某一層來定義的。對于生成圖像集和真實圖像集,分別通過Inception網絡(通常是Inception V3模型)計算它們的特征表示。這一步驟會得到每個圖像集的特征向量,計算每個集合的特征向量的均值和協方差矩陣,并做對比,都是高等數學的課程,這里就不展開說了。FVD和FID接近,相當于把FID的圖像特征提取網絡換成視頻特征提取網絡,其他都差不多。最后一個是北大提出來的,就是Trajectory Agent IoU (NTA-IoU),與設定軌跡的交并比,Novel Trajectory Lane IoU (NTL-IoU),與設定車道的交并比。

二是視頻本身的長度、幀率和分辨率,要盡可能與傳統自動駕駛訓練視頻達到一致的幀率和分辨率。

目前世界模型生成視頻的方向有兩個,一個是追求更長、更多視角、更高分辨率,代表作有商湯的《InfinityDrive: Breaking Time Limits in Driving World Models》,華為的《MagicDriveDiT: High-Resolution Long Video Generation》,Wayve的GAIA-1,地平線的DrivingWorld。另一個是追求近乎真實的3D場景渲染,理想在這方面情有獨鐘,理想的Street Gaussians、ReconDreamer、DriveDreamer4D都是這個方向,也是這個領域的主要代表作。

4829e9ca-cfc8-11ef-9310-92fbcf53809c.jpg

圖片來源:網絡

特斯拉用的什么世界模型,自然是未知,也許它根本就沒用世界模型。

483836ec-cfc8-11ef-9310-92fbcf53809c.png

注:“Ours”指的就是InfinityDrive

圖片來源:商湯論文《InfinityDrive: Breaking Time Limits in Driving World Models》

4855bcf8-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:華為的MagicDriveDiT

華為不僅能生成超高分辨率,還能生成多個角度的視頻。

4890c258-cfc8-11ef-9310-92fbcf53809c.png

數據來源:地平線的DrivingWorld,數據尺度比較大,分辨率也很高

我們再來看另一條3D渲染線,它的核心應該說有點偏離世界模型的本來意義了,它是追求接近真實的3D渲染,基本上是理想汽車的獨角戲。三個比較有價值的模型基本都有理想汽車的身影,第一個是Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting,浙江大學和理想汽車合作,九位作者,其中來自理想汽車的作者占四位。第二個是DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation,由極佳科技聯合中國科學院自動化研究所、理想汽車、北京大學、慕尼黑工業大學等單位提出,十二位作者兩位來自理想汽車。第三個是ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration,總共十六位作者,其中來自理想汽車的多達八位,來自極佳科技的有六位。

48a50434-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:論文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

上圖可以看到,理想汽車與極佳科技合作的最新成果就是ReconDremaer,純粹StreetGaussians的話,一旦偏離中心視角,容易出現空洞或鬼影,車道線也出現扭曲。

ReconDreamer整體框架

48caa7b6-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:論文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

除了生成視頻,還有生成激光雷達點云視頻,如理想與澳門大學合作的《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》,還有生成語義分割圖的《SynDiff-AD: Improving Semantic Segmentation and End-to-End Autonomous Driving with Synthetic Data from Latent Diffusion Models》。

OLiDM的整體框架

48d1378e-cfc8-11ef-9310-92fbcf53809c.png

圖片來源:論文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》

上圖中,世界模型生成激光雷達點云視頻,再拿這個去訓練激光雷達的識別能力。

48ebf6a0-cfc8-11ef-9310-92fbcf53809c.png

數據來源:論文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》。

OLiDM的效果,能有兩三個點的提升,已經是非常難得了,現在在nuScenes上0.001的提升都需要一年半以上的時間。

世界模型一點也不神秘,不僅是端到端自動駕駛,它對傳統自動駕駛也有明顯的提升,自動駕駛的數據成本也大幅度下降至少95%以上,那些所謂影子模式變得毫無價值,實際上沒有世界模型生成視頻,影子模式本身也毫無價值,這也是馬斯克說他用擴散模式生成視頻的原因,如果影子模式真有價值,何必多此一舉?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    218

    文章

    36003

    瀏覽量

    262088
  • 特斯拉
    +關注

    關注

    66

    文章

    6413

    瀏覽量

    131355
  • 商湯
    +關注

    關注

    0

    文章

    91

    瀏覽量

    4356

原文標題:華為、理想、特斯拉、商湯的世界模型是做什么用的?

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    避繁就簡!商湯日日新大模型靈性巧解數學難題,獲贊“機器的審美”

    模型也能擁有某種數學家“直覺”! 在近日舉辦的第十屆世界華人數學家大會“人工智能與數學”夜話活動上,由菲爾茲獎得主丘成桐院士引領,集結國內四大頂尖模型團隊,上海人工智能實驗室、商湯
    的頭像 發表于 01-12 11:41 ?268次閱讀
    避繁就簡!<b class='flag-5'>商湯</b>日日新大<b class='flag-5'>模型</b>靈性巧解數學難題,獲贊“機器的審美”

    商湯科技日日新Seko系列模型與寒武紀成功適配

    12月15日,商湯科技基于在生成式AI與多模態交互領域的技術積累,正式發布Seko2.0——行業首個多劇集生成智能體。該智能體在多劇集視頻生成的一致性方面展現出顯著優勢,其背后依托的是商湯自研的日日新Seko系列模型,包括Sek
    的頭像 發表于 12-17 14:06 ?455次閱讀

    商湯醫療以世界模型重塑智慧醫療未來圖景

    近日,一場以“智啟新生,醫領未來”為主題的啟航盛典正式拉開帷幕。這不僅是商湯醫療完成新一輪融資后的首次公開亮相,更是一次對智慧醫療未來圖景的深度詮釋與前瞻展望。
    的頭像 發表于 12-08 11:22 ?4210次閱讀

    商湯科技正式發布并開源全新多模態模型架構NEO

    商湯科技正式發布并開源了與南洋理工大學S-Lab合作研發的全新多模態模型架構 —— NEO,為日日新SenseNova 多模態模型奠定了新一代架構的基石。
    的頭像 發表于 12-08 11:19 ?1014次閱讀
    <b class='flag-5'>商湯</b>科技正式發布并開源全新多模態<b class='flag-5'>模型</b>架構NEO

    商湯絕影開悟世界模型綜合能力位列中國第一

    2025年9月23日,全球知名增長咨詢公司弗若斯特沙利文(Frost & Sulllivan,簡稱“沙利文”)發布《2025年中國世界模型發展白皮書》報告。
    的頭像 發表于 09-29 14:13 ?1012次閱讀

    商湯絕影亮相汽車之家全球AI科技大會

    近日,由汽車之家主辦的「汽車之家全球AI科技大會」在北京舉行。商湯科技聯合創始人、執行董事、CTO、商湯絕影CEO王曉剛出席大會,并發表《世界模型:智能駕駛范式演進新路標》主題演講,分
    的頭像 發表于 09-29 14:09 ?627次閱讀

    商湯日日新V6.5多模態大模型登頂全球權威榜單

    根據權威評測平臺OpenCompass多模態大模型學術榜單(Multi-modal Academic Leaderboard)最新數據顯示,商湯「日日新 V6.5」(SenseNova-V6.5
    的頭像 發表于 09-10 09:55 ?790次閱讀

    商湯日日新大模型賦能紫光漢圖打造激光多功能一體機

    商湯日日新大模型賦能紫光漢圖,為一線教師打造全新教學生產力。
    的頭像 發表于 08-19 15:51 ?903次閱讀
    <b class='flag-5'>商湯</b>日日新大<b class='flag-5'>模型</b>賦能紫光漢圖打造激光多功能一體機

    商湯大裝置算力Mall重磅發布

    近日,商湯科技聯合華為、庫帕思、海光、寒武紀、曦望Sunrise、壁仞科技、麒麟軟件、摩爾線程等十余家國產生態伙伴,共同發布“商湯大裝置算力Mall”。
    的頭像 發表于 08-05 10:05 ?1026次閱讀

    商湯大裝置發布基于DeepLink的異構混合調度方案

    日前,在2025世界人工智能大會(WAIC)期間,商湯大裝置發布基于DeepLink的異構混合調度方案,將DeepLink深度融入商湯大裝置核心能力體系。該方案針對當前國產算力資源碎片化、異構芯片
    的頭像 發表于 08-05 10:01 ?1098次閱讀

    商湯科技發布悟能具身智能平臺

    近日,由全國工商聯人工智能委員會傾力主辦,商湯科技承辦的“大愛無疆·模塑未來” WAIC 2025大模型論壇上,商湯科技正式發布「悟能」具身智能平臺,從開悟世界
    的頭像 發表于 07-31 16:35 ?1291次閱讀

    商湯日日新SenseNova融合模態大模型 國內首家獲得最高評級的大模型

    近日,中國信息通信研究院(以下簡稱“中國信通院”)完成可信AI多模態大模型首輪評估。 商湯日日新SenseNova融合模態大模型在所有模型中,獲得當前最高評級——4+級,并成為國內首家
    的頭像 發表于 06-11 11:57 ?1417次閱讀

    商湯科技攜手靈宇宙引領AI教育創新發展

    模型時代,孩子的學習和教育方式如何進化?“把世界變成教材,把世界變成教室”將是下一代年輕人的主要學習體驗。商湯科技以多模態大模型賦能教育行
    的頭像 發表于 04-21 11:24 ?1093次閱讀

    商湯大裝置SenseCore 2.0全新升級

    在2025商湯技術交流日上,作為最懂大模型的AI基礎設施,商湯大裝置SenseCore 2.0全新升級,致力于為企業提供敏捷、靈活、可靠的全棧AI基礎設施服務,以極致性價比推動大模型
    的頭像 發表于 04-14 18:07 ?1072次閱讀

    商湯科技日日新大模型SenseNova上線聲網云市場

    日前,商湯科技日日新大模型SenseNova即將正式上線聲網云市場,開發者和企業用戶可通過聲網的實時互動云服務進行調用,將商湯領先的模型能力集成到各類應用場景中,快速構建基于日日新大
    的頭像 發表于 04-08 17:24 ?1488次閱讀