国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-02-25 14:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

RAD

端到端智駕強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。當(dāng)下主流的端到端智駕模型采用模仿學(xué)習(xí)訓(xùn)練范式,即從大量的人類駕駛數(shù)據(jù)中擬合類人的駕駛策略。與大語言模型預(yù)訓(xùn)練范式相對應(yīng),模仿學(xué)習(xí)的 scaling law 也將觸及瓶頸,其上限是人類的駕駛水平,難以實現(xiàn)遠(yuǎn)超人類的高階自動駕駛。此外,模仿學(xué)習(xí)天然存在因果混淆和開環(huán)閉環(huán)差異性兩方面的局限性,其下限(安全性和穩(wěn)定性)也難以保證。

我們提出端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式 RAD(ReinforcedAutonomous Driving),基于 3DGS 技術(shù)構(gòu)建真實物理世界的孿生數(shù)字世界,讓端到端模型在數(shù)字世界中控制車輛行駛,像人類駕駛員一樣不斷地與環(huán)境交互并獲得反饋,基于安全性相關(guān)的獎勵函數(shù),通過強(qiáng)化學(xué)習(xí)微調(diào)引導(dǎo)模型建模物理世界的因果關(guān)系。強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)天然地互補(bǔ),在模仿學(xué)習(xí)scalinglaw 的基礎(chǔ)上,強(qiáng)化學(xué)習(xí)scaling law 將進(jìn)一步拓展端到端智駕模型的能力邊界。

項目主頁:https://hgao-cv.github.io/RAD 論文地址:https://arxiv.org/pdf/2502.13144

概述

受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的scaling law已經(jīng)趨近于極限。DeepSeek R1 / OpenAI o1 通過強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。當(dāng)下主流的端到端智駕模型采用模仿學(xué)習(xí)訓(xùn)練范式,即從大量的人類駕駛數(shù)據(jù)中擬合類人的駕駛策略。與大語言模型預(yù)訓(xùn)練范式相對應(yīng),模仿學(xué)習(xí)的scaling law也將觸及瓶頸,其上限是人類的駕駛水平,難以實現(xiàn)遠(yuǎn)超人類的高階自動駕駛。此外,模仿學(xué)習(xí)天然存在因果混淆和開環(huán)閉環(huán)差異性兩方面的局限性,其下限(安全性和穩(wěn)定性)也難以保證。我們提出端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式RAD(Reinforced Autonomous Driving),基于3DGS技術(shù)構(gòu)建真實物理世界的孿生數(shù)字世界,讓端到端模型在數(shù)字世界中控制車輛行駛,像人類駕駛員一樣不斷地與環(huán)境交互并獲得反饋,基于安全性相關(guān)的獎勵函數(shù),通過強(qiáng)化學(xué)習(xí)微調(diào)引導(dǎo)模型建模物理世界的因果關(guān)系。強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)天然地互補(bǔ),在模仿學(xué)習(xí)scaling law的基礎(chǔ)上,強(qiáng)化學(xué)習(xí)scaling law將進(jìn)一步拓展端到端智駕模型的能力邊界。

模仿學(xué)習(xí)的局限性:因果混淆與開環(huán)閉環(huán)差異

2fefd110-f298-11ef-9310-92fbcf53809c.png

因果混淆(causal confusion)是模仿學(xué)習(xí)訓(xùn)練范式的一大痛點。模仿學(xué)習(xí)的本質(zhì)是使神經(jīng)網(wǎng)絡(luò)模仿人類駕駛員的駕駛策略,其優(yōu)化目標(biāo)是最小化預(yù)測軌跡與專家軌跡之間的差異。模仿學(xué)習(xí)建模的是環(huán)境信息和規(guī)劃軌跡之間的相關(guān)性而非因果關(guān)系,容易造成因果混淆的問題。特別是對于端到端自動駕駛而言,輸入的環(huán)境信息尤為豐富,很難從高維度信息中找出導(dǎo)致規(guī)劃結(jié)果的真實原因,容易導(dǎo)致捷徑學(xué)習(xí)(shortcut learning),例如,從歷史軌跡外推未來軌跡。此外,由于訓(xùn)練集主要由常見的駕駛行為主導(dǎo),在僅使用模仿學(xué)習(xí)訓(xùn)練的情況下,導(dǎo)致對駕駛的安全性不夠敏感。

另外,開環(huán)訓(xùn)練和閉環(huán)部署之間的差距,也是模仿學(xué)習(xí)訓(xùn)練范式難以忽視的問題。模仿學(xué)習(xí)是基于良好的分布內(nèi)駕駛數(shù)據(jù)以開環(huán)方式進(jìn)行訓(xùn)練,但真實世界的駕駛系統(tǒng)是一個閉環(huán)系統(tǒng),開環(huán)與閉環(huán)間存在極大的差異。在閉環(huán)中,單步的微小軌跡誤差會隨時間累積,導(dǎo)致駕駛系統(tǒng)進(jìn)入一個偏離訓(xùn)練集分布的場景。僅經(jīng)過開環(huán)訓(xùn)練的駕駛策略在面對訓(xùn)練集分布外的場景時往往會失效。

RAD訓(xùn)練范式

RAD基于3DGS技術(shù)構(gòu)建真實物理世界的孿生數(shù)字世界,讓端到端模型在數(shù)字世界中控制車輛行駛,像人類駕駛員一樣不斷地與環(huán)境交互并獲得反饋,充分地探索狀態(tài)空間,學(xué)習(xí)應(yīng)對各種復(fù)雜和罕見的分布外場景,基于安全性相關(guān)的獎勵函數(shù),通過強(qiáng)化學(xué)習(xí)微調(diào)讓模型對安全性保持敏感,并建模物理世界的因果關(guān)系。

(1)三階段訓(xùn)練架構(gòu)

336f7f66-f298-11ef-9310-92fbcf53809c.png

RAD 采用三階段訓(xùn)練范式。在感知預(yù)訓(xùn)練階段,通過監(jiān)督學(xué)習(xí)的方式,訓(xùn)練模型識別駕駛場景的關(guān)鍵元素,建立對周圍環(huán)境的準(zhǔn)確認(rèn)知;規(guī)劃預(yù)訓(xùn)練階段,利用大規(guī)模的真實世界駕駛示范數(shù)據(jù),通過模仿學(xué)習(xí)來初始化動作的概率分布,避免強(qiáng)化學(xué)習(xí)訓(xùn)練的冷啟動問題;在強(qiáng)化后訓(xùn)練階段,強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)協(xié)同對策略進(jìn)行微調(diào)。強(qiáng)化學(xué)習(xí)主要負(fù)責(zé)引導(dǎo)策略建模物理世界的因果關(guān)系和適應(yīng)分布外的場景;模仿學(xué)習(xí)作為正則,約束與人類駕駛行為相似性。

337cd9ae-f298-11ef-9310-92fbcf53809c.png

(2)安全導(dǎo)向的獎勵函數(shù)設(shè)計

為了確保自動駕駛汽車在行駛過程中的安全性,RAD 設(shè)計了專門的獎勵機(jī)制。這個機(jī)制主要關(guān)注四個方面:碰撞動態(tài)障礙物、碰撞靜態(tài)障礙物、與專家軌跡的位置偏差和航向偏差。一旦出現(xiàn)不安全的駕駛行為,比如碰撞或者偏離專家軌跡,就會觸發(fā)相應(yīng)的懲罰獎勵。通過這種方式,引導(dǎo)策略有效地應(yīng)對關(guān)鍵安全事件,讓自動駕駛汽車在訓(xùn)練過程中逐漸學(xué)會如何避免危險,更好地理解現(xiàn)實世界中的因果關(guān)系。

(3)策略優(yōu)化與輔助目標(biāo)設(shè)計

為了提高訓(xùn)練效率和效果,RAD將動作解耦為橫向動作和縱向動作,在 0.5 秒的短時間范圍內(nèi)構(gòu)建動作空間,有效降低了動作空間的維度,加快了訓(xùn)練的收斂速度。此外,在策略優(yōu)化方面,RAD 使用廣義優(yōu)勢估計(GAE)來傳播獎勵,優(yōu)化前面步驟的動作分布。考慮到動作空間的解耦,將獎勵和價值函數(shù)也進(jìn)行解耦,分別計算橫向和縱向的優(yōu)勢估計,并根據(jù)近端策略優(yōu)化(PPO)來微調(diào)策略。

同時,針對強(qiáng)化學(xué)習(xí)中常見的稀疏獎勵問題,RAD 引入了輔助目標(biāo)。這些輔助目標(biāo)基于動態(tài)碰撞、靜態(tài)碰撞、位置偏差和航向偏差等多種獎勵源設(shè)計,能夠?qū)εf策略選擇的動作進(jìn)行評估,并通過調(diào)整動作概率分布來懲罰不良行為。例如,當(dāng)前方存在潛在碰撞風(fēng)險時,系統(tǒng)會降低加速動作的概率,并提升減速或制動的概率;當(dāng)車輛偏離預(yù)定軌跡向左偏移時,則增加向右修正方向的動作概率,以減少軌跡偏差。通過這種方式,RAD 為整個動作分布提供密集的指導(dǎo)信息,確保策略能夠更快學(xué)會安全合理的駕駛行為,從而加速訓(xùn)練的收斂。

閉環(huán)驗證

RAD 通過基于大規(guī)模 3DGS 的強(qiáng)化學(xué)習(xí)訓(xùn)練,學(xué)習(xí)到了更有效的駕駛策略。在相同的閉環(huán)評估基準(zhǔn)測試中,RAD 的碰撞率相較于傳統(tǒng)的模仿學(xué)習(xí)策略降低了 3 倍。這一結(jié)果表明,RAD 能在復(fù)雜的交通狀況下有效避免與動靜態(tài)障礙物的碰撞,做出更加安全、合理的決策。例如,在遇到突然闖入道路的行人或車輛時,RAD 能夠迅速做出準(zhǔn)確反應(yīng),及時調(diào)整車速和行駛方向,避免碰撞事故的發(fā)生,而模仿學(xué)習(xí)策略則可能難以應(yīng)對這種突發(fā)情況。 我們提供了一系列典型場景的閉環(huán)結(jié)果,以直觀展示 RAD 與模仿學(xué)習(xí)策略在實際駕駛場景中的關(guān)鍵差異:

場景1:繞行;右轉(zhuǎn)

場景2:U形掉頭

場景3:跟車蠕行

場景4:無保護(hù)左轉(zhuǎn)

場景5:擁擠路口通行

場景6:無保護(hù)左轉(zhuǎn)

場景7:繞行;窄道通行

場景8:無保護(hù)左轉(zhuǎn)

場景9:跟車行駛

后續(xù)工作

RAD作為創(chuàng)新的端到端自動駕駛后訓(xùn)練范式,具有廣闊的應(yīng)用前景和潛力。目前RAD仍存在一些局限性。例如,其他交通參與者的行為是基于場景回放,缺乏交互性的響應(yīng);在非剛性物體的渲染、欠觀測視角和低光照場景等方面,3DGS的效果還有提升的空間。在后續(xù)工作中,我們將進(jìn)一步提升3DGS孿生數(shù)字世界的真實性和交互性,并繼續(xù)探索強(qiáng)化學(xué)習(xí)scaling law的上限。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3751

    瀏覽量

    52099
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    270

    瀏覽量

    11967
  • 地平線
    +關(guān)注

    關(guān)注

    0

    文章

    460

    瀏覽量

    16342
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1528

    瀏覽量

    16740

原文標(biāo)題:開發(fā)者說|RAD:基于3DGS孿生數(shù)字世界的端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類擅長解決各種挑戰(zhàn)性的問題,從低級的運動控制(如:步行、跑步、打網(wǎng)球)高級的認(rèn)知任務(wù)。
    發(fā)表于 07-01 10:29 ?2196次閱讀
    什么是深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強(qiáng)化學(xué)習(xí)實戰(zhàn)

    內(nèi)容2:課程一: TensoRFlow入門熟練:課程二:圖像分類:課程三:物體檢測:課程四:人臉識別:課程五:算法實現(xiàn):1、卷積神經(jīng)網(wǎng)絡(luò)CNN2、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN3、強(qiáng)化學(xué)習(xí)DRL4、對抗性生成
    發(fā)表于 01-10 13:42

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.9w次閱讀

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境行為映射的學(xué)習(xí),以使獎勵信號(強(qiáng)化信號)函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)
    發(fā)表于 05-30 06:53 ?1786次閱讀

    如何構(gòu)建強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法

    本文作者通過簡單的方式構(gòu)建了強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法,可以為初學(xué)者提供快速入門的經(jīng)驗。
    的頭像 發(fā)表于 11-12 14:47 ?5550次閱讀

    研究人員開源RAD以改進(jìn)及強(qiáng)化智能學(xué)習(xí)算法

    加州大學(xué)伯克利分校的一組研究人員本周開放了使用增強(qiáng)數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)(RAD)的資源。
    發(fā)表于 05-11 23:09 ?1750次閱讀

    機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    強(qiáng)化學(xué)習(xí)( Reinforcement learning,RL)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三種學(xué)習(xí)
    發(fā)表于 04-08 11:41 ?11次下載
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法及研究綜述

    模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

    深度強(qiáng)化學(xué)習(xí)(DRL)作為機(jī)器學(xué)習(xí)的重要分攴,在 Alphago擊敗人類受到了廣泛關(guān)注。DRL以種試錯機(jī)制與環(huán)境進(jìn)行交互,并通過最大化累積獎賞最終得到最優(yōu)策略。強(qiáng)化學(xué)習(xí)可分為無模型
    發(fā)表于 04-12 11:01 ?9次下載
    模型化深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>應(yīng)用研究綜述

    基于強(qiáng)化學(xué)習(xí)的虛擬場景角色乒乓球訓(xùn)練

    基于強(qiáng)化學(xué)習(xí)的虛擬場景角色乒乓球訓(xùn)練
    發(fā)表于 06-27 11:34 ?62次下載

    《自動化學(xué)報》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

    突破.由于融合了深度學(xué)習(xí)強(qiáng)大的表征能力和強(qiáng)化學(xué)習(xí)有效的策略搜索能力,深度強(qiáng)化學(xué)習(xí)已經(jīng)成為實現(xiàn)人工智能頗有前景的學(xué)習(xí)范式.然而,深度
    發(fā)表于 01-18 10:08 ?2371次閱讀
    《自動<b class='flag-5'>化學(xué)</b>報》—多Agent深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>綜述

    ICLR 2023 Spotlight|節(jié)省95%訓(xùn)練開銷,清華黃隆波團(tuán)隊提出強(qiáng)化學(xué)習(xí)專用稀疏訓(xùn)練框架RLx2

    大模型時代,模型壓縮和加速顯得尤為重要。傳統(tǒng)監(jiān)督學(xué)習(xí)可通過稀疏神經(jīng)網(wǎng)絡(luò)實現(xiàn)模型壓縮和加速,那么同樣需要大量計算開銷的強(qiáng)化學(xué)習(xí)任務(wù)可以基于稀疏網(wǎng)絡(luò)進(jìn)行訓(xùn)練嗎?本文提出了一種強(qiáng)化學(xué)習(xí)專用稀
    的頭像 發(fā)表于 06-11 21:40 ?1446次閱讀
    ICLR 2023 Spotlight|節(jié)省95%<b class='flag-5'>訓(xùn)練</b>開銷,清華黃隆波團(tuán)隊提出<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>專用稀疏<b class='flag-5'>訓(xùn)練</b>框架RLx2

    InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    的,這需要大量的計算資源和高速數(shù)據(jù)傳輸網(wǎng)絡(luò)。InfiniBand(IB)網(wǎng)絡(luò)作為高性能計算和AI模型訓(xùn)練的理想選擇,發(fā)揮著重要作用。在本文中,我們將深入探討大型語言模型(LLM)
    的頭像 發(fā)表于 10-23 11:26 ?1.5w次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網(wǎng)絡(luò)解決LLM<b class='flag-5'>訓(xùn)練</b>瓶頸

    如何訓(xùn)練好自動駕駛模型?

    [首發(fā)于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:算法是怎樣訓(xùn)練的?是模仿學(xué)習(xí)強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 12-08 16:31 ?1427次閱讀
    如何<b class='flag-5'>訓(xùn)練</b>好自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?

    強(qiáng)化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓(xùn)練時,有的技術(shù)方案會采用模仿學(xué)習(xí),而有些會采用強(qiáng)化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-31 09:34 ?641次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>會讓自動駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?