国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種包含全棧自動駕駛算法的統(tǒng)一架構設計UniAD介紹

3D視覺工坊 ? 來源:自動駕駛之心 ? 2023-01-09 11:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、研究背景:

現(xiàn)代自動駕駛系統(tǒng)包含多個順序執(zhí)行的任務,即感知、預測及規(guī)劃。隨著傳感器和硬件的進步,設計一種可以執(zhí)行各種任務的智能系統(tǒng)成為一種趨勢。之前的設計方案可概括為兩類:1)為每個任務部署獨立的模型;2)組建包含多個獨立任務頭的多任務學習模型。然而,這些方法都可能會受到累積誤差以及在下游規(guī)劃上較差的遷移效果的影響。

近期,arXiv 中收錄了上海人工智能實驗室OpenDriveLab團隊聯(lián)合武漢大學、商湯科技的一篇文章——Goal-oriented Autonomous Driving,其提出良好的自動駕駛系統(tǒng)應該以最終任務——安全的路線規(guī)劃為導向。該研究對感知與預測中的關鍵組成部分進行分析與研究,并按照一定優(yōu)先級進行組建,以便所有的子任務都有助于規(guī)劃,并提出了統(tǒng)一自動駕駛框架 (UniAD) ,這是第一個將全棧駕駛任務整合到一個深度神經網絡中的框架,并可以發(fā)揮每個子任務以及各個模塊的優(yōu)勢,以執(zhí)行安全的規(guī)劃。

隨著深度學習的成功發(fā)展,自動駕駛算法由一系列子任務組成,包括感知中的物體檢測、多目標跟蹤、地圖分割;預測任務中的軌跡預測和占用柵格預測。如圖1(a)所示,大多數(shù)工業(yè)解決方案是為每個任務部署獨立模型。盡管簡化了多任務模型的設計,但由于不同子任務優(yōu)化方向的不同,這樣的設計面臨著信息丟失、錯誤累積和特征未對齊的風險。

poYBAGO7h6KAISN1AACYwkxKw8c489.jpg

圖1:自動駕駛算法框架的各種設計比較。(a)大多數(shù)工業(yè)解決方案是對不同的任務部署不同的模型。(b)多任務學習架構,多個任務頭共享一個主干網絡(特征提取器)。(c)端到端學習范式,其聯(lián)合了感知與規(guī)劃模塊。現(xiàn)有工作或如(c.1)采用直接從感知結果進行規(guī)劃,或如(c.2)中采用多模塊級聯(lián)的系統(tǒng)。

除了上述工業(yè)方案,更為先進的設計是將不同的任務整合到多任務學習(MTL)范式中,如圖1(b)所示,例如BEVerse,以及部分工業(yè)化架構,例如Mobileye、Tesla、Nvidia等。在MTL中,多任務的協(xié)同訓練利用同一個特征提取器,可以方便地拓展至多個子任務并節(jié)省芯片的計算。然而,這樣的方法仍未解決不同任務優(yōu)化方向不一致的問題,同時不同任務的監(jiān)督信息也未得到充分的交互,以更好作用于規(guī)劃。相比之下,端到端自動駕駛架構(如圖1(c)所示)將感知、決策和規(guī)劃結合為一個整體。前序任務(模塊)的組合應當有利于最終的規(guī)劃,同時應該盡量避免誤差累計的問題。(c.1)中采用直接從感知結果進行規(guī)劃,(c.2)中采用模塊級聯(lián)的方式。在(c.3)中,UniAD以良好的規(guī)劃為導向,通過層級結構對不同任務進行組建以達到更好的規(guī)劃結果。

pYYBAGO7h7SAdcYjAADCWbEKmW0662.jpg

表1:UniAD 與之前方案的對比,包含了更多的任務以輔助下游規(guī)劃,包含檢測 (Detection),跟蹤 (Tracking),地圖生成 (Mapping),軌跡預測 (Motion Forecasting),占用柵格預測 (Occupancy prediction) 與規(guī)劃 (Planning)。

二、研究內容

如圖2所示,UniAD是由四個基于Transformer解碼器的感知預測模塊以及一個規(guī)劃模塊組成。多組查詢向量 (query) 用于連接整個架構以及學習多個智能體與周圍環(huán)境的交互。具體而言,多個環(huán)視攝像頭采集的圖像將首先通過特征提取器轉化為圖像特征,再通過 BEV(Bird’s-Eye-View,鳥瞰圖視角)編碼器將圖像特征轉化為 BEV 特征。在 TrackFormer 中,用一組跟蹤查詢向量 (Track query) 從 BEV 特征中檢測新出現(xiàn)的物體(智能體)并持續(xù)跟蹤已經檢測到的物體。MapFormer 是通過地圖查詢向量 (Map query) 對不同類別的地圖元素進行分割,比如車道線與人行道。MotionFormer 通過建模物體與環(huán)境之間的交互關系對每個物體的未來軌跡進行預測。同時引入自車查詢向量 (Sdc query) 對自車的運動進行建模,自車查詢向量將用于后續(xù)的自車規(guī)劃中。OccFormer 用于進行占用柵格預測,以 BEV 特征為查詢向量,物體特征為鍵 (key) 與值 (value),對未來的 BEV 特征進行不斷地更新,進而解碼為占用柵格。規(guī)劃模塊 (Planner) 將自車查詢向量解碼,生成規(guī)劃路徑,并利用占用柵格預測對路徑進行優(yōu)化,使其避免障礙物。

pYYBAGO7h8aAMYjWAABcuE_92Co400.jpg

圖2. 統(tǒng)一的自動駕駛(UniAD)的整體框架。UniAD通過多個 Transformer 模塊將各個任務進行層級式的結合,并對不同任務間的信息進行了充分的交互。UniAD使用多組查詢向量對物體與地圖進行建模,并將預測結果傳遞至規(guī)劃模塊,用于進行安全的路徑規(guī)劃。

(1)感知:跟蹤與地圖分割

TrackFormer 可以同時進行檢測與多目標跟蹤,通過引入一組 Track query 去建模追蹤物體在場景中的整個生命周期(即從出現(xiàn)到完全消失)。Track query 通過與 BEV 特征進行注意力機制運算并通過多層感知機 (MLP) 進行解碼,最終得到跟蹤物體的邊界框與速度等屬性。MapFormer 是將 2D 全景分割的經典方案 Panoptic Segformer 遷移至 3D 場景,并用于在線地圖分割。具體而言,用一組 Map query 表示地圖中的不同元素,比如車道線、人行道等,這些地圖元素將有利于下游任務對周圍環(huán)境信息的學習。Map query 經過 MapFormer 的更新后,將被傳送至 MotionFormer 進行物體與地圖元素的交互。

(2)預測:軌跡預測

MotionFormer 以信息豐富的物體特征和地圖特征為輸入,輸出場景中所有智能體在多種模態(tài)下的未來軌跡。這種范式只需要進行一次網絡的前向傳播便能輸出所有智能體的未來軌跡,相較于之前以智能體為中心(agent-centric)的方法,節(jié)省了每步對坐標空間進行對齊的計算消耗。同時為了持續(xù)建模自車運動信息,利用 TrackFormer 中的自車查詢向量 (Sdc query) 學習自車的未來軌跡。MotionFormer 由多層交叉注意力 (cross-attention) 模塊組成,以達到不斷精細化的目的。每層模塊包含三次不同的注意力計算以建模不同類型的交互,分別是智能體-智能體,智能體-地圖,智能體-軌跡目標,具體交互表示如下:

pYYBAGO7h9iAanCCAAAc5x29Xvw255.jpg

其中 MHCA、MHSA 與 DeformAttn 分別表示多頭交叉注意力,多頭自注意力與可變形注意力。交互結束后得到的軌跡查詢向量 (Motion query) 將繼續(xù)傳遞給占用柵格預測與規(guī)劃模塊。

poYBAGO7h-6ADdBaAAD8MeW2tYI261.jpg

圖3. MotionFormer。它由N個堆疊的交互模塊組成,每個模塊內會進行agent-agent,agent-map 和 agent-goal point(軌跡終點)的關系建模。agent-agent 和 agent-map 交互模塊使用標準的Transformer解碼器層,agent-goal交互模塊構是建在可變形的交叉注意力模塊上。

(3)預測:占用柵格預測

占用柵格圖是一種離散化的BEV 表示形式,其中每個格子代表的值代表當前位置是否被物體占用。占用柵格預測任務是指預測未來多步的占用柵格圖,即未來 BEV 的占用情況。之前的方法通常會利用卷積神經網絡 (CNN) 與遞歸神經網絡 (RNN) 逐步預測未來多步 BEV 特征圖并解碼,但是卻忽略了場景中物體的運動信息,這些信息與未來場景的占用柵格有很強的關聯(lián)。為了引入稀疏的物體運動信息,本文在 OccFormer 中利用注意力機制,將場景中密集的各柵格表示為查詢向量 (query),將物體特征表示為鍵 (key) 與值 (value)。通過多層 Transformer 的解碼器,查詢向量將多次更新,用于表示未來時序的 BEV 特征圖。為了更好地對齊物體與各柵格的位置關系,本文引入了一個基于占用柵格的注意力掩碼,該掩碼使得注意力計算只在位置對應的柵格-物體特征之間進行。查詢向量的更新過程如下:

poYBAGO7iAuAWOSfAAAQ10LomU4408.jpg
poYBAGO7iBKAAeNbAADJaMqS2tg246.jpg

poYBAGO7iCeARzxHAACv3u6Qu94212.jpg

(4)自車規(guī)劃

為了規(guī)劃自車未來的運動軌跡,將 MotionFormer 更新后的自車查詢向量 (Sdc query) 與 BEV 特征進行注意力機制交互,讓 Sdc query 感知整個 BEV 環(huán)境,隱式地學習周圍環(huán)境與其他智能體。為了更顯式地避免與周圍車的碰撞,作者利用占用柵格預測模塊的輸出對自車路徑進行優(yōu)化,避免未來可能有物體占用的區(qū)域。

pYYBAGO7iECAT91jAAE4uWIg9CI078.jpg

三、實驗結果

1. 各模塊實驗結果

感知結果

poYBAGO7iFyAFBDiAAFBoRQ8jKI179.jpg

預測結果

pYYBAGO7iG-AKDGeAAFCQumlZHI433.jpg

規(guī)劃結果

與 ST-P3 相比,UniAD 將規(guī)劃L2誤差和碰撞率分別降低了51.2%和56.3%,并優(yōu)于其它基于 LiDAR 輸入的方案。
poYBAGO7iImAbHR0AADLJurJn_w847.jpg

2. 消融研究

為了驗證以目標為導向的設計理念是否真正發(fā)揮作用,本文對感知及預測中的各個模塊進行了廣泛的消融研究,如表7所示,以證明前序模塊的有效性和必要性。 0e057914-8fcc-11ed-bfe3-dac502259ad0.jpg表7:感知及預測中的各個模塊對下游任務的幫助。

poYBAGO7iLKAQ-ZkAACTO-NGZ5Q578.jpg

3. 可視化

poYBAGO7iMiAcWslAAHGnh4NzIw779.jpg

圖7:在市區(qū)駕駛的可視化表示。UniAD 可以生成高質量的感知和預測結果,并進行安全的路徑規(guī)劃。前三列顯示六個攝像機的視角,最后兩列分別是 BEV 預測結果和來自規(guī)劃模塊的注意力掩碼。每個智能體都用單獨的顏色表示。

poYBAGO7iNqAK0ccAADXkzewGaU974.jpg

圖8:關鍵案例可視化。第一個場景(上圖)顯示自車正在讓兩個過馬路的行人,第二個場景(下圖)顯示自車正在讓側方一輛快速行駛的汽車。從最右圖可以觀察到規(guī)劃模塊對最關鍵的智能體給予更多的關注度。

pYYBAGO7iOqASMGcAADSjwfcnpM557.jpg

圖9:避障可視化。在這兩種情況下,自車正在進行變道以避開障礙物車輛。從最右注意力掩碼中,可以觀察到UniAD可以關注障礙物以及前后的道路

四、總結

UniAD 設計是以安全的路徑規(guī)劃為導向,對多個必需的自動駕駛任務進行層級化設計,以多組查詢向量 (query) 對物體與環(huán)境之間的多種交互進行建模。通過大量實驗驗證了模型設計的有效性,并相對之前的方案取得了更好的性能。UniAD 是一種統(tǒng)一的自動駕駛算法框架,可以以高精度執(zhí)行包含跟蹤、地圖生成、軌跡預測、占用預測與規(guī)劃任務,是首個全面探索自動駕駛系統(tǒng)各模塊必要性的工作,作者通過進行廣泛的消融和實驗,驗證了 UniAD 在各感知預測任務對最終規(guī)劃的幫助。







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1219

    瀏覽量

    43426
  • 自動駕駛系統(tǒng)

    關注

    0

    文章

    70

    瀏覽量

    7323
  • MLP
    MLP
    +關注

    關注

    0

    文章

    57

    瀏覽量

    4990

原文標題:All in One | UniAD:一種包含全棧自動駕駛算法的統(tǒng)一架構設計

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛端到端為什么會出現(xiàn)黑盒現(xiàn)象?

    自動駕駛領域,端到端(End-to-End)是指從感知環(huán)境的原始數(shù)據(jù)到車輛實際控制指令,全部交給統(tǒng)一的深度學習模型來完成。這和傳統(tǒng)的模塊化自動駕駛系統(tǒng)不
    的頭像 發(fā)表于 02-20 09:25 ?9265次閱讀
    <b class='flag-5'>自動駕駛</b>端到端為什么會出現(xiàn)黑盒現(xiàn)象?

    自動駕駛汽車如何實現(xiàn)自動駕駛

    人類駕駛員而言是非常直觀且有效的指令,但對于自動駕駛汽車來說,則意味著需要套極其復雜的感知、理解與決策鏈路。 自動駕駛如何看清文字? 自動駕駛
    的頭像 發(fā)表于 02-10 08:50 ?635次閱讀
    <b class='flag-5'>自動駕駛</b>汽車如何實現(xiàn)<b class='flag-5'>自動駕駛</b>

    如何設計好自動駕駛ODD?

    為確定自動駕駛的可使用范圍,會給自動駕駛設置個運行設計域(Operational Design Domain,ODD)。ODD的作用就是用來明確自動駕駛在什么情況下能工作,在什么情況
    的頭像 發(fā)表于 01-24 09:27 ?1513次閱讀

    摩爾線程在MDC 2025重磅發(fā)布創(chuàng)新成果

    12月20日,在首屆MUSA開發(fā)者大會上,摩爾線程創(chuàng)始人、董事長兼CEO張建中發(fā)表主題演講,系統(tǒng)展示了以自主MUSA統(tǒng)一架構為核心的創(chuàng)新成果,全面展現(xiàn)公司在技術和生態(tài)上的關鍵突破與前瞻布局。
    的頭像 發(fā)表于 12-22 18:04 ?1455次閱讀

    大模型中常提的快慢思考會對自動駕駛產生什么影響?

    2024年7月,理想汽車發(fā)布的基于端到端模型、VLM視覺語言模型和世界模型的全新自動駕駛技術架構標志著其自研的智能駕駛研發(fā)進入了新階段。
    的頭像 發(fā)表于 11-22 10:59 ?2504次閱讀
    大模型中常提的快慢思考會對<b class='flag-5'>自動駕駛</b>產生什么影響?

    蘑菇車聯(lián)中標新加坡自動駕駛巴士服務試點項目

    近日,新加坡陸路交通管理局(LTA)宣布,由MKX Technologies、蘑菇車聯(lián)(MOGOX)與比亞迪組成的聯(lián)合體,中標新加坡自動駕駛巴士服務試點項目,這是新加坡首個L4級自動駕駛巴士官方項目,標志著蘑菇車聯(lián)自動駕駛
    的頭像 發(fā)表于 10-15 14:07 ?803次閱讀

    個完整的自動駕駛感知系統(tǒng)包含些什么?

    如果將感知拆分,可以分為“傳感器”和“算法”兩大塊,但其中還包含時間同步、標定、數(shù)據(jù)融合、狀態(tài)估計,以及在線自檢與降級(當某種傳感器失效時系統(tǒng)如何優(yōu)雅退化)等內容。
    的頭像 發(fā)表于 10-09 17:53 ?883次閱讀

    為什么自動駕駛感知系統(tǒng)一定要注意時間同步?

    [首發(fā)于智駕最前沿微信公眾號]時間同步,看似非常簡單的個概念,但在自動駕駛中有著非常重要的作用。定要明白,時間同步不是感知系統(tǒng)的可選項,而是多傳感器系統(tǒng)能否正確工作的基礎性約束。自動駕駛
    的頭像 發(fā)表于 09-10 09:00 ?797次閱讀
    為什么<b class='flag-5'>自動駕駛</b>感知系<b class='flag-5'>統(tǒng)一</b>定要注意時間同步?

    端到端自動駕駛相較傳統(tǒng)自動駕駛到底有何提升?

    各自專業(yè)模塊獨立承擔,再通過預定的接口協(xié)議將信息有序傳遞。與之相對照,“端到端”(end-to-end)自動駕駛統(tǒng)一的大規(guī)模神經網絡為核心,將從攝像頭、雷達、激光雷達等傳感器采集到的原始數(shù)據(jù)直接映射為駕駛控制指令,極力
    的頭像 發(fā)表于 09-02 09:09 ?826次閱讀
    端到端<b class='flag-5'>自動駕駛</b>相較傳統(tǒng)<b class='flag-5'>自動駕駛</b>到底有何提升?

    自動駕駛中常提的“”是個啥?有必要“”嗎?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術落地,越來越多車企公布了自己的自動駕駛方案,在很多車企的宣傳中,會使用“自研”的說法來證明自己的實力。所謂“
    的頭像 發(fā)表于 08-27 09:43 ?1151次閱讀
    <b class='flag-5'>自動駕駛</b>中常提的“<b class='flag-5'>全</b><b class='flag-5'>棧</b>”是個啥?有必要“<b class='flag-5'>全</b><b class='flag-5'>棧</b>”嗎?

    低速自動駕駛與乘用車自動駕駛在技術要求上有何不同?

    到我們生活的方方面面。與面向開放道路、高速巡航的乘用車自動駕駛系統(tǒng)相比,低速小車在技術實現(xiàn)、系統(tǒng)架構、硬件配置、軟件算法及安全冗余等方面都存在顯著差異和針對性優(yōu)化。 從感知需求方面相比,低速小車的行駛環(huán)境通常
    的頭像 發(fā)表于 07-14 09:10 ?1034次閱讀
    低速<b class='flag-5'>自動駕駛</b>與乘用車<b class='flag-5'>自動駕駛</b>在技術要求上有何不同?

    卡車、礦車的自動駕駛和乘用車的自動駕駛在技術要求上有何不同?

    ,自動駕駛技術也得到了充足的應用,但因應用場景不同,技術的側重方向也有所區(qū)別。今天就來和大家聊聊這個話題。 應用場景:開放道路vs封閉場地 首先要理解的是,自動駕駛所面對的環(huán)境決定了它的技術基礎。乘用車
    的頭像 發(fā)表于 06-28 11:38 ?1391次閱讀
    卡車、礦車的<b class='flag-5'>自動駕駛</b>和乘用車的<b class='flag-5'>自動駕駛</b>在技術要求上有何不同?

    新能源車軟件單元測試深度解析:自動駕駛系統(tǒng)視角

    。 ?自動駕駛軟件的特殊性? ? 感知層: ?激光雷達、攝像頭等傳感器數(shù)據(jù)處理算法的單元測試需覆蓋極端場景。例如,激光雷達點云濾波算法在雨雪天氣下的噪聲抑制能力需通過邊界測試驗證。某廠商曾在測試中遺漏
    發(fā)表于 05-12 15:59

    一種多模態(tài)駕駛場景生成框架UMGen介紹

    端到端自動駕駛技術的快速發(fā)展對閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術架構。然而,現(xiàn)有的駕駛場景生成方法大多側重于圖像模態(tài),忽略了其他關鍵模態(tài)的建模,如地圖信息、
    的頭像 發(fā)表于 03-24 15:57 ?1690次閱讀
    <b class='flag-5'>一種</b>多模態(tài)<b class='flag-5'>駕駛</b>場景生成框架UMGen<b class='flag-5'>介紹</b>

    理想汽車推出全新自動駕駛架構

    2025年3月18日,理想汽車自動駕駛技術研發(fā)負責人賈鵬在NVIDIA GTC 2025發(fā)表主題演講《VLA:邁向自動駕駛物理智能體的關鍵步》,分享了理想汽車對于下
    的頭像 發(fā)表于 03-19 14:12 ?1100次閱讀