国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何打造BEV + Transformer的技術架構?

Nullmax紐勱 ? 來源:Nullmax紐勱 ? 作者:Nullmax紐勱 ? 2022-11-18 14:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Nullmax感知部總監兼計算機視覺首席科學家成二康博士,前段時間做客汽車之心·行家說欄目,就行泊一體的感知能力話題進行了分享。

當中,成二康博士就自動駕駛的數據閉環以及虛擬樣本生成等數據話題進行了概括性的介紹,并對當前備受關注的BEV感知,尤其是BEV + Transformer技術架構,從總結和實踐兩方面進行了簡明易懂的闡述。

我們將成二康博士分享的主體內容進行了整理,本篇是關于BEV + Transformer的精簡介紹。目前,Nullmax已經完成了BEV感知的一系列工作,并在量產項目開始了相關技術的運用。

行泊一體是一個很熱的話題,簡單來講就是用一個域控或者嵌入式平臺同時實現行車、泊車兩大功能。因此,行泊一體的方案對于整個系統的感知架構也有著極高的要求。

比如,需要處理包括相機、毫米波雷達等多個傳感器的輸入,需要支持行泊一體中的融合、定位、規劃和感知等多個任務。尤其是視覺感知方面,需要支持360度覆蓋的相機配置,為下游的規劃、控制任務輸出目標檢測、車道線檢測等感知結果。

為此,Nullmax開發了一套強大的感知架構,它最大的優勢就在于可以同時融合時間、空間信息,很好地支持多傳感器、多任務的協同工作。

在整個感知架構的設計中,Nullmax對BEV + Transformer的技術架構進行了充分的考慮,在技術研發和項目落地兩方面同步進行了大量工作,取得了不錯進展。

在自動駕駛中,BEV(鳥瞰圖)視角下的感知輸出,能夠更好地為規劃、控制等下游任務服務,因此設計一個BEV-AI的技術架構,對于行泊一體方案來說很有意義。

這個架構的輸入,是多個相機拍攝的圖像,輸出則是自動駕駛的一系列任務,當中包含了動態障礙物的檢測和預測,靜態場景的理解,以及這兩個基礎之上的一系列下游規控任務。

1c46b1b4-6709-11ed-8abf-dac502259ad0.png

當中的挑戰就在于:圖像是二維的平面空間,但是BEV空間以及自動駕駛的車體坐標系是三維的立體空間,如何才能去實現圖像空間和三維空間的影射?

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

1、BEV-CNN架構

在傳統的CNN(卷積神經網絡)層面,天然的想法就是去做純粹的端到端方法。輸入一張圖片,直接輸出三維結果,不利用相機參數。

1c85fff4-6709-11ed-8abf-dac502259ad0.png

但是,相機對三維世界的成像遵循著一些原理,相機參數其實也能派上用場。比如,三維世界中的一個點,它可以通過相機的外參投到相機的三維坐標系中,然后再通過透視變換投到圖像平面,完成3D到2D的轉換。

在CNN當中,利用相機參數和成像原理,實現3D和2D信息關聯的方法可以總結為兩種。一種是在后端,利用3D到2D的投影,即一個光心射線上面所有的3D點都會投影到一個2D像素上,完成3D和2D信息的關聯。知名的OFT算法,就是這一類方法的代表性工作。

1cc7477a-6709-11ed-8abf-dac502259ad0.png

另外一種是在前端,讓每一個像素學習三維深度的分布,把2D空間lift成3D空間。這當中又可以細分為兩種方式,一種是隱式的學習,典型的算法有LSS,對每個點都要學一個特征,同時隱式地學習該點深度的概率分布;另一種則是顯式估計每個像素的深度,比如CaDNN。

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

2、BEV-Transformer架構

在有了Transformer之后,它天然提供了一種機制,可以利用decoder中的cross-attention(交叉注意力)機制,架接3D空間和2D圖像空間的關系。

1d7a8a7e-6709-11ed-8abf-dac502259ad0.png

BEV-Transformer的實現方式也可分為兩類,一類是通過cross-attention機制,在后端加入3D信息和2D特征的關聯,它可以進一步細分為利用相機參數、不利用相機參數兩種方式,比如Nullmax提出的BEVSegFormer,就是不利用相機參數的形式。

另一類是在前端,通過Frustum(視錐)的方式,2D特征上面直接加入3D信息,PETR的一系列工作就是這方面的研究。

1d98ec08-6709-11ed-8abf-dac502259ad0.png

此外,在BEV + Transformer的基礎上,也可以加入temporal(時間)的信息。

具體來說,就是利用temporal當中的ego motion(自運動)信息。比如,三維世界通過ego motion在后端去關聯;或者在前端,通過兩個相機坐標系之間的ego motion將3D信息疊加進去,然后在2D特征上面去做任務。

1dc6c01a-6709-11ed-8abf-dac502259ad0.png

目前BEV + Transformer的方法比較多,我們對比較主流的幾種方式做了一個簡單的總結。

1dfa47c8-6709-11ed-8abf-dac502259ad0.png

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

3、Nullmax的多相機BEV方案

Nullmax正在開發多相機BEV方案,這些工作與前述的工作有所不同,面臨一些獨特的挑戰。

1e3206cc-6709-11ed-8abf-dac502259ad0.png

當中有兩個非常關鍵的問題:一是支持任意多個相機,二是不依賴相機參數。

此前,Nullmax提出的BEVSegFormer就是當中的一項工作(現已被WACV 2023錄用),面向任意數量相機的BEV語義分割,為自動駕駛在線實時構建局部地圖。它在不利用相機參數的情況下,可以完成二維圖像和三維感知的關聯。「點擊查看詳盡解讀」

1e5d08e0-6709-11ed-8abf-dac502259ad0.png

在nuScenes數據集上,BEVSegFormer相比于HDMapNet,效果提升了10個百分點。

除此之外,顯式構建BEV是一個難點,對于空間中只有少數幾個目標的任務,例如車道線,Nullmax提出了不顯式構建BEV的方法,直接計算三維車道線的新范式。

這是Nullmax近期在3D車道線檢測方面的工作之一,通過設計sparse的curve query來完成車道線檢測。在Apollo數據集上,Nullmax的3D車道線檢測方法對比PersFormer,效果進一步提升。「點擊查看詳盡解讀」

1e9666f8-6709-11ed-8abf-dac502259ad0.png

同樣的,Nullmax也將3D目標檢測的一些工作擴展到了量產應用中,特別是在低算力平臺上進行BEV視角的檢測。比如近期交付的一個量產方案,就是用8 TOPS算力實現4個周視相機的3D障礙物檢測,當中的優化工作,非常具有挑戰。

1ec58104-6709-11ed-8abf-dac502259ad0.png

在3D障礙物檢測方面,BEV + Transformer架構融合多個相機信息,可以帶來一些明顯的優勢。

在多相機的感知系統中,如果進行障礙物檢測,比較傳統的方案是每個相機單獨工作。這會導致系統的工作量比較大,每個相機都要完成目標檢測、跟蹤、測距,還要完成不同相機的ReID(重識別)。同時,這也給跨相機的融合帶來很大挑戰,比如截斷車輛的檢測或者融合。

1efa5e6a-6709-11ed-8abf-dac502259ad0.png

如果技術架構的輸出是BEV視角,或者車體坐標下的三維感知結果的話,那么這個工作就可以簡化,準確率也能提升。

總體而言,Nullmax目前已經在基于BEV的多相機感知方面完成了系列工作,包括BEV + Transformer的局部地圖、3D車道線檢測、3D目標檢測,以及在高、中、低算力嵌入式平臺的上線。

Nullmax希望做出的BEV + Transformer架構能夠適配多個相機、不同相機,以及不同相機的選型、內參、外參等等因素,提供一個真正平臺化的產品。

1f38e5f4-6709-11ed-8abf-dac502259ad0.png

同時,我們還在進行一些這里沒有介紹的工作,包括BEV視角下的規劃控制,以及支撐BEV + Transformer技術架構的關鍵任務,比如離線的4D Auto-GT(自動化4D標注真值)。

最終,我們希望完成一套可在車端實時運行BEV + Transformer基礎架構的整體方案,同時支持感知、預測、規劃任務,并在高、中、低算力平臺上完成落地。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 嵌入式
    +關注

    關注

    5196

    文章

    20404

    瀏覽量

    333052
  • 自動駕駛
    +關注

    關注

    793

    文章

    14847

    瀏覽量

    179159
  • Transformer
    +關注

    關注

    0

    文章

    156

    瀏覽量

    6904
  • LLM
    LLM
    +關注

    關注

    1

    文章

    346

    瀏覽量

    1312

原文標題:Nullmax研習社 | 面向行泊一體,如何打造BEV + Transformer的技術架構?

文章出處:【微信號:Nullmax,微信公眾號:Nullmax紐勱】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Transformer如何讓自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer一直是非常關鍵的技術,為何Transformer在自動駕駛行業一直被提及?
    的頭像 發表于 02-01 09:15 ?3278次閱讀

    為具身智能打造“中國底座”:靈境智源德沃夏克架構榮獲高工金球獎

    在2025高工機器人年會期間,靈境智源打造的 機器人原生計算架構“德沃夏克”榮獲年度技術金球獎 。該獎項是對靈境智源在破解機器人“知行鴻溝”這一底層技術瓶頸上所取得
    的頭像 發表于 12-23 11:03 ?278次閱讀
    為具身智能<b class='flag-5'>打造</b>“中國底座”:靈境智源德沃夏克<b class='flag-5'>架構</b>榮獲高工金球獎

    自動駕駛BEV Camera數據采集系統:高精度時間同步解決方案

    波動。BEV(Bird's-Eye-View)感知技術以其尺度變化小、視角遮擋少的顯著優勢,正成為自動駕駛領域的關鍵技術,而高精度時間同步是確保BEV感知算法準確性的基礎保障。 2 時
    的頭像 發表于 12-11 17:11 ?1283次閱讀
    自動駕駛<b class='flag-5'>BEV</b> Camera數據采集系統:高精度時間同步解決方案

    自動駕駛BEV Camera數據采集:時間同步技術解析與康謀解決方案

    一、自動駕駛傳感器融合中的時間同步重要性 在自動駕駛感知體系中,BEV(Bird's-Eye-View,鳥瞰圖)感知技術憑借尺度變化小、視角遮擋少的優勢,成為環境感知的核心技術方向。BEV
    的頭像 發表于 12-11 16:36 ?993次閱讀
    自動駕駛<b class='flag-5'>BEV</b> Camera數據采集:時間同步<b class='flag-5'>技術</b>解析與康謀解決方案

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經網絡結構,最早在自然語言處理里火起來。與卷積神經網絡(CNN)或循環神經網絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態判斷哪些部分更為關鍵,同時可以將這些重要信息有效地關聯起來。
    的頭像 發表于 11-19 18:17 ?2206次閱讀

    賦能 BEV 感知課題!高校科研多傳感器時間同步方案

    在高校自動駕駛實驗室里,團隊可能常以BEV(Bird’s-EyeView)感知架構為研究主線。旨在通過相機陣列和激光雷達的數據,在空間上重建統一的車周環境,為下游檢測、分割提供高精度“語義地圖”。然而,一旦相機間的時間同步存在幾十毫秒及以上的
    的頭像 發表于 11-14 17:32 ?2919次閱讀
    賦能 <b class='flag-5'>BEV</b> 感知課題!高校科研多傳感器時間同步方案

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    %,使用的參數減少了15%。 3.2 LighrSeq2 LighrSeq2 提出了三種加速Transformer模型訓練的技術。 ①針對所有的Transformer模型,LightSeq2將融合的內核
    發表于 09-12 17:30

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這一話題一直被
    的頭像 發表于 08-13 09:15 ?4130次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度學習嗎?

    Transformer在端到端自動駕駛架構中是何定位?

    典型的Transformer架構已被用于構建“感知-規劃-控制統一建模”的方案。如Waymo和小馬智行正在研發的多模態大模型(MultimodalLargeModels,MLLMs),將來自攝像頭
    的頭像 發表于 08-03 11:03 ?1330次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    一、模型架構 在閱讀第三章關于 DeepSeek 的模型架構部分時,我仿佛打開了一扇通往人工智能核心構造的大門。從架構圖中,能清晰看到 Transformer 塊、前饋神經網絡、注意力
    發表于 07-20 15:07

    淺析4D-bev標注技術在自動駕駛領域的重要性

    ?自動駕駛技術的發展日新月異。從最初簡單的輔助駕駛功能,逐步邁向高度自動化甚至完全自動駕駛的階段。其中,海量且精準的數據是訓練高性能自動駕駛模型的基石。4D-BEV(四維鳥瞰視角)標注技術作為環境
    的頭像 發表于 06-12 16:10 ?2080次閱讀

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的上下文。
    的頭像 發表于 06-10 14:27 ?1035次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構</b>中編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現和快速發展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發表于 06-10 14:24 ?1253次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構</b>概述

    谷歌打造通用AI助手的愿景

    在過去的十年中,我們為現代 AI 時代奠定了許多基礎,從率先提出所有大型語言模型賴以構建的 Transformer 架構,到開發 AlphaGo 和 AlphaZero 等可以學習和規劃的智能體系統。
    的頭像 發表于 05-23 14:48 ?961次閱讀

    正力新能助力零跑汽車打造全球平價智能電動車標桿

    近日,零跑汽車召開預售發布會,正式宣布旗下首款全球化戰略車型?零跑B10?預售上市。新車定位純電緊湊型SUV,基于LEAP 3.5技術架構打造,配套正力新能高性能BEV電芯,憑借全球化
    的頭像 發表于 03-12 14:53 ?1186次閱讀