基于神經(jīng)網(wǎng)絡(luò)/大模型的自動(dòng)駕駛算法

1、自動(dòng)駕駛——數(shù)據(jù)驅(qū)動(dòng)下的算法迭代

1.1、自動(dòng)駕駛算法是感知、預(yù)測、規(guī)劃、控制的結(jié)合體

自動(dòng)駕駛算法反應(yīng)了工程師們根據(jù)人的思維模式，對自動(dòng)駕駛所需處理過程的思考。通常包含感知、預(yù)測、規(guī)劃模塊，同時(shí)輔助一些地圖、定位等模塊，實(shí)現(xiàn)自動(dòng)駕駛功能的落地。

1.1.1、感知：感知外部世界

感知模塊主要解決四類任務(wù)：（1）檢測：找出物體在環(huán)境中的位置；（2）分類：明確對象是什么，如分辨不同類別交通標(biāo)志；（3）跟蹤：隨著時(shí)間的推移觀察移動(dòng) 物體，通常采用跨幀追蹤對象（將不同幀中檢測到的對象進(jìn)行匹配）、BEV 加入時(shí)序信息等實(shí)現(xiàn)；（4）語義分割：將圖像中的每個(gè)像素與語義類別匹配，如道路、天空、汽車等，用于盡可能詳細(xì)了解環(huán)境。以 Apollo 感知算法框架為例，其算法包含預(yù)處理、神經(jīng)網(wǎng)絡(luò)模型、后處理等模塊。首先圖像預(yù)處理主要是對圖像進(jìn)行調(diào)整、畸變校正等，使之更符合機(jī)器學(xué)習(xí)的要求。其次分別對紅綠燈、車道線、障礙物等特征進(jìn)行檢測，其中紅綠燈通過檢測邊框、顏色等進(jìn)行進(jìn)一步的識別；障礙物則經(jīng)過 2D 到 3D 的轉(zhuǎn)換，得出真實(shí)的信息坐標(biāo)，再融合車道線檢測信息、外部傳感器信息等得出真實(shí)世界的障礙物信息。該部分通常采用全卷積神經(jīng)網(wǎng)絡(luò)或者 YOLO 等算法實(shí)現(xiàn)。

1.1.2、預(yù)測：理解外部環(huán)境和當(dāng)前狀態(tài)

預(yù)測模塊實(shí)際上是算法對外部環(huán)境和自車狀態(tài)的理解。預(yù)測模塊首先收集感知模塊輸入的車道線、障礙物、紅綠燈、地圖、定位等信息對主車的狀況進(jìn)行判斷。其次場景感知模塊對外部障礙物的優(yōu)先級、路權(quán)等外部環(huán)境對主車的影響進(jìn)行感知。評估器則會(huì)根據(jù)場景信息和障礙物信息判斷出障礙物的軌跡或意圖。預(yù)測器則根據(jù) 短期的預(yù)測軌跡和意圖判斷障礙物等外部環(huán)境相對長期的軌跡。這將為未來汽車的規(guī)劃提供重要的參考。算法層面通常以 RNN 為主。

1.1.3、規(guī)劃：思考如何行動(dòng)

規(guī)劃指找到合理路徑來到達(dá)目的地。規(guī)劃通常分為全局路徑規(guī)劃、行為規(guī)劃與運(yùn)動(dòng)規(guī)劃幾個(gè)部分。其中，全局路徑規(guī)劃指智能汽車依靠地圖規(guī)劃出理想狀態(tài)下到達(dá)目的地的路徑。行為規(guī)劃則是主車在實(shí)際行駛的過程中，面臨實(shí)時(shí)的交通環(huán)境，做出的各類駕駛行為，如跟車、換道、避讓等。運(yùn)動(dòng)規(guī)劃生成與駕駛行為對應(yīng)的駕駛軌跡，包含路徑規(guī)劃和速度規(guī)劃。最后再采用一些優(yōu)化方式讓變道加速等行為變得平順以滿足舒適性要求。算法層面，通常采用基于規(guī)則的規(guī)劃決策算法，前沿的玩家也開始引入機(jī)器學(xué)習(xí)等方式，以提升決策效能。

1.2、數(shù)據(jù)：算法的養(yǎng)料，現(xiàn)實(shí)與虛擬的交織

算法、算力和數(shù)據(jù)是人工智能的三大要素，數(shù)據(jù)在模型訓(xùn)練中擁有不可忽視的影響。一方面，Transformer 等大模型在大體量數(shù)據(jù)集訓(xùn)練下才能表現(xiàn)更佳的特性帶來其對訓(xùn)練端數(shù)據(jù)的要求激增，特斯拉在 2022 年 AI DAY 上曾表示，訓(xùn)練其占用網(wǎng) 絡(luò)采用了 14 億幀圖像數(shù)據(jù)。另一方面，由于自動(dòng)駕駛面臨的場景紛繁復(fù)雜，諸多長尾問題需要在現(xiàn)實(shí)或虛擬場景中獲取。因此數(shù)據(jù)閉環(huán)在自動(dòng)駕駛領(lǐng)域彌足重要。毫末智行將數(shù)據(jù)作為“自動(dòng)駕駛能力函數(shù)”的自變量，認(rèn)為是決定能力發(fā)展的關(guān)鍵， Momenta 也曾表示，L4 要實(shí)現(xiàn)規(guī)模化，至少要做到人類司機(jī)的安全水平，最好比人類司機(jī)水平高一個(gè)數(shù)量級，因此需要至少千億公里的測試，解決百萬長尾問題。

數(shù)據(jù)挖掘和針對性的訓(xùn)練能顯著減少 Corner Case。以特斯拉為例，在面臨一個(gè) 看起來像臨時(shí)停車但實(shí)際上是永久停車的場景時(shí)，最初算法會(huì)將其判定為臨時(shí)停車。當(dāng)特斯拉通過數(shù)據(jù)挖掘在訓(xùn)練集中增加了 1.4 萬個(gè)類似場景的視頻并訓(xùn)練模型后，神經(jīng)網(wǎng)絡(luò)便理解了這輛車?yán)锩鏇]有司機(jī)，將其判別為永久停車。

2、大模型橫空出世，自動(dòng)駕駛奇點(diǎn)來臨

早期自動(dòng)駕駛方案采用激光雷達(dá)+高精度地圖為主。早期市場以傳統(tǒng)計(jì)算機(jī)視覺和專家系統(tǒng)為基礎(chǔ)構(gòu)建輔助駕駛功能，隨后人工智能的蓬勃發(fā)展讓深度學(xué)習(xí)在自動(dòng) 駕駛領(lǐng)域被廣泛使用，以 waymo 為代表的自動(dòng)駕駛先驅(qū)玩家開創(chuàng)了激光雷達(dá)+高精度地圖的感知范式，Cruise、百度等巨頭紛紛效仿。該方案中，對道路結(jié)構(gòu)、車道線等靜態(tài)環(huán)境元素的感知強(qiáng)依賴高精度地圖，而實(shí)時(shí)的動(dòng)靜態(tài)障礙物信息則強(qiáng)依賴激光雷達(dá)。高精地圖成為一項(xiàng)“基礎(chǔ)設(shè)施”，將很多在線難以解決的問題提前存儲(chǔ)到地圖數(shù)據(jù)中，行車時(shí)作為一項(xiàng)重要的感知數(shù)據(jù)來源，減輕傳感器和控制器的壓力。由于該方案只能在有圖地區(qū)行駛，也被一些人形象的稱為“有軌電車”。

高昂的單車成本和高精度地圖成為自動(dòng)駕駛大規(guī)模推廣瓶頸。Robotaxi 成本高昂（Yole 統(tǒng)計(jì)早期 Waymo 為代表的的自動(dòng)駕駛汽車改裝成本約為 20 萬美元），高精度地圖采集制作以及合規(guī)要求繁雜（量產(chǎn)落地過程中，高精度地圖面臨：采集成本高；人工修圖制圖費(fèi)時(shí)費(fèi)力；地圖鮮度不足；國內(nèi)法規(guī)嚴(yán)格等困難），帶來該方案的泛化性較差。經(jīng)過數(shù)十年的發(fā)展，Robotaxi 的使用范圍仍被限制在特定區(qū)域，使用對象也僅局限在商用車領(lǐng)域。市場亟待出現(xiàn)一種單車性能強(qiáng)大、成本低廉的自動(dòng)駕駛解決方案。

2.1、 BEV+Transformer 橫空出世，大模型推動(dòng)自動(dòng)駕駛邁向普及

2021 年特斯拉推出 BEV+transformer、重感知輕地圖的自動(dòng)駕駛解決方案，開啟了自動(dòng)駕駛行業(yè)新的篇章。

2.1.1、 BEV 感知助力成為感知外部世界標(biāo)準(zhǔn)范式

BEV 全稱為 Bird’s Eye-View（鳥瞰圖），即通過神經(jīng)網(wǎng)絡(luò)將各個(gè)攝像頭和傳感器獲取的信息進(jìn)行融合，生成基于俯視的“上帝視角”的鳥瞰圖，同時(shí)加入時(shí)序信息，動(dòng)態(tài)的對周邊環(huán)境進(jìn)行感知輸出，便于后續(xù)預(yù)測規(guī)劃模塊使用。正如人類一樣，駕駛行為需要將各處觀察到的信息綜合到統(tǒng)一的空間中，來判別什么地方是可以行駛的區(qū)域。究其原因，駕駛行為是在 3D 空間中的行為，而鳥瞰圖則是將 2D 的透視空間圖像轉(zhuǎn)換為 3D 空間，不存在距離尺度問題和遮擋問題，使得算法可以直觀的判斷車輛在空間中的位置以及與其他障礙物之間的關(guān)系。

2.1.2、 Transformer 大模型為構(gòu)建 BEV 空間提供最優(yōu)解

2021 年特斯拉在 AI Day 上第一次將 BEV+transformer 的算法形式引入到自動(dòng) 駕駛，開啟了自動(dòng)駕駛的嶄新時(shí)代。首先 BEV 空間的構(gòu)建，實(shí)際上就是尋找一種恰當(dāng)?shù)姆绞?，將多個(gè) 2D 的圖像和傳感器信息綜合轉(zhuǎn)化成為一個(gè) 3D 的向量空間。經(jīng)過多次嘗試，特斯拉最終引入了 Transformer 大模型來實(shí)現(xiàn)這一轉(zhuǎn)換。 Transformer 大模型是近年人工智能領(lǐng)域的熱門算法，其主要通過注意力機(jī)制來分析關(guān)注元素之間的關(guān)系進(jìn)而理解外部世界。早年被應(yīng)用于自然語言處理領(lǐng)域，后續(xù)延展到計(jì)算機(jī)視覺等多個(gè)方向。算法的優(yōu)勢顯著：

具有更好的全局信息感知能力：Transformer 模型更關(guān)注圖像特征之間的關(guān) 系，因此會(huì)跟多關(guān)注整個(gè)圖像的信息，卷積神經(jīng)網(wǎng)絡(luò)更多關(guān)注固定大小區(qū) 域的局部信息，因此 Transformer 在面對圖像中長程依賴性的問題擁有更好的表現(xiàn)。

天花板高企適用于大規(guī)模數(shù)據(jù)訓(xùn)練場景：在圖像識別能力方面，Transformer 擁有更高的上限，隨著訓(xùn)練數(shù)據(jù)量的增長，傳統(tǒng) CNN 模型識別能力呈現(xiàn)飽和態(tài)勢，而 Transformer 則在數(shù)據(jù)量越大的情況下?lián)碛懈玫谋憩F(xiàn)。而自動(dòng) 駕駛洽洽為面向海量的數(shù)據(jù)場景，要求有足夠好的精度的場景。

擁有多模態(tài)感知能力：Transformer 可實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的處理，應(yīng)對圖像分類、目標(biāo)檢測、圖像分割功能，并實(shí)現(xiàn)對 3D 點(diǎn)云、圖像等數(shù)據(jù)的融合處理。

靈活、較好的泛化性能：Transformer 可適用于不同大小的輸入圖像，同時(shí) 外部環(huán)境包含擾動(dòng)的情況下仍能保持較好的檢測性能。

但 CNN 網(wǎng)絡(luò)在提取底層特征和視覺結(jié)構(gòu)方面有比較大的優(yōu)勢，而在高層級的視覺語義理解方面，需要判別這些特征和結(jié)構(gòu)之間的如何關(guān)聯(lián)而形成一個(gè)整體的物體，采用 Transformer 更加自然和有效。同時(shí) CNN 也擁有更好的效率，可以采用更低的算力實(shí)現(xiàn)效果。因此業(yè)界通常會(huì)將 CNN 和 Transformer 結(jié)合來進(jìn)行物體識別。

2.1.3、特斯拉引領(lǐng)打開自動(dòng)駕駛天花板

特斯拉的自動(dòng)駕駛算法結(jié)構(gòu)中，首先將攝像頭信息無損采集，送入卷積神經(jīng)網(wǎng) 絡(luò) Regnet 來提取不同尺度的圖像特征，接著使用 BiFPN 進(jìn)行特征融合，然后將這些特征送入 Transformer 模塊，利用 Transformer 中的多頭注意力機(jī)制來實(shí)現(xiàn) 2D 圖像特征到三維向量空間的轉(zhuǎn)換和多攝像頭特征系信息的融合，之后接入不同的“頭”如交通標(biāo)志檢測、障礙物檢測等，來實(shí)現(xiàn)不同任務(wù)的處落地，形成一套優(yōu)雅的，可完美實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的感知算法。由于不同的“頭”之間采用了共享的特征提取網(wǎng)絡(luò)，因此被特斯拉起名為“九頭蛇”算法架構(gòu)。

特斯拉的 BEV+Transformer 算法中兩個(gè)環(huán)節(jié)尤為關(guān)鍵：

（1）2D 圖像到 3D 空間的轉(zhuǎn)換以及圖像融合：在 2D 圖像到 3D 向量空間轉(zhuǎn)換的環(huán)節(jié)，特斯拉在行業(yè)內(nèi)首次引入了 Transformer。具體而言，先構(gòu)建一個(gè)想要輸出的三維的柵格空間，并對其進(jìn)行位置編碼成為查詢向量（Query），然后將每個(gè)圖像和自己的特征輸出相應(yīng)的查詢鍵碼（Key）和值（Value），最終輸入到注意力機(jī)制中輸出想要的結(jié)果。類似于每個(gè)圖像中的特征都廣播自己是什么物體的一部分，而每個(gè)輸出空間的位置像素像拼圖一樣，尋找對應(yīng)的特征，最終構(gòu)建出希望輸出的向量空間。（Query、Key、Value 分別為 Transformer 算法中的參數(shù)，通過將外部世界轉(zhuǎn)化為參數(shù)而實(shí)現(xiàn)信息處理和任務(wù)輸出）

（2）加入時(shí)序信息，讓算法擁有“記憶”：為了讓自動(dòng)駕駛算法擁有類似一段時(shí)間內(nèi)“記憶”的能力，特斯拉在感知網(wǎng)絡(luò) 架構(gòu)中加入了時(shí)空序列特征層。通過引入慣性導(dǎo)航傳感器獲取的包含速度和加速度等自車運(yùn)動(dòng)的信息，算法模型可獲取時(shí)間和空間的記憶能力。具體而言，特斯拉給算法加入特征隊(duì)列模塊（Feature Queue），他會(huì)緩存一些特征值（包含歷史幀的 BEV 特征、慣導(dǎo)傳感器信息等），便于了解車輛行動(dòng)，這個(gè)序列包含時(shí)間和空間記憶。然后引入視頻模塊（Video Module）使用空間循環(huán)神經(jīng)網(wǎng)絡(luò)（Spatial RNN）/transformer 等算法將前述緩存的特征進(jìn)行融合，關(guān)聯(lián)前后時(shí)刻信息，使得模型具有記憶能力，讓自動(dòng)駕駛汽車將同時(shí)能夠記住上一段時(shí)間和上一段位置的檢測信息。

2.1.4、 BEV+Transformer 大模型提供遠(yuǎn)強(qiáng)于傳統(tǒng)自動(dòng)駕駛算法的感知能力

（1）改善 2D-3D 空間轉(zhuǎn)換過程中深度預(yù)測難點(diǎn)，感知性能大幅提升

引入 BEV+Transformer 后，模型對于 2D 空間向 3D 空間轉(zhuǎn)換的精度大幅提高。構(gòu)建 BEV 模型一大重要任務(wù)是實(shí)現(xiàn) 2D 圖片到 3D 空間的轉(zhuǎn)換，通常業(yè)內(nèi)有四大類方式實(shí)現(xiàn) 2D-3D 視角轉(zhuǎn)換：早期通常以基于相機(jī)內(nèi)外參數(shù)（焦距、光芯、俯仰角、偏航角和地面高度）的幾何變換的 IPM（逆透視變換）實(shí)現(xiàn)，由于該方式基于地面純平、俯仰角一定的假設(shè)，約束條件實(shí)現(xiàn)難度高；后續(xù)英偉達(dá)推出 BEV 行業(yè)的開山之作LSS算法，但由于其計(jì)算量龐大以及精度仍然有限，難以支撐BEV的真正落地；其后學(xué)界業(yè)界探索了眾多方案，包含基于神經(jīng)網(wǎng)絡(luò)，通過監(jiān)督學(xué)習(xí)數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn) BEV 空間構(gòu)建等方式，但深度估計(jì)的精度均不盡人意。2021 年，特斯拉首次將 Transformer 應(yīng)用于 BEV 空間的構(gòu)建，在多攝像頭視角下，相比傳統(tǒng)感知方式，大幅提升了感知精度，該方案推出后也迅速被業(yè)界廣泛追捧。

（2）完美實(shí)現(xiàn)多攝像頭、多傳感器的信息融合，極大方便后續(xù)規(guī)控任務(wù)

BEV+Transformer 實(shí)際上引入“特征級融合”（中融合）方式。通常自動(dòng)駕駛汽車擁有 6-8 個(gè)攝像頭以及其他多種傳感器，在感知過程中，需要將各類傳感器的信息進(jìn)行融合。傳感器融合大體可分為幾大類：

數(shù)據(jù)級融合（前融合）：直接將傳感器采集的數(shù)據(jù)如圖像和點(diǎn)云融合。該方案優(yōu)勢在于數(shù)據(jù)損失少，融合效果好，但時(shí)間同步、空間同步要求達(dá)到像素級別，難度較高，需要對每個(gè)像素計(jì)算，對算力消耗大，目前少有使用。

目標(biāo)級融合（后融合）：將每個(gè)傳感器采集信息并處理后的目標(biāo)進(jìn)行融合。該方案是此前自動(dòng)駕駛主流采用的方案，被廣泛應(yīng)用于攝像頭之間、不同傳感器之間的信息融合。優(yōu)勢在于算法簡單、解耦性好即插即用。但也存在致命問題，由于融合前的處理損失了大量關(guān)鍵信息，影響感知精度，融合結(jié)果容易沖突或錯(cuò)誤。此外后融合中的融合算法仍然基于規(guī)則，無法進(jìn) 行數(shù)據(jù)驅(qū)動(dòng)，存在局限性。

特征級融合（中融合）：則將原始傳感器采集的數(shù)據(jù)經(jīng)過特征提取后再將特征向量進(jìn)行融合。該方案的優(yōu)勢在于，數(shù)據(jù)損失少、將目標(biāo)“分解”為特征，更容易在不同相機(jī)和傳感器之間關(guān)聯(lián)，融合效果好。在 BEV+transformer 算法中實(shí)際上均采用中融合的方式。

以路過大型卡車場景為例，障礙物某個(gè)時(shí)刻在 5 個(gè)攝像頭中同時(shí)出現(xiàn)，且每個(gè) 攝像頭只能觀察到車的某個(gè)部分。傳統(tǒng)算法通常會(huì)分別在每個(gè)攝像頭內(nèi)完成檢測，再融合各攝像頭的結(jié)果。通過部分信息識別出卡車整體的特征及其困難，且一旦完成物體檢測，相當(dāng)于“腦補(bǔ)”了看不到的部分，誤差較大拼接困難，經(jīng)常會(huì)識別為多個(gè)目標(biāo)或漏檢。而 BEV+Transformer 通過特征級融合，完美生成鳥瞰視角下的場景，并且識別精度更高。

（3）更易融入時(shí)序信息，模型擁有“記憶”，避免遮擋等問題

感知算法中，時(shí)序融合能夠大幅提升算法連續(xù)性，對障礙物的記憶可解決遮擋問題，更好的感知速度信息，對于道路標(biāo)志的記憶可提升駕駛安全和對汽車車輛行為預(yù)測的準(zhǔn)確度，增強(qiáng)算法的可靠性和精度。在 BEV+transformer 算法中，由于所有的感知被統(tǒng)一到 3D 鳥瞰圖空間，通過將不同時(shí)間和不同位置的特征關(guān)聯(lián)可很容易的實(shí)現(xiàn)時(shí)序信息的融合。如在面對遮擋場景時(shí)，帶有時(shí)序信息的自動(dòng)駕駛算法感知效果遠(yuǎn)優(yōu)于基于單幀圖像感知的算法。同時(shí)也更便于下游的規(guī)劃控制算法實(shí)現(xiàn)對障礙物的追蹤。

（4）汽車擁有實(shí)時(shí)建圖能力，擺脫對高精度地圖的依賴

BEV+Transformer 算法可在車端實(shí)時(shí)構(gòu)建媲美高精地圖的高精度局部地圖，能夠在任意常規(guī)道路條件下，實(shí)現(xiàn)自動(dòng)駕駛所需的靜態(tài)場景深刻理解，然后以此為基礎(chǔ)，端到端的輸出障礙物的軌跡和速度、車道線信息等，實(shí)現(xiàn)復(fù)雜場景下的自動(dòng)駕駛應(yīng) 用，而不需要依賴高精地圖。使得算法的泛化性大幅提升，成本也大幅下降。

2.2、占用網(wǎng)絡(luò)提供 3D 世界感知，形成通用障礙物識別能力

占用網(wǎng)絡(luò)構(gòu)建通用障礙物感知體系，提升對未知物體感知效果。直接在矢量空間產(chǎn)生統(tǒng)一的體積占用數(shù)據(jù)，對于車子周圍任意的一個(gè) 3D 位置，它預(yù)測了該位置被占用的概率，對每個(gè)位置它還會(huì)產(chǎn)生一定的語義信息比如路邊、汽車、行人、或者路上的碎片等等，用不同的顏色標(biāo)出，同時(shí)觀測速度信息，形成“占用柵格”+“柵格流（描述速度信息）”+弱語義的表達(dá)形式。對特斯拉而言，即將原有 Transformer 算法輸出的 2DBEV+時(shí)序信息的向量空間增加高度信息，形成 3DBEV+時(shí)序信息的 4D 空間表達(dá)形式。網(wǎng)絡(luò)在 FSD 上每 10ms 運(yùn)行一次，即以 100FPS 的速度運(yùn)行，模型檢測速度大幅提升。

占用網(wǎng)絡(luò)優(yōu)勢顯著：（1）其改變了神經(jīng)網(wǎng)絡(luò)算法先“認(rèn)識”才能“識別”的特性，形成了動(dòng)靜態(tài)物體統(tǒng)一的障礙物感知方式，可大幅減少 Corner case，提升安全性。（2）擺脫檢測框的約束，對不規(guī)則外形障礙物的感知能力大大增強(qiáng)。（3）對特斯拉來說，通用障礙物感知能力可以復(fù)用到其他產(chǎn)品如機(jī)器人上，形成了統(tǒng)一的算法框架。

占用網(wǎng)絡(luò)的構(gòu)建并非單獨(dú)算法上得演進(jìn)，而是體系能力的提升。3D 空間的距離真值獲取實(shí)際上較為困難，即使擁有激光雷達(dá)，其稀疏的點(diǎn)云信息仍然難以滿足占用網(wǎng)絡(luò)的訓(xùn)練需求，而由于仿真環(huán)境中距離真值信息可以直接獲取，因此占用網(wǎng)絡(luò) 的構(gòu)建幾乎和強(qiáng)大的仿真場景構(gòu)建相輔相成。

2.3、規(guī)控算法由基于規(guī)則邁向基于神經(jīng)網(wǎng)，大模型開始嶄露頭角

2.3.1、人工智能逐步滲透進(jìn)入規(guī)控算法

發(fā)力安全性、舒適性和效率，規(guī)控算法成為當(dāng)前頭部玩家主攻方向。人能夠基于非常有限的感知信息完美實(shí)現(xiàn)駕駛行為，很大程度因?yàn)槿祟悡碛袕?qiáng)大的“規(guī)控” 能力。對自動(dòng)駕駛而言，采取一種讓安全性、舒適性和效率都達(dá)到最大化的駕駛策略無疑是各大廠商不懈追求的目標(biāo)。而該環(huán)節(jié)也直接決定了自動(dòng)駕駛功能的消費(fèi)者體驗(yàn)，目前頭部玩家已經(jīng)將主攻方向轉(zhuǎn)移到規(guī)控算法領(lǐng)域。

“擬人化”、強(qiáng)泛化性，人工智能推動(dòng)自動(dòng)駕駛“老司機(jī)”上線。規(guī)控算法的難度較高，存在諸多非確定（如輔路與干道沒有綠化帶隔離，輔路的車輛可隨時(shí)進(jìn)入干道）、強(qiáng)交互（如多個(gè)物體在同一場環(huán)境下決策會(huì)相互影響，存在一定博弈性）、強(qiáng)主觀（如駕駛員的駕駛風(fēng)格，很難用有限標(biāo)準(zhǔn)量化表示）的場景。同時(shí)涉及交通法規(guī)等一系列問題。早年的算法通常采用基于專家知識和規(guī)則的模式為主，由于基于規(guī)則的系統(tǒng)需要不斷補(bǔ)充新的規(guī)則以實(shí)現(xiàn)對各類環(huán)境的良好應(yīng)付，日積月累代碼量龐大，占用算力資源，且不易維護(hù)。因此依靠數(shù)據(jù)驅(qū)動(dòng)的基于人工智能的規(guī)控算法日益走向臺(tái)前。面對復(fù)雜的外部環(huán)境，人工智能模型能夠更加平滑的以“類人”的方式對駕駛行為進(jìn)行處理，泛化能力強(qiáng)、舒適性好，應(yīng)對復(fù)雜場景的能力大幅提升。

兼顧“安全”和“性能”，神經(jīng)網(wǎng)絡(luò)和基于規(guī)則結(jié)合有望成為一段時(shí)期內(nèi)規(guī)控算法的主流。小鵬汽車自動(dòng)駕駛負(fù)責(zé)人吳新宙曾表示，基于大數(shù)據(jù)和深度學(xué)習(xí)的算法在規(guī)控領(lǐng)域的滲透會(huì)越來越深，預(yù)計(jì)未來整個(gè)框架都將基于深度學(xué)習(xí)為基礎(chǔ)，但基于規(guī)則的算法也會(huì)長期存在，因?yàn)橐?guī)控算法的可解釋性很重要。基于神經(jīng)網(wǎng)絡(luò)的規(guī)控算法有諸多優(yōu)勢，但目前如訓(xùn)練過程中數(shù)據(jù)的清洗、一致性；面向一些小場景特定的算法調(diào)整；可解釋性差等問題仍客觀存在。因此諸多玩家目前仍采用以人工智能和基于規(guī)則結(jié)合的方式來部署規(guī)控算法，制定一些規(guī)則來對人工智能產(chǎn)生的行為進(jìn)行兜底，實(shí)現(xiàn)較好的規(guī)控效果，未來隨著人工智能能力的提升，規(guī)控算法人工智能化已經(jīng)成為大勢所趨。交互搜索+評估模型，特斯拉規(guī)控算法行止有效。在規(guī)控方面，特斯拉采用交互搜索+評估模型的方式實(shí)現(xiàn)舒適、有效以及傳統(tǒng)搜索算法和人工智能的結(jié)合的算法。具體如下：（1）決策樹生成：首先根據(jù)車道線、占用網(wǎng)絡(luò)、障礙物等得到候選目標(biāo)，生成一些候選目標(biāo)；（2）軌跡規(guī)劃：通過傳統(tǒng)搜索和神經(jīng)網(wǎng)絡(luò)的方式同步構(gòu)建抵達(dá) 上述目標(biāo)的軌跡；（3）交互決策：預(yù)測自車以及場景中其他參與者之間的相互作用，形成新的軌跡，經(jīng)過多次評估選擇最后軌跡。在軌跡生成階段，特斯拉采用了基于傳統(tǒng)搜索算法和基于神經(jīng)網(wǎng)絡(luò)兩種形式，之后根據(jù)碰撞檢查、舒適性分析、駕駛員接管可能性和與人的相似程度等對生成的軌跡打分，決定走哪條路線。基于這種方式有效的將道路參與者的博弈考慮在內(nèi)，同時(shí)完美將基于規(guī)則和基于人工智能結(jié)合，呈現(xiàn)出強(qiáng)大競爭力。

2.3.2、大模型賦能，車道線預(yù)測等復(fù)雜任務(wù)得以實(shí)現(xiàn)

復(fù)雜道路的車道拓普結(jié)構(gòu)識別難度較高。自動(dòng)駕駛車輛在行駛過程中需要明確自車的道路情況和車道線拓?fù)淝闆r，以此來決定如何規(guī)劃自己的行駛軌跡。但當(dāng)車道線模糊，或者十字路口等場景下，需要算法自己計(jì)算出車道線情況，來指導(dǎo)自身的自動(dòng)駕駛行為。我們看到一些玩家針對這樣的場景做出了優(yōu)化，來完美應(yīng)對各類突發(fā)情況，產(chǎn)業(yè)算法不斷進(jìn)化和成熟。

特斯拉采用訓(xùn)練語言模型的形式來訓(xùn)練車道線網(wǎng)絡(luò)模型。車道線網(wǎng)絡(luò)實(shí)際上是嫁接在感知網(wǎng)絡(luò)上的一個(gè) Transformer 的解碼器（Decoder）。參考自然語言處理任務(wù) 中的形式，讓模型用自回歸（綜合上個(gè)環(huán)節(jié)的結(jié)果輸出下個(gè)環(huán)節(jié)的內(nèi)容）的方式輸出車道線的預(yù)測結(jié)果。具體而言，將車道線包含節(jié)點(diǎn)位置、節(jié)點(diǎn)屬性（起點(diǎn)、終點(diǎn)、中間點(diǎn)等）、分叉點(diǎn)、交叉點(diǎn)等進(jìn)行編碼，形成類似語言模型中單詞的屬性，輸入 Transformer 解碼器中，將信息轉(zhuǎn)化成為“車道線語言”，去生成下個(gè)階段的結(jié)果，進(jìn) 而形成整個(gè)路網(wǎng)的車道線的拓?fù)浣Y(jié)構(gòu)。

理想汽車在理想家庭日上也展示了其用于增強(qiáng)路口性能的算法 NPN 神經(jīng)先驗(yàn) 網(wǎng)絡(luò)。為了解決大模型在十字路口不穩(wěn)定的問題，對復(fù)雜路口，提前進(jìn)行路口的特征提取和存儲(chǔ)，當(dāng)車輛再次行駛到路口時(shí)刻，將過去提取好的特征和 BEV 感知大模型融合，形成更加完美的感知結(jié)果。

2.4、端到端（感知決策一體化）：大模型為自動(dòng)駕駛徹底實(shí)現(xiàn)帶來希望

2.4.1、回歸自動(dòng)駕駛第一性原理，端到端自動(dòng)駕駛成為市場遠(yuǎn)期共識

模塊化的自動(dòng)駕駛算法設(shè)計(jì)存在諸多問題。前述文章中提到的感知、預(yù)測、規(guī) 劃等環(huán)節(jié)的算法稱為模塊化算法設(shè)計(jì)，這些方案中每個(gè)模塊獨(dú)立負(fù)責(zé)單獨(dú)的子任務(wù)，這種方案具備簡化研發(fā)團(tuán)隊(duì)分工，便于問題回溯，易于調(diào)試迭代等優(yōu)點(diǎn)。但由于將不同任務(wù)解耦，各個(gè)模塊之間容易產(chǎn)生信息損失問題，且多個(gè)模塊間優(yōu)化目標(biāo)不一致，最后模塊間產(chǎn)生的誤差會(huì)在模型中傳遞。端到端自動(dòng)駕駛解決方案回歸自動(dòng)駕駛第一性原理。因此業(yè)界也一直在探索端到端的自動(dòng)駕駛算法形式，即設(shè)計(jì)一個(gè)算法模型，直接輸入傳感器感知的信息，輸出控制結(jié)果。端到端的自動(dòng)駕駛算法擁有非常明顯的優(yōu)勢：（1）其遵循了自動(dòng)駕駛的第一性原理：即無論感知、規(guī)劃、決策模塊如何設(shè)計(jì)，最終是為了實(shí)現(xiàn)更好的自動(dòng)駕駛效果，因此現(xiàn)有的方法聚焦單獨(dú)某個(gè)模塊的優(yōu)化，對整體的效果提升未必有效。（2）端到端的方式可避免極聯(lián)誤差，去掉冗余信息，提升視覺信息的表達(dá)。（3）傳統(tǒng)模塊化的算法中需要面臨模型之間的多個(gè)編解碼環(huán)節(jié)，帶來的計(jì)算的冗余浪費(fèi)。（4）規(guī)則驅(qū)動(dòng)徹底轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng)，理想狀態(tài)下讓汽車自動(dòng)駕駛模型訓(xùn)練變得簡潔。

2.4.2、工業(yè)界已經(jīng)開啟探索，邁向完全自動(dòng)駕駛

目前全球無論學(xué)術(shù)界還是工業(yè)界均對該方案進(jìn)行了不懈探索。如英偉達(dá) 2016 年即提出端到端的自動(dòng)駕駛解決方案，而 Uber 更多次發(fā)相關(guān)的論文探索有關(guān)算法。最新的 CVPR2023 上商湯、OpenDriveLab、地平線等聯(lián)合發(fā)布的端到端的自動(dòng)駕駛算法 UniAD，獲得了當(dāng)年的最佳論文。其采用 Transformer 將感知、決策、規(guī)劃、控制模塊都融入到一個(gè)模型中，端到端的處理自動(dòng)駕駛問題，能夠呈現(xiàn)出最佳的運(yùn)行效果。

目前英國初創(chuàng)公司 Wayve 亦致力于開發(fā)端到端的自動(dòng)駕駛系統(tǒng)，致力于讓汽車通過自己的計(jì)算機(jī)視覺平臺(tái)“自己看世界”，同時(shí)可以根據(jù)它所看到的東西做出自己的決定。馬斯克也曾在推特上表示，其 FSD V12 版本將是一個(gè)端到端的自動(dòng)駕駛模型。

2.4.3、大模型的思考，自動(dòng)駕駛或許并非終點(diǎn)

通識知識和強(qiáng)泛化能力助力人類輕松學(xué)會(huì)駕駛。人類可以在短時(shí)間內(nèi)學(xué)會(huì)駕駛，但機(jī)器則需要海量的數(shù)據(jù)和訓(xùn)練。可能的原因在于人類在學(xué)習(xí)駕駛之前就已經(jīng)充分對整個(gè)世界有了全面的認(rèn)知，并可以將這些認(rèn)識泛化到各類場景下。如在學(xué)校附近應(yīng)該減速、遇到老人應(yīng)當(dāng)小心等，面對形狀怪異的紅綠燈人類幾乎不加思考就可理解其想表達(dá)的意思。通識知識，強(qiáng)泛化能力可以對自動(dòng)駕駛行為產(chǎn)生重大幫助。 GPT 受到市場追捧，也引發(fā)了自動(dòng)駕駛界對模型構(gòu)建方式的思考。前文提到的英國公司 Wayve 亦在嘗試構(gòu)建一個(gè)世界模型，通過使用與駕駛本身無關(guān)的數(shù)據(jù)，如一些文本數(shù)據(jù)預(yù)訓(xùn)練模型進(jìn)而提升模型的駕駛性能。此外，公司亦在嘗試將自動(dòng)駕駛模型和自然語言結(jié)合，讓自動(dòng)駕駛模型能夠描述自己的行為，進(jìn)而增強(qiáng)模型的性能和可解釋性。國內(nèi)毫末智行等也在做出相應(yīng)的嘗試，建立大參數(shù)的模型，并將海量駕駛場景編碼成語料，投喂給模型進(jìn)行無監(jiān)督學(xué)習(xí)，接著再加入人類反饋強(qiáng)化學(xué) 習(xí)幫助其掌握駕駛員的行為，進(jìn)而讓模型擁有接近人的自動(dòng)駕駛能力。大語言模型的風(fēng)靡也讓市場對自動(dòng)駕駛模型構(gòu)建的方式有了新的想象空間，DriveGPT 未嘗不是一種可以嘗試的方向。

世界模型浮上水面，面向通用場景，解決通用問題。在最新的 CVPR2023 會(huì)議上，特斯拉提出了世界模型，即構(gòu)建一個(gè)模型，可觀察所有需要觀察的事物，并將其轉(zhuǎn)化為向量空間，鏈接各類豐富的下游任務(wù)。該模型不止用于汽車，還可用于機(jī) 器人等等嵌入式人工智能場景。通過該模型可預(yù)測未來、構(gòu)建仿真場景，通過語言提示，讓它生成各類場景如直行、向右變道等。

2.5、數(shù)據(jù)端：大模型推動(dòng)數(shù)據(jù)閉環(huán)和仿真落地

神經(jīng)網(wǎng)絡(luò)只決定了算法的上限，而是否能讓神經(jīng)網(wǎng)絡(luò)發(fā)揮其效能，數(shù)據(jù)起到了決定性的作用，因此如何尋找純凈且多樣化的海量數(shù)據(jù)集相比算法而言同等重要。

2.5.1、數(shù)據(jù)閉環(huán)：自動(dòng)化運(yùn)行，降本增效推升規(guī)模是關(guān)鍵

完整的數(shù)據(jù)閉環(huán)系統(tǒng)，通經(jīng)常包含數(shù)據(jù)采集、數(shù)據(jù)挖掘、數(shù)據(jù)標(biāo)注、模型訓(xùn)練等環(huán)節(jié)。其對自動(dòng)駕駛功能實(shí)現(xiàn)的重要性不言而喻，但當(dāng)前自動(dòng)駕駛車型傳感器越來越高端，據(jù) dSP ACE 的數(shù)據(jù)，若采用 4k800 萬像素的攝像頭，每秒產(chǎn)生的數(shù)據(jù)將達(dá)到 3GB，疊加激光雷達(dá)毫米波雷達(dá)等傳感器，整車每秒將產(chǎn)生的 40G 數(shù)據(jù)，每小時(shí)產(chǎn)生 19Tb 數(shù)據(jù)，對整車廠的數(shù)據(jù)處理能力提出考驗(yàn)。

數(shù)據(jù)采集：通常自動(dòng)駕駛算法會(huì)采取一定的觸發(fā)（Trigger）機(jī)制來開啟數(shù)據(jù)上傳。如出現(xiàn)人類駕駛和自動(dòng)駕駛不一致的情況，或不同傳感器之間一致性不同的情況，或者不同算法出現(xiàn)沖突，以及某些指定的特殊場景如近距離跟車、加塞、光照急劇變化、陰影車道線等等。特斯拉在 2022AI DAY 上表示其擁有 221 種觸發(fā)器。數(shù)據(jù)清洗/挖掘：數(shù)據(jù)清洗和挖掘?qū)嶋H上是數(shù)據(jù)處理的過程，通常采集的數(shù)據(jù)包含大量的無用數(shù)據(jù)，這里需要算法將訓(xùn)練模型所需要的數(shù)據(jù)提取出來，以實(shí)現(xiàn)有效的數(shù)據(jù)收集，同時(shí)修正部分錯(cuò)誤數(shù)據(jù)。這其中對于數(shù)據(jù)處理的“內(nèi)功”要求深厚。數(shù)據(jù)標(biāo)注：挖掘到有價(jià)值的數(shù)據(jù)后，需要采用人工標(biāo)注或自動(dòng)標(biāo)注的方式，疊加部分仿真數(shù)據(jù)，形成數(shù)據(jù)集來實(shí)現(xiàn)對算法的訓(xùn)練和迭代。這其中涉及 2D 標(biāo)注、3D 標(biāo)注、車道線標(biāo)注、語義分割等，工作量大，同時(shí)影響著車企自動(dòng)駕駛算法的迭代，是數(shù)據(jù)閉環(huán)中的重中之重。

數(shù)據(jù)閉環(huán)收益顯著但成本不可忽視，降本增效是關(guān)鍵。數(shù)據(jù)標(biāo)注方面，據(jù)特斯拉 AI DAY 描述公司曾經(jīng)組建了超過千人的團(tuán)隊(duì)，早期通過人工在 2D 圖片上進(jìn)行精細(xì)標(biāo)注，但效率低下；后改進(jìn)為在向量空間完成標(biāo)注，再通過投影投射到 8 個(gè)攝像機(jī)里面，效率大幅提升；再之后特斯拉即建立了自動(dòng)標(biāo)注系統(tǒng)，通過離線大模型實(shí) 現(xiàn)自動(dòng)標(biāo)注，大幅提升標(biāo)注效率。此外特斯拉通過多車輛聯(lián)合優(yōu)化等方式來提升標(biāo) 注的精確度，起到了良好的效果。行業(yè)其他玩家亦開發(fā)自動(dòng)標(biāo)注工具以降本增效，據(jù)小鵬汽車描述，采用自動(dòng)化標(biāo)注工具后，公司能夠在 17 天內(nèi)完成原本需要 200 個(gè) 人年才能完成的標(biāo)注任務(wù)。數(shù)據(jù)閉環(huán)方面，特斯拉、小鵬、理想汽車均提到了各自的自動(dòng)化數(shù)據(jù)閉環(huán)體系，能夠全自動(dòng)完成數(shù)據(jù)的采集、挖掘、標(biāo)注、存儲(chǔ)等環(huán)節(jié)，大大提升模型的訓(xùn)練和迭代效率。

2.5.2、仿真：從提升效率到不可或缺

仿真是自動(dòng)駕駛系統(tǒng)構(gòu)建不可或缺的環(huán)節(jié)。將數(shù)據(jù)采集過程中的實(shí)車數(shù)據(jù)經(jīng)過聚類、場景提取、泛化與篩選，構(gòu)筑用于測試的虛擬世界，自動(dòng)駕駛算法控制車輛，與虛擬世界產(chǎn)生交互，并將交互結(jié)果輸出，在自動(dòng)駕駛領(lǐng)域優(yōu)勢明顯：（1）當(dāng)數(shù)據(jù)極端難以獲取的時(shí)候，仿真可以生成大量的場景供模型訓(xùn)練；（2）天然帶有標(biāo)注信息。當(dāng)數(shù)據(jù)難以標(biāo)注的時(shí)候，如幾百萬人過馬路，標(biāo)注成本極高且效率低下容易產(chǎn)生錯(cuò)誤，但仿真場景下不存在上述難點(diǎn)；（3）仿真可以給規(guī)控算法以安全的實(shí)驗(yàn)環(huán)境；（4）仿真的價(jià)格低廉，效率高。理論上完美的仿真能夠取代實(shí)車測試，進(jìn)而以較低成本達(dá)到安全測試效果，縮短自動(dòng)駕駛算法研發(fā)周期，是自動(dòng)駕駛開發(fā)迭代的重要環(huán)節(jié)。

不同的算法對仿真環(huán)境的構(gòu)建提出不同要求。通常自動(dòng)駕駛核心算法包括感知算法、決策規(guī)劃算法、控制算法三大環(huán)節(jié)，其中感知算法仿真需要高還原度的三維重建場景和精準(zhǔn)的傳感器模型；決策規(guī)劃算法仿真需要大量的場景庫為支撐；控制算法需要引入精準(zhǔn)的車輛動(dòng)力學(xué)模型。虛擬場景構(gòu)建方面，通常需要模擬出與真實(shí) 世界一致的靜態(tài)、動(dòng)態(tài)交通運(yùn)行場景。靜態(tài)場景通常包含道路、車道線、減速帶、交通標(biāo)志、路燈、車站、周圍建筑等等，通常使用高精度地圖和三維重建技術(shù)構(gòu)建（通常需要回執(zhí)高精度地圖并進(jìn)行三維建模）；動(dòng)態(tài)場景包含動(dòng)態(tài)指示設(shè)施、機(jī)動(dòng)車行為、非機(jī)動(dòng)車行為、行人行為、通信環(huán)境、氣象變化、時(shí)間變化等。感知系統(tǒng)仿真方面，包含攝像頭仿真（生成逼真的圖像并添加色彩和光學(xué)屬性等通常采用游戲引擎來構(gòu)建，如百度阿波羅采用 Unity3D、騰訊 TADSim 引入了虛幻引擎）、毫米波雷達(dá)仿真、激光雷達(dá)仿真。車輛動(dòng)力學(xué)仿真方面，通?；诙囿w動(dòng)力學(xué)搭建模型，其中包含車體、懸架系統(tǒng)、轉(zhuǎn)向系統(tǒng)、制動(dòng)系統(tǒng)、動(dòng)力系統(tǒng)、傳動(dòng)系統(tǒng)等多個(gè)真實(shí) 部件的車輛模型。

對仿真工具而言，其能夠覆蓋的場景范圍越大，自動(dòng)駕駛可行駛邊界就越廣泛。因此評價(jià)自動(dòng)駕駛算法最重要的標(biāo)準(zhǔn)就是測試其是否能夠處理足夠多的場景庫。通常仿真模型會(huì)以真實(shí)采集的數(shù)據(jù)、模擬數(shù)據(jù)、以及根據(jù)真實(shí)場景合成的仿真數(shù)據(jù)為數(shù)據(jù)源，對場景的幾何形狀、物理運(yùn)動(dòng)規(guī)律、以及場景中各個(gè)元素如車流、行人等符合邏輯規(guī)律，以實(shí)現(xiàn)更好的仿真效果。

自動(dòng)駕駛仿真平臺(tái)市場競爭激烈，促使平臺(tái)仿真性能提升。自駕仿真平臺(tái)布局主體眾多，可以劃分為科技公司、自駕解決方案商、仿真軟件企業(yè)、車企、高校及科研機(jī)構(gòu)五大類?？萍脊緭碛写髷?shù)據(jù)優(yōu)勢，軟件開發(fā)經(jīng)驗(yàn)豐富；自駕解決方案商多針對自研發(fā)需要，較少對外提供仿真服務(wù)；不同仿真軟件企業(yè)經(jīng)驗(yàn)積累程度不同，傳統(tǒng)企業(yè)積累深厚，初創(chuàng)企業(yè)積累薄弱；車企能夠?qū)⒙窚y和仿真測試同步結(jié)合，但限于自身軟件開發(fā)能力，多與外部仿真平臺(tái)提供商合作進(jìn)行自動(dòng)駕駛汽車開發(fā)；高校及科研機(jī)構(gòu)主要對自駕仿真軟件進(jìn)行前瞻、基礎(chǔ)性研究。自駕仿真平臺(tái)參與者眾，市場競爭激烈，具備更快迭代速度、更強(qiáng)仿真能力、更完善服務(wù)支持的仿真平臺(tái)將快速成長。

DRIVE Sim：Nvidia 自動(dòng)駕駛研發(fā)生態(tài)體系重要一環(huán)。DRIVE Sim 是由英偉達(dá) 開發(fā)的端到端仿真平臺(tái)，能夠進(jìn)行大規(guī)模多傳感器仿真。DRIVE Sim 功能強(qiáng)大，能夠提供核心模擬和渲染引擎，生成逼真的數(shù)據(jù)流，創(chuàng)建各種測試環(huán)境，模擬暴雨和暴雪等各種天氣條件，以及不同的路面和地形，還可以模擬白天不同時(shí)間的眩目強(qiáng) 光以及晚上有限的視野，達(dá)到“照片級逼真且物理精確”的傳感器仿真。

DRIVE Sim 具有完善的工具鏈支持，融入英偉達(dá)自動(dòng)駕駛開發(fā)生態(tài)。DRIVE Sim 可以在 Omniverse 云平臺(tái)上運(yùn)行，也可以在 OVX 服務(wù)器組成的本地?cái)?shù)據(jù)中心甚至單顆 RTX3090 上運(yùn)行。DRIVE Sim 具有開放式、模組化分特點(diǎn)，擁有良好的可拓展性：（1）支持神經(jīng)重建引擎（NER），該 AI 工具可以將真實(shí)世界的數(shù)據(jù)直接帶入仿真中，開發(fā)者可在仿真環(huán)境中修改場景、添加合成對象，并應(yīng)用隨機(jī)化技術(shù)，大大增加真實(shí)感并加快生產(chǎn)速度。（2）使用 NVIDIA Omniverse Kit SDK，DRIVE Sim 允許開發(fā) 人員構(gòu)建自定義模型、3D 內(nèi)容和驗(yàn)證工具，或與其他模擬進(jìn)行交互。（3）支持 DRIVE Replicator 生成與合成傳感器數(shù)據(jù)對應(yīng)的真值數(shù)據(jù)，用于訓(xùn)練自動(dòng)駕駛汽車 DNN。 DRIVE Sim 已融入英偉達(dá)完整的軟硬協(xié)同生態(tài)，支持從概念到部署的自動(dòng)駕駛汽車開發(fā)及驗(yàn)證。

51 Sim-One：本土仿真系統(tǒng)助力中國自動(dòng)駕駛量產(chǎn)落地。Sim-One 是 51 World 全棧自研的云原生仿真平臺(tái)。（1）場景方面，Sim-One 具有豐富的場景生成方式，特別是能基于語義泛化工具鏈能夠?qū)崿F(xiàn)場景的快速定義；與第三方場景庫達(dá)成合作，擴(kuò)充場景數(shù)量，提高仿真測試質(zhì)量。（2）平臺(tái)方面，Sim-One 具有豐富的功能，包括靜態(tài)和動(dòng)態(tài)數(shù)據(jù)導(dǎo)入、測試場景案例編輯、各類仿真、測試與回放、虛擬數(shù)據(jù)集生成以及各類在環(huán)測試；Sim-One 基于原生云架構(gòu)仿真平臺(tái)，支持大規(guī)模并發(fā)仿真技術(shù)，日測試?yán)锍炭蛇_(dá)十萬公里。（3）評價(jià)方面，Sim-One 具備豐富的指標(biāo)庫可供用戶自行選擇進(jìn)行評價(jià)，涵蓋安全性、違規(guī)性、舒適性、高效性、經(jīng)濟(jì)能耗性、控制準(zhǔn)確性等多個(gè)維度，并且支持多場景并發(fā)評價(jià)。

AI 應(yīng)用于仿真系統(tǒng)，能夠有效輔助自動(dòng)駕駛系統(tǒng)升級。（1）在場景庫構(gòu)建方面，從傳感器數(shù)據(jù)中利用 AI 進(jìn)行自動(dòng)化、大規(guī)模三維重建，構(gòu)建現(xiàn)實(shí)世界對象和背景的幾何形狀、外觀和材料屬性；使用大量路采數(shù)據(jù)訓(xùn)練 Agent AI，使之模仿道路場景中的主體，賦予虛擬場景強(qiáng)交互性；利用已有場景庫與生成式 AI，自動(dòng)生成無需標(biāo) 注的各種交通場景數(shù)據(jù)。（2）在車輛仿真測試過程中，使用 AI 識別自動(dòng)駕駛系統(tǒng)的弱點(diǎn)，并自動(dòng)創(chuàng)建對抗性場景，同時(shí)自駕系統(tǒng)使用 AI 算法自動(dòng)從錯(cuò)誤中學(xué)習(xí)，自動(dòng) 迭代更新，無需密集手動(dòng)調(diào)整算法，適應(yīng)更快節(jié)奏、更大規(guī)模的訓(xùn)練。AI 能使仿真系統(tǒng)更有針對性，使自動(dòng)駕駛算法調(diào)整自動(dòng)化，加速自駕技術(shù)在現(xiàn)實(shí)世界落地。

3、自動(dòng)駕駛算法變革引領(lǐng)產(chǎn)業(yè)鏈變化

3.1、兵馬未動(dòng)糧草先行，云端算力軍備競賽開啟

對自動(dòng)駕駛而言，大量的數(shù)據(jù)處理、訓(xùn)練、自動(dòng)標(biāo)注、仿真等工作需要完成，算力成為車企打造自動(dòng)駕駛能力的核心，決定著車企的算法迭代效率和上限。特斯拉表示其總算力在 2024 年將沖刺 100EFlops，而國內(nèi)領(lǐng)先玩家亦不遑多讓，紛紛構(gòu) 建自有的數(shù)據(jù)中心，自動(dòng)駕駛的算力軍備競賽從車端蔓延到云端。

3.1.1、特斯拉自研算力平臺(tái) Dojo，2024 年沖刺 100EFlops 算力

特斯拉在應(yīng)對海量訓(xùn)練和仿真需求時(shí)構(gòu)建了龐大的算力體系。據(jù)特斯拉在 2021 年 AI DAY 介紹，特斯拉為了移除自動(dòng)駕駛系統(tǒng)對毫米波雷達(dá)的依賴，從 250 萬個(gè) 視頻剪輯中生成了超過 100 億個(gè)標(biāo)簽，需要龐大的離線神經(jīng)網(wǎng)絡(luò)和引擎。而硬件方面，特斯拉在 2021 年 AI DAY 期間就擁有接近 1 萬塊 GPU，2022 年 AI DAY 上這一數(shù)字提升到 1.4 萬片，其中約 50%的負(fù)載用來實(shí)現(xiàn)云端自動(dòng)標(biāo)注和車載占用網(wǎng)絡(luò)的訓(xùn) 練。

自研 D1 芯片和 Dojo 超級計(jì)算機(jī)布局算力。為了進(jìn)一步提升算力水平，2021 年起特斯拉開始自研 D1 人工智能芯片和 Dojo 超級計(jì)算機(jī)。將 25 顆自研的 D1 芯片封裝成 Dojo 訓(xùn)練模塊，再將 120 個(gè)訓(xùn)練模塊結(jié)合 Dojo 接口處理器等組件融合形成 Dojo 主機(jī)，目前 10 機(jī)柜的 Dojo ExaPOD 超級計(jì)算機(jī)將擁有 1.1EFlops 算力，并且擁有強(qiáng) 擴(kuò)展能力，借助特斯拉強(qiáng)大的軟件能力，將有效提升其在算法領(lǐng)域的迭代速率。

而據(jù)特斯拉 AI 官方賬號顯示，特斯拉將在 2024 年 1 月將擁有等效 10 萬片英偉達(dá) A100GPU 的算力，在 2024 年的 10 月?lián)碛?100EFlops 算力，等效 30 萬片英偉達(dá) A100GPU 算力。

3.1.2、國內(nèi)自動(dòng)駕駛領(lǐng)先玩家亦積極布局，算力成為自駕競爭“入場券”

國內(nèi)玩家亦快速布局算力領(lǐng)域，為自身算法和數(shù)據(jù)的迭代和積累鋪平道路。2022 年 8 月，小鵬汽車與阿里云共同宣布在內(nèi)蒙古烏蘭察布建成自動(dòng)駕駛智算中心“扶搖”，用于自動(dòng)駕駛?！胺鰮u”的算力可達(dá)到 600PFLOPS，據(jù)何小鵬在小鵬科技日上描述，智算中心將小鵬汽車的自動(dòng)駕駛模型訓(xùn)練效率提升百倍以上。毫末智行則聯(lián) 合火山引擎推出雪湖·綠洲智算中心，擁有 670PFLOPS 算力。此外 2023 年 1 月吉利汽車也聯(lián)合阿里云推出吉利星睿智算中心，理想汽車在 2023 年同樣與火山引擎合作在山西布局智算中心，蔚來等諸多車廠亦積極推動(dòng)自有或云端算力的構(gòu)建。

3.2、自動(dòng)駕駛芯片格局有望被重塑

3.2.1、 Transformer 大模型對芯片架構(gòu)提出新的要求

Transformer 大模型對芯片架構(gòu)提出新的要求。芯片架構(gòu)決定著算法運(yùn)行效率，近年隨著 Transformer 算法風(fēng)靡 AI 界，特斯拉引領(lǐng)下，Transformer 在自動(dòng)自動(dòng)駕駛行業(yè)行業(yè)被廣泛使用，芯片對 Transformer 適配性將影響未來芯片的競爭格局。與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)（CNN）架構(gòu)相比，Transformer 算法擁有顯著的不同：（1）算法對算力要求較高。Transformer 通常計(jì)算量較大，且在大參數(shù)和大數(shù)據(jù) 量的基礎(chǔ)上才能展現(xiàn)出更優(yōu)異的模型性能，這對芯片的算力提出新的要求。（2）對芯片的運(yùn)算精度存在一定要求?？紤]到算力的限制，目前的推理側(cè)芯片通常采用 int8（整型）精度算力（int8 為運(yùn)算數(shù)精度單位，Int8 指 8 位整型數(shù)，即用 8bit 來表示一個(gè)整數(shù)數(shù)字；相應(yīng)的 FP16 為半精度浮點(diǎn)數(shù)，即用 16bit 表示一個(gè)小數(shù)，精度更高），而對 Transformer 來說，由于其內(nèi)部算子較為復(fù)雜，更適合于在采用浮點(diǎn)運(yùn)算的平臺(tái)運(yùn)行。（3）算子復(fù)雜度高，和卷積神經(jīng)網(wǎng)絡(luò)顯著不同。相比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)算法中更多以較為規(guī)則的卷積矩陣乘法運(yùn)算而言，Transformer 中算子復(fù)雜度高，有較多訪存密集型算子，對訪存帶寬和存儲(chǔ)容量要求較高。而傳統(tǒng) AI 芯片多基于卷積神經(jīng)網(wǎng) 絡(luò)等算法優(yōu)化，難以實(shí)現(xiàn)和 Transformer 的良好適配。

3.2.2、芯片玩家開始著力加大產(chǎn)品對 Transformer 的適配度

鑒于上述特點(diǎn)，不少芯片廠商推出了可針對 Transformer 加速的芯片產(chǎn)品。未來，能夠良好適配 Transformer 算法并幫助其在車載平臺(tái)落地的公司有望占得先機(jī)。

3.3、自動(dòng)駕駛產(chǎn)業(yè)加速成熟，配套公司全面受益

3.3.1、 BEV+Transformer 大模型的自動(dòng)駕駛算法構(gòu)建形式被市場廣為接受

特斯拉發(fā)布 BEV+Transformer 的算法以來，行業(yè)廣泛認(rèn)可，我們看到諸多玩家積極跟進(jìn)，推出自己的大模型算法。理想汽車在最新的理想家庭科技日上宣布自動(dòng) 駕駛已經(jīng)進(jìn)入大模型時(shí)代，而通勤NOA和城市NOA將成為未來消費(fèi)者的剛需配置。

模型算法的落地代表著功能逐步走向成熟。2023 年以來，我們將陸續(xù)看到各大車企紛紛落地自己的城市輔助駕駛相關(guān)車型，行業(yè)呈現(xiàn)百花齊放的狀態(tài)。這無疑將助力整個(gè)自動(dòng)駕駛產(chǎn)業(yè)鏈走向繁榮。

編輯：黃飛

閱讀全文

算法(97463) 算法(97463)
人工智能(262995) 人工智能(262995)
自動(dòng)駕駛(177675) 自動(dòng)駕駛(177675)

搜索歷史

基于神經(jīng)網(wǎng)絡(luò)/大模型的自動(dòng)駕駛算法

評論