[首發(fā)于智駕最前沿微信公眾號(hào)]自動(dòng)駕駛感知技術(shù)在過去幾年中經(jīng)歷了很大的變化,從最初的二維圖像檢測(cè)到鳥瞰圖投影,再到如今備受關(guān)注的占用網(wǎng)絡(luò),感知技術(shù)的提升,讓自動(dòng)駕駛的能力越來越強(qiáng)。
占用網(wǎng)絡(luò)的核心邏輯在于將車輛周圍的三維空間劃分成無數(shù)個(gè)微小的體元,并預(yù)測(cè)每個(gè)體元是被物體占據(jù)還是處于空閑狀態(tài)。這種方法打破了傳統(tǒng)感知算法對(duì)“框”的依賴,其通過精細(xì)的幾何描述來還原物理世界的真實(shí)面貌。然而,隨著這一技術(shù)進(jìn)入大規(guī)模產(chǎn)業(yè)化落地階段,其背后潛藏的一系列問題也浮出水面。
硬件算力與內(nèi)存消耗的沉重負(fù)擔(dān)
占用網(wǎng)絡(luò)在追求環(huán)境表征精細(xì)度的過程中,首要面對(duì)的就是計(jì)算資源爆炸式增長的問題。傳統(tǒng)的感知任務(wù)只輸出少量目標(biāo)的坐標(biāo)和屬性,而占用網(wǎng)絡(luò)卻需要對(duì)整個(gè)三維網(wǎng)格進(jìn)行密集的推理預(yù)測(cè)。
這種密集的體素表征具有天然的立方級(jí)復(fù)雜度。如果系統(tǒng)試圖將感知范圍擴(kuò)大一倍,或者將感知的精細(xì)度提升一倍,其所需的計(jì)算量和內(nèi)存占用會(huì)以倍速激增。
目前的車載計(jì)算平臺(tái)在算力儲(chǔ)備上難以支持全量密集的占用網(wǎng)絡(luò)運(yùn)行。為了在有限的芯片資源下實(shí)現(xiàn)實(shí)時(shí)的感知輸出,很多技術(shù)方案被迫在分辨率上做出妥協(xié)。
然而,較低的分辨率會(huì)導(dǎo)致物體邊緣模糊,甚至丟失一些關(guān)鍵的小型障礙物信息。雖然有技術(shù)提出了諸如三透視視圖(TPV)或稀疏占用網(wǎng)絡(luò)(SparseOcc)等架構(gòu),試圖通過投影壓縮或只處理非空閑區(qū)域來減輕硬件負(fù)擔(dān),但在處理極其復(fù)雜的城市交通路口時(shí),這些簡化模型依舊會(huì)出現(xiàn)信息流失或推理延遲的問題。
在實(shí)際測(cè)試中,很多密集的占用網(wǎng)絡(luò)模型在高性能計(jì)算平臺(tái)上也僅能維持在極低的幀率,遠(yuǎn)遠(yuǎn)達(dá)不到安全駕駛所需的響應(yīng)速度。
內(nèi)存帶寬的限制同樣是阻礙該技術(shù)落地的隱形殺手。三維特征圖在神經(jīng)網(wǎng)絡(luò)不同層級(jí)之間的頻繁搬運(yùn),對(duì)車載總線的吞吐量提出了極高要求。
當(dāng)車輛在復(fù)雜的城市環(huán)境中快速行駛時(shí),感知系統(tǒng)必須在幾毫秒內(nèi)處理來自多個(gè)攝像頭和傳感器的海量數(shù)據(jù),任何由于計(jì)算資源調(diào)度產(chǎn)生的微小延遲,都可能導(dǎo)致最終決策的失效。
這種對(duì)算力和帶寬的極端依賴,使得占用網(wǎng)絡(luò)現(xiàn)階段依然更傾向于出現(xiàn)在配備頂級(jí)算力芯片的高端車型上,而難以在普通量產(chǎn)車型中普及。
真值標(biāo)注的匱乏與精度偏差
占用網(wǎng)絡(luò)的訓(xùn)練極度依賴高質(zhì)量的真值標(biāo)簽,即每一個(gè)三維體素都需要被準(zhǔn)確地標(biāo)注上語義類別。然而,對(duì)于這種海量且細(xì)碎的數(shù)據(jù),人工標(biāo)注幾乎不可能完成。
行業(yè)目前的通用做法是采用“4D自動(dòng)標(biāo)注”技術(shù),即利用配備了高精度激光雷達(dá)的采集車,通過多幀點(diǎn)云的堆疊和離線算法的優(yōu)化,生成一套真值數(shù)據(jù)。
這種依賴自動(dòng)標(biāo)注生成的真值數(shù)據(jù)其實(shí)是不完美的。
激光雷達(dá)本身存在物理上的采樣局限性,其點(diǎn)云密度隨距離增加而迅速下降。這意味著在遠(yuǎn)距離區(qū)域,自動(dòng)標(biāo)注生成的真值體素往往是非常稀疏且不連續(xù)的,無法為模型訓(xùn)練提供足夠清晰的指導(dǎo)。
此外,在多幀堆疊的過程中,環(huán)境中存在的移動(dòng)物體(如行駛的汽車或奔跑的行人)會(huì)留下嚴(yán)重的“拖影”或“偽影”。雖然有技術(shù)方案嘗試通過時(shí)間同步和運(yùn)動(dòng)補(bǔ)償算法來消除這些干擾,但在復(fù)雜的動(dòng)態(tài)交通流中,這種標(biāo)注誤差依然無法被完全抹除,導(dǎo)致模型學(xué)習(xí)到了錯(cuò)誤的幾何特征。
自動(dòng)標(biāo)注過程中的語義混淆問題也十分突出。
在一些不規(guī)則場(chǎng)景中,激光雷達(dá)點(diǎn)云難以區(qū)分材質(zhì)屬性,像是路邊的茂密植被可能在幾何形狀上與磚墻非常接近,或者低矮的馬路牙子可能與地面的反射信號(hào)混淆。
如果真值數(shù)據(jù)在這些細(xì)微差別上存在錯(cuò)誤,模型在推理時(shí)就會(huì)產(chǎn)生嚴(yán)重的判斷偏見。對(duì)于自動(dòng)駕駛系統(tǒng)而言,將一簇可以橫穿的雜草誤認(rèn)為一堵堅(jiān)實(shí)的墻壁,雖然會(huì)降低行駛效率,但如果將一堵墻誤認(rèn)為雜草,則會(huì)帶來安全風(fēng)險(xiǎn)。這種由標(biāo)注源頭帶來的系統(tǒng)性偏差,目前依然是占用網(wǎng)絡(luò)邁向更高可靠性的主要障礙。
時(shí)空一致性缺失引發(fā)的感知不穩(wěn)定
在真實(shí)的駕駛環(huán)境中,感知結(jié)果必須是連續(xù)且穩(wěn)定的。然而,當(dāng)前的占用網(wǎng)絡(luò)在處理連續(xù)的視覺幀時(shí),會(huì)出現(xiàn)嚴(yán)重的閃爍現(xiàn)象,這種現(xiàn)象在學(xué)術(shù)界被稱為“時(shí)空不一致性”。
同一個(gè)障礙物,在當(dāng)前時(shí)刻可能被預(yù)測(cè)為占據(jù)狀態(tài),但在下一時(shí)刻卻突然消失,隨后又再次閃現(xiàn)。這種不穩(wěn)定的輸出會(huì)給下游的規(guī)控系統(tǒng)帶來極大的困擾,可能導(dǎo)致車輛出現(xiàn)不符合邏輯的突然剎車或劇烈轉(zhuǎn)向動(dòng)作。
時(shí)空不一致性的根源在于模型對(duì)歷史信息的融合機(jī)制不夠穩(wěn)健。雖然許多算法試圖通過引入時(shí)間序列特征來平滑感知結(jié)果,但在車輛快速行駛、攝像頭抖動(dòng)或光照環(huán)境劇烈變化時(shí),歷史幀的體素特征很難與當(dāng)前幀實(shí)現(xiàn)精準(zhǔn)的空間對(duì)齊。細(xì)微的坐標(biāo)變換誤差在三維網(wǎng)格中會(huì)被放大,從而在預(yù)測(cè)圖中產(chǎn)生錯(cuò)位或重影。
這種現(xiàn)象在處理動(dòng)態(tài)物體時(shí)尤為明顯,模型往往難以實(shí)時(shí)捕捉到快速移動(dòng)物體的精確邊界,導(dǎo)致預(yù)測(cè)出的“占用流”滯后于實(shí)際物體的位移。
這種不穩(wěn)定性還體現(xiàn)在遮擋場(chǎng)景的處理上。
當(dāng)一個(gè)物體被路邊的車輛或樹木暫時(shí)遮擋時(shí),占用網(wǎng)絡(luò)應(yīng)該具備一定的“聯(lián)想”能力,判斷該空間依然被占據(jù)。
但由于缺乏強(qiáng)大的物理推理能力和長期記憶,許多模型在物體被遮擋的瞬間就會(huì)將其判定為“空閑”或“未知”。這種感知層面的“斷片”不僅威脅駕駛安全,也暴露出目前的深度學(xué)習(xí)模型在理解物理世界的持續(xù)性方面依然存在短板。
極端場(chǎng)景與細(xì)小目標(biāo)的感知盲區(qū)
占用網(wǎng)絡(luò)雖然被寄予厚望以解決“長尾場(chǎng)景”問題,但在某些特定的物理極限下,它依然表現(xiàn)出明顯的脆弱性。
像是在面對(duì)如路燈桿、護(hù)欄電線、細(xì)樹枝等細(xì)長物體時(shí),就會(huì)捕捉失效。由于體素網(wǎng)格的分辨率是預(yù)設(shè)且固定的,這些細(xì)小物體在體素化過程中往往因?yàn)檎紦?jù)的體積比例過小,而被模型當(dāng)作背景噪聲過濾掉,或者被判定為不連續(xù)的孤立點(diǎn)。
如果一輛高速行駛的自動(dòng)駕駛車輛無法在遠(yuǎn)處識(shí)別出一排細(xì)小的隔離護(hù)欄,后果將不堪設(shè)想。
還有一個(gè)問題就是“特殊材質(zhì)”的感知,尤其在面對(duì)透明和高反射物體是尤為明顯。玻璃墻、透明護(hù)欄、鏡面材質(zhì)等場(chǎng)景,幾乎對(duì)所有的視覺感知算法都是巨大的挑戰(zhàn)。
占用網(wǎng)絡(luò)依賴于多視角的特征匹配來估算深度和幾何結(jié)構(gòu),但玻璃的透明特性導(dǎo)致光線直接穿透,模型會(huì)誤以為前方是一片可通行的虛空。
即使在配備了激光雷達(dá)的系統(tǒng)中,激光束也可能發(fā)生穿透或鏡面反射,無法獲得真實(shí)的距離數(shù)據(jù),這使得占用網(wǎng)絡(luò)在面對(duì)現(xiàn)代化的玻璃幕墻建筑或透明聲屏障時(shí),極易產(chǎn)生嚴(yán)重的感知幻覺。
感知的有效距離與精度之間也存在天然矛盾。
隨著距離的增加,攝像頭圖像中的物體分辨率下降,深度估計(jì)的誤差呈指數(shù)級(jí)增長。在占用網(wǎng)絡(luò)中,遠(yuǎn)距離的體素預(yù)測(cè)往往變得非常模糊,且容易受到天空、地平線雜波的干擾,產(chǎn)生一些莫名其妙的“懸浮體元”。
這些遠(yuǎn)處的虛假障礙物雖然不會(huì)立即導(dǎo)致碰撞,但會(huì)嚴(yán)重干擾車輛的遠(yuǎn)距離路徑規(guī)劃,導(dǎo)致系統(tǒng)頻繁產(chǎn)生不必要的減速。
解決這些深層幾何感知問題,需要的不僅是更深層的網(wǎng)絡(luò),更是對(duì)光學(xué)、幾何物理學(xué)規(guī)律更深層次的建模與融合。
最后的話
占用網(wǎng)絡(luò)雖然在理論上為自動(dòng)駕駛提供了一種更全面、更符合物理規(guī)律的環(huán)境表征手段,但在算力開銷、真值獲取、時(shí)空穩(wěn)定性以及極端幾何感知等維度上,依然存在著不容忽視的技術(shù)挑戰(zhàn)。
這些問題的存在,要求我們?cè)谖磥淼难邪l(fā)中,不僅要追求更強(qiáng)大的模型架構(gòu),更要關(guān)注傳感器融合的深度、自動(dòng)標(biāo)注的質(zhì)量以及感知與規(guī)控之間更緊密的物理約束。只有逐步克服這些局限,占用網(wǎng)絡(luò)才能真正成為自動(dòng)駕駛系統(tǒng)在大規(guī)模、復(fù)雜物理世界中安全穿行的堅(jiān)實(shí)基石。
-
網(wǎng)絡(luò)檢測(cè)
+關(guān)注
關(guān)注
0文章
8瀏覽量
5244 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
793文章
14879瀏覽量
179784
發(fā)布評(píng)論請(qǐng)先 登錄
自動(dòng)駕駛中常提的“深度估計(jì)”是個(gè)啥?
自動(dòng)駕駛中常提的離線強(qiáng)化學(xué)習(xí)是什么?
自動(dòng)駕駛中常提的模仿學(xué)習(xí)是什么?
自動(dòng)駕駛中常提的世界模型是什么?
大模型中常提的快慢思考會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?
Transformer如何讓自動(dòng)駕駛變得更聰明?
自動(dòng)駕駛中常提的卷積神經(jīng)網(wǎng)絡(luò)是個(gè)啥?
自動(dòng)駕駛中常提的GOD有什么作用?
自動(dòng)駕駛中常提的“專家數(shù)據(jù)”是個(gè)啥?
自動(dòng)駕駛中常提的ODD是個(gè)啥?
自動(dòng)駕駛中常提的硬件在環(huán)是個(gè)啥?
自動(dòng)駕駛中常提的世界模型是個(gè)啥?
自動(dòng)駕駛中常提的“點(diǎn)云”是個(gè)啥?
自動(dòng)駕駛中常提的“NOA”是個(gè)啥?
自動(dòng)駕駛中常提的占用網(wǎng)絡(luò)檢測(cè)存在哪些問題?
評(píng)論