[首發于智駕最前沿微信公眾號]當我們看一張照片時,可以通過肉眼自然地判斷照片中的物體遠近,這種對于空間和距離的感知,對于人類來說是本能,是從幼兒時期開始就形成的一種能力。
對于自動駕駛汽車來說,為了能更好地辨別路況,也需要類似的能力。

什么是深度估計?
自動駕駛汽車必須理解環境中物體距離它有多遠,需要能快速辨別前面是行人還是車?那個車到底是在十米開外還是一兩百米遠?
深度估計就是讓機器從感知到的圖像或傳感器數據中估計出物體到自身的距離,給計算機一個可以理解的“空間感”。
這種能力在計算機視覺領域里被稱為深度估計(Depth Estimation),是自動駕駛感知系統的基礎一環。
深度估計的結果表現為“深度圖”,這張深度圖和普通照片不一樣,照片上的每個像素表示顏色,而深度圖上的每個像素代表的是這個像素點對應的真實世界深度值,簡單理解就是圖片中的物體離我有多遠。
有了深度圖,車載系統就能把二維畫面轉化為三維空間的感覺,這對路徑規劃、避障、速度控制等任務來說非常重要。

為什么自動駕駛要進行深度估計
如果只給自動駕駛系統提供一張照片,是無法讓它直接判斷距離的。這跟人類看照片的本能不同,機器只看到數字和像素點。
沒有深度信息的話,計算機只能判斷物體的大致形狀、顏色和類別,但不知道它在空間中的實際位置。
舉個例子,一輛車可能看起來很大很清晰,但它到底在十米還是一百米之外,是深度信息才能回答的問題。
傳統的深度感知方式是用激光雷達(LiDAR)這樣的感知硬件,利用激光直接測量距離,成像效果會非常好,也正因如此,現在很多自動駕駛系統都依托激光雷達來獲取深度信息。
但是激光雷達成本高、算力要求高,也有安裝和維護等各種后續問題。
深度估計作為計算機視覺的一種技術,就是希望用廉價的攝像頭和算法來補充或者替代一些昂貴的傳感硬件。
也就是說,深度估計技術是讓自動駕駛車輛能從攝像頭拍攝的普通圖像中預測出每一處的距離。
比方說前方有個行人,機器不僅要知道這是個人,還要知道這個人距離車有多少米,這就是深度估計提供的數據。
沒有這樣的三維感知,即便能識別物體類別,也無法安全地制定行駛策略。

如何實現深度估計?
深度估計本質上是從圖像推斷空間距離的過程,由于單張圖像本身并不包含真實的深度信息,這一過程需要復雜的處理流程。
僅憑平面像素及色彩去推測三維空間中的距離,是一個典型的“欠定問題”,機器無法僅從一張圖片確定真實距離,而必須結合幾何原理、先驗知識以及大量數據來輔助推斷。
目前,主流的深度估計方法可分為兩類。
一種是多視圖方法,通過兩個或多個不同視角的攝像頭同時觀察同一個場景,然后用傳統的立體視覺算法去匹配、計算視差(就是確定同一個物體在不同視角中像素的偏移量),再根據視差轉換成深度信息。
這其實跟我們雙眼看到立體圖像類似,左右眼看到的是有輕微偏差的畫面,通過這種視差差異,我們的大腦能判斷深度。
類似的原理也可以在自動駕駛系統里用兩個攝像頭實現簡單的深度估計。
還有一種更常見的方法是單目深度估計,也就是只用一臺攝像頭實現深度估計。
由于單張圖像本身沒有視差信息,但是通過大量的數據和深度學習模型的訓練,計算機還是可以學到一些圖像里固有的深度線索。
像是路面變得模糊、物體變小、遮擋關系等都是跟深度有關的視覺信號。
深度學習模型通過卷積神經網絡、特征提取等手段,把這些線索編碼起來,然后預測每個像素的深度。
單目深度估計在技術層面有一些難點,真實世界物體的尺度有很大變化,而且同樣的像素在不同場景下可能對應完全不同的距離,因此算法需要在大規模標注數據上訓練,讓模型學習到一般性的深度規律。
這個過程就像讓模型讀書一樣,通過成千上萬張有深度標注的圖像讓它明白每種視覺特征對應什么樣的深度分布。
訓練出的模型在看到新圖像時,就能給出合理的深度預測。

深度估計在自動駕駛中的具體作用
對于自動駕駛汽車而言,深度估計不僅意味著通過圖像識別距離,更重要的是能以較低成本實現更高階的自動駕駛功能。
沒有深度信息,車輛雖能“看見”周圍環境,卻無法準確判斷物體遠近;而有了深度信息,自動駕駛系統的“思考”才能真正從二維提升到三維空間,深度估計的直接作用包括。
碰撞預警:知道前方物體到底有多遠,從而判斷是否需要剎車或避讓。
路徑規劃:基于三維空間關系計算最佳行駛路線,而不僅僅是圖像中的像素路徑。
跟車距離控制:估計前車距離,決定加速或減速。
動態障礙物預測:結合機器學習追蹤其他車輛、行人的運動,并預測它們的未來位置。
所有這些功能都離不開準確的深度預測。若缺少可靠的深度信息,后續的路徑規劃與控制決策便失去了空間依據。
在自動駕駛系統中,深度估計的結果并非依賴單一來源,而是與激光雷達、毫米波雷達等其他傳感器數據進行融合(即“傳感器融合”)。
這種方式既能充分利用視覺數據所蘊含的豐富信息,也能彌補單一傳感器的局限性。

最后的話
把深度估計看成自動駕駛系統中的一個模塊,其實有點低估它的價值。它不是簡單的圖像變換,而是把二維視覺轉化成三維空間認知的橋梁。
它讓機器不僅看到世界,還能理解世界的結構和遠近關系。沒有準確的深度估計,自動駕駛車輛就缺乏最基本的空間感覺。
-
自動駕駛
+關注
關注
793文章
14881瀏覽量
179803
發布評論請先 登錄
自動駕駛中常提的卷積神經網絡是個啥?
自動駕駛中常提的“強化學習”是個啥?
自動駕駛中常提的ToF是個啥?
自動駕駛中常提的“專家數據”是個啥?
自動駕駛中常提的ODD是個啥?
自動駕駛中常提的硬件在環是個啥?
自動駕駛中常提的RTK是個啥?
自動駕駛中常提的慣性導航系統是個啥?可以不用嗎?
自動駕駛中常提的“時序”是個啥?有啥作用?
自動駕駛中常提的高精度地圖是個啥?有何審查要求?
自動駕駛中常提的世界模型是個啥?
自動駕駛中常提的HMI是個啥?
自動駕駛中常提的“點云”是個啥?
自動駕駛中常提的“NOA”是個啥?
自動駕駛中常提的“深度估計”是個啥?
評論