[首發于智駕最前沿微信公眾號]自動駕駛的純視覺方案中,單目攝像頭因無法直接感知深度,在環境理解上存在根本局限,雙目視覺技術在此需求下應運而生。它通過模擬人眼,利用雙攝像頭的視差來推算距離,將二維圖像轉化為三維信息,從而為車輛決策提供關鍵的深度感知能力。

什么是雙目深度估計?
平時我們用眼睛看東西其實就是一種最自然的深度估計。人的兩只眼睛有一定的間距,大腦通過融合兩只眼睛看到的略有不同的圖像來判斷遠近。計算機視覺里“雙目深度估計”就是借鑒這個原理,將兩個相機并排排列,并拍下同一場景,然后分析兩幅圖像的差異來推算距離。
單目攝像頭拍攝的二維圖像,僅包含色彩與亮度信息,無法直接提供場景中物體的距離數據。要獲取“距離”這一關鍵的深度信息,關鍵在于利用視差,也就是在另一個位置放置第二個相機,同時對同一場景成像。此時,物體在兩個視角的圖像中會產生位置偏移,通過計算這一偏移量,便可以精確推算出物體的三維距離。

圖片源自:網絡
如果我們知道了兩個攝像頭之間的距離(基線)和攝像機的焦距,當我們找到兩個圖像里同一個物體對應點的位置差(視差)時,就能用一個非常簡單的公式計算出這個點的真實深度,即:
深度=焦距×基線/視差。
從公式中我們可以看到,視差越大,物體越近;視差越小,物體越遠。

雙目深度估計的主要步驟
既然說到了視差,那么關鍵問題來了,怎么從一對左右圖像里找到這些對應點?這中間其實涉及到多個流程。

圖片源自:網絡
兩個攝像頭從出廠到裝在一起時,會有一些位置和角度誤差,所以我們需要先做幾何標定,確定每個攝像頭的內部參數(比如焦距、主點位置)和它們之間的外部關系(位置和朝向)。只有這樣才能讓后面比較兩個圖像時的像素位置是準確對應的。
在完成雙目系統的校準后,接下來要做的就是立體矯正。這一過程的目的是把兩個圖像都調整成在同一條水平線上,這樣同一場景點在左右圖像里的對應關系只會在水平方向上變化,這極大簡化了后面的匹配難度。
立體匹配的核心任務,就是在左右兩幅圖像中為同一物體找到相互對應的像素點。由于之前已經做了立體矯正,這個搜索被大大簡化了,只需要在右圖中沿著與左圖像素點對應的同一水平線去掃描,找出看起來最相似的那個區域即可。盡管如此,要為圖像中每一個像素找到對應點,計算量依然會非常龐大。因此可借助如經典的塊匹配(Block Matching)或效果更優的半全局匹配(Semi-Global Matching,SGM)來實現高效的匹配。
當我們找到每個像素的對應關系之后,就可以算出視差值。視差是同一個點在左右圖像中水平方向坐標差的數量,這個差值越大代表這個點離相機越近。最后,把視差值帶入我們前面提到的公式,就能得到每一個像素對應的深度值。這樣我們就生成了一張“深度圖”,每個像素不再只是顏色信息,還可以是一個距離值。

深度學習方法對雙目深度估計有何作用?
通過傳統計算機視覺方法完成上面的這些步驟,其實就可以做好雙目深度估計了,但是傳統方法主要依賴手工設計的特征和匹配算法,如比較左右圖像里像素塊的相似度,然后決定它們是不是對應的點。這樣一來在一些紋理稀少的區域、光照變化大的情況下,這種匹配就很容易出錯,而且計算量也不小。
近年來,深度學習也被引入雙目深度估計領域。其核心目標與傳統方法一致,仍是尋找左右圖像間的對應關系并計算視差,但實現方式發生了根本改變。深度學習不再依賴人工設計的匹配代價與規則,而是通過卷積神經網絡自動從數據中學習匹配特征。

圖片源自:網絡
該網絡以左右視圖作為輸入,直接輸出視差圖或深度圖。在大量立體圖像數據訓練下,網絡能夠自主掌握哪些圖像特征利于匹配、哪些場景容易產生歧義,從而顯著提升匹配的魯棒性。因此,在遮擋區域、重復紋理或缺乏紋理的環境等傳統方法容易失效的場景下,基于深度學習的方法會表現出更高的準確度和穩定性。
深度學習方法的處理流程是先用神經網絡提取左右圖像的特征,然后構建一個“代價體”,表示在不同視差值下左右特征的匹配代價。接著再讓網絡學習從代價體里回歸出最終的視差值。整個過程可以端到端訓練,不需要手工調各種參數。
當然,端到端的深度學習系統需要大量帶真實深度標注的數據來訓練模型,而且在訓練數據和真實應用場景不一致時表現可能下降。這就需要一些自監督、數據增強等策略來提升魯棒性。

雙目深度估計會遇到什么問題?
雙目深度估計一個常見的問題是像素匹配不準確。如果物體表面沒什么紋理,兩個視角的圖像看起來就會一模一樣,這就讓系統難以判斷哪個點是對應到哪個點。有些算法為了彌補這個問題,會用更復雜的特征或者上下文信息來輔助匹配,但仍不是萬無一失的。

圖片源自:網絡
我們講的匹配過程是假設兩個圖像在同一時間點拍的。如果場景里有如行人、車輛等移動的物體,而兩個攝像頭抓拍的時間有微小差異,這就會讓匹配變得更難。深度學習方法可以用時序信息來緩解,但這本質上還是一個復雜問題。
在雙目立體系統的設計中,基線長度的選取,本質上是在測量精度和工程落地之間做選擇。基線越長,同一物體在左右圖像中產生的視差就越大,這不僅使匹配更容易,也能有效提高深度估計的精度。過長的基線會帶來安裝空間、機械穩定性以及視野重疊區域減少等問題。但基線過短,遠處物體的視差將變得極其微小,在像素級的計算中很容易被圖像噪聲、量化誤差等因素所淹沒,從而導致深度估計失效。
最后,還有像光照變化、遮擋、反射表面這些現實場景都會讓匹配變得不穩定。這也是為什么在雙目系統設計中,需要花費大量精力在圖像預處理、匹配優化、后處理濾波等步驟上。

最后的話
雙目深度估計的應用場景十分廣泛,除了自動駕駛,它在工業檢測、無人機測繪、實時三維建模等領域也發揮著重要作用。在需要快速感知和重建三維空間的場景中,雙目視覺結合點云生成等技術,能夠實現高效的實時環境建模。雖然激光雷達等主動式傳感器在精度上更具優勢,但雙目方案以其顯著的成本優勢,成為許多對成本敏感應用的理想選擇。
審核編輯 黃宇
-
雙目視覺
+關注
關注
2文章
38瀏覽量
14524
發布評論請先 登錄
雙目立體視覺相機產品介紹
基于SD3589高精度雙目立體視覺相機:助力三維感知與智能化應用
車載雙目攝像頭如何“看見”世界?
歐菲光與廣和通聯合首發ToF+雙目感知定位模塊
雙目環視立體視覺系統在智能駕駛行業的應用
奧比中光發布最新一代3D激光雷達及雙目深度相機
光子精密雙目3D線激光輪廓測量儀,擺脫視覺盲區,1臺更比2臺強!
雙目視覺在智能駕駛領域的應用
大模型推理顯存和計算量估計方法研究
打破室外全域工作“盲區”!廣和通雙目視覺算法將成就云深處科技機器狗“慧眼”
雙目視覺是如何實現深度估計的?
評論