[首發于智駕最前沿微信公眾號]在自動駕駛領域,純視覺路線逐漸獲得了一部分從業者和研究者的認可與支持。隨著雙目乃至三目攝像頭方案的應用,通過視差計算、結構約束和算法建模,攝像頭已經具備了一定程度的深度感知能力,使其在自動駕駛感知系統中的應用場景不斷擴展。
正因如此,很多人習慣將純視覺自動駕駛類比為“人眼駕駛”。但從生物視覺的角度來看,人眼本身會受到生理條件限制,存在近視等視力問題,那么基于攝像頭的純視覺自動駕駛系統,是否也會出現類似“近視”的情況?

什么叫“純視覺自動駕駛”
所謂的純視覺自動駕駛,就是車輛主要靠攝像頭來“看世界”,這些攝像頭就像機器的眼睛一樣,把路上的畫面、車道、行人、障礙物等信息傳給自動駕駛系統,自動駕駛系統再根據這些圖像來判斷、規劃和控制車輛。相較于傳感器融合方案,純視覺因其成本較低、更接近人眼“看”路,獲得了一大批廠商的支持。
從純視覺自動駕駛的原理上看,好像它的工作原理與人眼看世界的原理很接近,這時候一定會有人好奇,既然機器視覺和人類視覺這么接近,那機器視覺會不會像人眼一樣有近視的問題?或者說,會不會在某些場景下表現得像近視眼一樣,看不清遠處或者看不清細節?要回答這個問題,得先搞清楚人眼的結構和機器視覺的差別。
人眼的視覺的工作原理與攝像頭工作,還是純在明顯差別的,甚至復雜很多。人眼內部有晶狀體、視網膜等復雜結構,通過肌肉調節焦距,從而實現對不同距離的物體成像。如果焦距調節不好就會出現近視、遠視等問題。眼睛把二維光線信息傳給大腦,大腦再進行重建和理解,最終才形成我們看見和理解的世界。
汽車上的攝像頭其實更像一個固定焦距的相機,它往前裝著,用鏡頭和傳感器把光學圖像轉成數字信號。這個信號傳到自動駕駛系統中后,經算法處理成對周圍環境的理解。這里沒有天然的“調節焦距”的機制,也不像人類視覺能根據經驗、注意力和其他感覺融合信息,它只是把圖像“看”進去然后通過算法去處理這些像素。

機器視覺真的像人眼嗎?
機器視覺和人眼其實不是一回事。人類的視覺系統包括眼睛和大腦兩個部分,眼睛可以調焦,能在光線復雜的情況下靈活適應,還會用經驗和常識來推理。而機器視覺的“眼睛”只是單純的圖像采集器,它的深度感知、物體識別、距離估計全靠算法來做。單個攝像頭本身不能直接給出深度信息,因此很多純視覺自動駕駛系統要靠算法估計距離,或者用多攝像頭、立體視覺等方式進行間接補充。
如果機器視覺看不清,不是因為“眼睛近視”,而是因為攝像頭本身的物理局限和算法判斷能力出現了問題。如在光線很弱或者很強的情況下,攝像頭采集的畫面會有噪點或者過曝,這會影響后面的感知算法對物體的識別和定位。沒有深度傳感器或者高精度地圖等輔助信息時,算法在某些復雜場景下的表現就會像人眼近視一樣,看不清楚東西。這有點類似人眼視覺疲勞時看不清細節的感覺,但本質上不是生理近視,而是技術局限。
人眼能夠快速地判斷物體距離、速度、判斷光影變化、甚至在糟糕環境下還可以憑經驗推測前方情況,而純視覺系統則要依靠算法從二維圖像里估計三維信息,這里面會有誤差和不確定性。這種不確定性可能在某些場景下表現得模糊不清、難以判斷甚至錯判,從用戶的角度看起來,還真就有點像近視時看遠處一樣。

純視覺在什么情況下會出現“近視”
純視覺自動駕駛在強光直射、逆光、夜間弱光或者霧霾天氣下,攝像頭看到的畫面質量會急劇下降。畫面質量差了,后面的算法判斷也會跟著變糟,可能識別不出遠處的障礙物或者錯誤估計距離。這樣的情況在某種程度上和一個近視的人在沒有戴眼鏡時看遠處模糊的體驗有點相似。
同樣的,在沒有高精度地圖、沒有輔助雷達或者激光雷達等傳感器時,純視覺系統對于復雜街道、快速變化的交通狀況的應對能力也會下降。在這些長尾的極端場景下,單靠攝像頭不一定能穩定地判斷情況,這本質上不是近視,而是缺少可靠的深度感知和補充信息。
還有一點是算法本身的學習和泛化能力問題。深度學習模型是基于大量數據訓練出來的,它能很好地處理常見場景,但對于一些罕見情況或者數據沒覆蓋到的情況,它的判斷可能會不穩定。就像人類在突然下雨、大霧或者隧道驟變光線時,會憑借經驗和其他感覺(聽覺、空間記憶)輔助下做出判斷,而純視覺系統只能根據畫面數據來判斷,這就增加了誤判的風險。

機器視覺的“限制”能不能被克服?
既然純視覺自動駕駛純在諸多問題,那是否有可行的解決方案?其實從理論上來看,可通過技術升級逐步改善,但想完全像人眼一樣,其實很難。
現在很多自動駕駛方案并不只用純視覺,而是融合了激光雷達、毫米波雷達等感知硬件與攝像頭一起感知,這樣在視覺弱的情況下,毫米波雷達和激光雷達可以補充距離信息及環境深度感知。這種融合方案比純視覺方案更穩定。
在算法上,深度學習、三維重建、視覺深度估計等技術都在不斷進步,現在很多純視覺系統可以通過軟件升級提升對復雜場景的理解能力。像是視覺深度估計算法,可以從單目圖像推斷出距離信息,或者通過多攝像頭構成立體視覺來獲取更準確的深度。
還有一些新方法嘗試利用不同波段的光學信息來補充攝像頭的感知能力,并提高視覺感知在弱光或復雜光照條件下的穩定性。一種典型的思路是將可見光與近紅外(Near-Infrared,NIR)光譜的數據融合在一起,這樣系統不僅能獲取攝像頭看到的圖像,還能利用近紅外光在低光或逆光情況下的成像優勢,實現對場景中的物體和結構進行更全面的感知。
總之,純視覺自動駕駛的感知能力確實會不斷提高。未來可能通過更強的算法、更高性能的攝像頭、更智能的數據融合手段,讓它在絕大多數路況下做到跟人類一樣甚至更好的感知效果。

最后的話
回到大家最關心的問題,純視覺自動駕駛會不會像人眼一樣近視?答案是不會從生理上“近視”,因為機器的攝像頭本身沒有眼球那種可調焦結構;它的感知局限也不是眼睛近視那樣的視覺模糊,而是技術層面處理復雜畫面和深度信息的難點。
但是在某些光照、天氣或者極端場景下,它的感知結果可能表現得像“近視”,但隨著算法、硬件和系統融合的進步,這些問題將逐步改善,但要完全做到像人類視覺那樣靈活、全面,目前仍然有諸多難題需要突破。
審核編輯 黃宇
-
自動駕駛
+關注
關注
793文章
14880瀏覽量
179795
發布評論請先 登錄
已有VLM,自動駕駛為什么還要探索VLA?
L3級自動駕駛在技術上有什么不一樣的要求?
自動駕駛攝像頭要如何做標定?
自動駕駛汽車如何檢測石頭這樣的小障礙物?
沒有地圖,純視覺自動駕駛就只能摸瞎嗎?
自動駕駛純視覺方案到底有哪些弊端?
純視覺自動駕駛會像人眼一樣“近視”嗎?
評論