[首發(fā)于智駕最前沿微信公眾號(hào)]數(shù)據(jù)標(biāo)注對(duì)于自動(dòng)駕駛來說,就像是老師教小朋友知識(shí),數(shù)據(jù)標(biāo)注可以讓車輛學(xué)習(xí)辨別道路交通信息的能力。攝像頭、雷達(dá)、激光雷達(dá)(LiDAR)拍下來的只是一堆原始信號(hào),這些信號(hào)本身只是像素和點(diǎn)云。標(biāo)注的工作就是人為地給這些信號(hào)貼上語義標(biāo)簽,告訴模型這是一輛車、這是行人、這是車道線、這個(gè)區(qū)域不能通行之類的明確信息。沒有這些標(biāo)簽,監(jiān)督學(xué)習(xí)、驗(yàn)證和評(píng)估都無法進(jìn)行,模型不知道哪些輸入與哪些輸出應(yīng)該對(duì)應(yīng),訓(xùn)練出的模型也會(huì)很脆弱、不可解釋。

圖片源自:網(wǎng)絡(luò)
之所以說數(shù)據(jù)標(biāo)注非常重要,是因?yàn)闃?biāo)注直接決定了感知、預(yù)測和規(guī)劃模塊能學(xué)到什么。高質(zhì)量、針對(duì)性的標(biāo)注可以讓模型在關(guān)鍵場景表現(xiàn)更穩(wěn);相反,標(biāo)簽錯(cuò)、漏、定義不一致,就會(huì)導(dǎo)致模型在真實(shí)路況中出問題,安全風(fēng)險(xiǎn)直接上升。標(biāo)注還會(huì)影響迭代速度和成本,如果標(biāo)注成本高且慢,就會(huì)拖慢模型從數(shù)據(jù)到上線的閉環(huán),影響產(chǎn)品進(jìn)步速度。

是否所有信息都要標(biāo)注?
既然數(shù)據(jù)標(biāo)注這么重要,那是不是在標(biāo)注過程中,能標(biāo)則標(biāo),且要盡可能多的標(biāo)?實(shí)際上,過度標(biāo)注不僅浪費(fèi)錢也浪費(fèi)時(shí)間。有效的標(biāo)注策略需要基于最終的系統(tǒng)需求和用例來取舍。

圖片源自:網(wǎng)絡(luò)
如果某類標(biāo)簽不會(huì)被模型使用,或者不會(huì)影響決策,就沒必要細(xì)致標(biāo)注。舉個(gè)例子,如果目標(biāo)是實(shí)現(xiàn)城市道路中的基礎(chǔ)車道級(jí)別定位,就不需要把遠(yuǎn)處路旁的廣告牌、樹木的每一根枝條細(xì)分都進(jìn)行標(biāo)注;但是行人、騎行者、其他機(jī)動(dòng)車、交通燈、車道線這些直接關(guān)系到行駛安全的對(duì)象就必須高質(zhì)量標(biāo)注。
標(biāo)注過程中還要看標(biāo)注對(duì)象的稀有性與重要性。有些對(duì)象雖然罕見,但只要出現(xiàn)就會(huì)帶來極高風(fēng)險(xiǎn),像是推車的嬰兒車、倒地的電動(dòng)車、突然橫穿馬路的兒童、施工區(qū)域的臨時(shí)路障等就屬于這類對(duì)象。這類“長尾”對(duì)象雖然樣本少,但優(yōu)先級(jí)更高,需要專門花工夫去搜集并標(biāo)注。
像語義分割那類逐像素的標(biāo)注,不僅耗時(shí)且成本更高。如果我們當(dāng)前的模型只需要粗略的可通行空間邊界或車道線位置,完全精細(xì)的逐像素標(biāo)注可以用更廉價(jià)的多邊形或線狀標(biāo)注替代,后續(xù)再在必要時(shí)補(bǔ)充高精度數(shù)據(jù)。
對(duì)于數(shù)據(jù)標(biāo)注來說,訓(xùn)練集與驗(yàn)證/測試集的標(biāo)注標(biāo)準(zhǔn)可以不同。訓(xùn)練數(shù)據(jù)可以允許一定比例的噪聲、快捷標(biāo)注方法和自動(dòng)化預(yù)標(biāo)注,但驗(yàn)證和測試集的標(biāo)注必須是高度一致且嚴(yán)格的,只有這樣,評(píng)估才可靠。

哪些內(nèi)容更值得標(biāo)注?
既然并不是所有信息都需要標(biāo)注,那對(duì)于自動(dòng)駕駛來說,哪些標(biāo)簽是“必標(biāo)”的?哪些只需要根據(jù)條件進(jìn)行標(biāo)注?

圖片源自:網(wǎng)絡(luò)
對(duì)于自動(dòng)駕駛汽車來說,核心感知對(duì)象的標(biāo)注必須是高質(zhì)量的,機(jī)動(dòng)車、非機(jī)動(dòng)車、行人、交通燈、交通標(biāo)志、車道線、靜態(tài)障礙物(護(hù)欄、石墩)這些直接影響即時(shí)決策的信息,要做到明確的類別定義、精確的空間框(2D或3D)和清晰的遮擋/可見性標(biāo)注。尤其是對(duì)于行人,除了要標(biāo)注類別外,還要標(biāo)注姿態(tài)(站立、行走、蹲下)和是否攜帶物品(推車、手提物)等,因?yàn)檫@些信息會(huì)影響模型的行為預(yù)測。
單幀識(shí)別固然重要,但車輛想知道物體的運(yùn)動(dòng)軌跡、速度和加速度趨勢,動(dòng)態(tài)追蹤與時(shí)序標(biāo)簽更是關(guān)鍵。標(biāo)注軌跡ID、時(shí)序邊界、目標(biāo)出現(xiàn)與消失的時(shí)刻,對(duì)訓(xùn)練多目標(biāo)跟蹤(MOT)和預(yù)測模塊至關(guān)重要。特別是在交叉口、并線、減速跟隨這類需要預(yù)測他人行為的場景,時(shí)序數(shù)據(jù)能顯著提升系統(tǒng)表現(xiàn)。
高精度的三維信息對(duì)定位和避障非常有用,LiDAR點(diǎn)云的點(diǎn)級(jí)別分類、3D包圍盒、物體朝向和尺寸標(biāo)注,是構(gòu)建可靠三維感知的基礎(chǔ)。尤其是在夜間或弱光環(huán)境下,激光雷達(dá)可為系統(tǒng)提供穩(wěn)定的距離信息,配合圖像標(biāo)注可以提高檢測魯棒性。
車道與可行駛區(qū)域的語義標(biāo)注也必須重視,明確車道邊界、車道類型、虛線/實(shí)線、交叉口區(qū)域、匝道、慢車道等標(biāo)注,能夠幫助高精地圖生成與局部行為決策。像是路緣石、盲道磚、停車位等靜態(tài)地圖元素,在某些應(yīng)用場景下是非常必要的標(biāo)簽。
長尾與異常場景需要制定單獨(dú)的標(biāo)注策略,像是施工場景、事故現(xiàn)場、異常天氣(大雪、暴雨、霧霾)、道路受損、臨時(shí)交通管制、違停車輛、緊急救援車輛出現(xiàn)等場景,雖然出現(xiàn)頻率低,但對(duì)安全影響大。建議用專門的樣本池和標(biāo)注流程,把這些數(shù)據(jù)優(yōu)先納入訓(xùn)練或用于強(qiáng)化模型在稀有場景下的表現(xiàn)。

圖片源自:網(wǎng)絡(luò)
對(duì)于自動(dòng)駕駛來說,行為與意圖層面的標(biāo)注價(jià)值也在上升。自動(dòng)駕駛汽車除了要學(xué)習(xí)“這是什么”,還要學(xué)習(xí)“它要做什么”。像是標(biāo)注車輛的并線意圖、行人的過街意圖、騎車人的加速/減速意圖,這些標(biāo)簽對(duì)預(yù)測模塊非常有用。行為標(biāo)簽往往需要結(jié)合上下文和時(shí)序,標(biāo)注更費(fèi)時(shí)也更主觀,但回報(bào)很高。
環(huán)境與天氣標(biāo)簽也不可忽視,每一幀的光照條件、能見度、路面狀況(濕滑、結(jié)冰)、是否有積雪、是否處于黃昏/夜間等信息,都應(yīng)作為元標(biāo)簽保存,這樣能幫助模型做域自適應(yīng)、并讓工程師更快找到模型弱點(diǎn)。
地圖和高精定位相關(guān)的標(biāo)注要與HD地圖結(jié)合,標(biāo)注路口拓?fù)洹④嚨肋B接關(guān)系、交通燈控制邏輯等信息,可用于規(guī)則基的行為決策與混合策略系統(tǒng)。高精地圖的制作本身就是一種標(biāo)注活動(dòng),只不過尺度更大、需求更精細(xì)。
除了感知之外,數(shù)據(jù)質(zhì)量與元信息的標(biāo)注也值得投入。設(shè)備故障、同步問題、畸變或遮擋等元數(shù)據(jù)標(biāo)注能幫助后續(xù)數(shù)據(jù)清洗與模型魯棒性提升。很多看似能力很差的模型可能只是沒有這些元標(biāo)簽的原因?qū)е碌摹?/p>

最后的話
對(duì)于自動(dòng)駕駛來說,標(biāo)注并不是一次性的“下游工作”,而是產(chǎn)品能力的核心組成部分。標(biāo)注并不是簡單的勞動(dòng)密集型支出,而是自動(dòng)駕駛環(huán)節(jié)中非常重要的一環(huán),將決定自動(dòng)駕駛汽車的駕駛行為。
對(duì)于數(shù)據(jù)標(biāo)注,一定要明確兩點(diǎn),一是標(biāo)注要與需求對(duì)齊,先做關(guān)鍵的、影響安全和決策的標(biāo)簽;二是在資源有限時(shí),要把錢和人工花在能迅速改善模型弱點(diǎn)的地方。只有這樣,標(biāo)注才能成為推動(dòng)自動(dòng)駕駛技術(shù)成熟的穩(wěn)健引擎。
審核編輯 黃宇
-
自動(dòng)駕駛
+關(guān)注
關(guān)注
791文章
14707瀏覽量
177073 -
LIDAR
+關(guān)注
關(guān)注
11文章
363瀏覽量
31194
發(fā)布評(píng)論請(qǐng)先 登錄
小語種OCR標(biāo)注效率提升10+倍:PaddleOCR+ERNIE 4.5自動(dòng)標(biāo)注實(shí)戰(zhàn)解析
自動(dòng)駕駛數(shù)據(jù)標(biāo)注主要是標(biāo)注什么?
什么是自動(dòng)駕駛數(shù)據(jù)標(biāo)注?如何好做數(shù)據(jù)標(biāo)注?
端到端數(shù)據(jù)標(biāo)注方案在自動(dòng)駕駛領(lǐng)域的應(yīng)用優(yōu)勢
淺析4D-bev標(biāo)注技術(shù)在自動(dòng)駕駛領(lǐng)域的重要性
東軟集團(tuán)入選國家數(shù)據(jù)局數(shù)據(jù)標(biāo)注優(yōu)秀案例
數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石
標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練的數(shù)據(jù)基石
自動(dòng)化標(biāo)注技術(shù)推動(dòng)AI數(shù)據(jù)訓(xùn)練革新
標(biāo)貝自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)推動(dòng)AI數(shù)據(jù)訓(xùn)練革新
從自動(dòng)駕駛行業(yè),分析數(shù)據(jù)標(biāo)注在人工智能的重要性
以自動(dòng)駕駛角度解析數(shù)據(jù)標(biāo)注對(duì)于人工智能的重要性
AI自動(dòng)圖像標(biāo)注工具SpeedDP將是數(shù)據(jù)標(biāo)注行業(yè)發(fā)展的重要引擎
標(biāo)貝數(shù)據(jù)標(biāo)注在智能駕駛訓(xùn)練中的落地案例

自動(dòng)駕駛數(shù)據(jù)標(biāo)注是所有信息都要標(biāo)注嗎?
評(píng)論