現(xiàn)存的用檢測(cè)跟蹤的方法采用簡(jiǎn)單的heuristics,如空間或外觀相似性。這些方法,盡管其共性,但過(guò)于簡(jiǎn)單,不足以建模復(fù)雜的變化,如通過(guò)遮擋跟蹤。
1
簡(jiǎn)要
多目標(biāo)跟蹤(MOT)任務(wù)的關(guān)鍵挑戰(zhàn)是跟蹤目標(biāo)下的時(shí)間建模。現(xiàn)存的用檢測(cè)跟蹤的方法采用簡(jiǎn)單的heuristics,如空間或外觀相似性。這些方法,盡管其共性,但過(guò)于簡(jiǎn)單,不足以建模復(fù)雜的變化,如通過(guò)遮擋跟蹤。所以現(xiàn)有的方法缺乏從數(shù)據(jù)中學(xué)習(xí)時(shí)間變化的能力。

在今天分享中,研究者提出了第一個(gè)完全端到端多目標(biāo)跟蹤框架MOTR。它學(xué)習(xí)了模擬目標(biāo)的長(zhǎng)距離時(shí)間變化。它隱式地執(zhí)行時(shí)間關(guān)聯(lián),并避免了以前的顯式啟發(fā)式方法。MOTR建立在TRansformer和DETR之上,引入了“跟蹤查詢”的概念。每個(gè)跟蹤查詢都會(huì)模擬一個(gè)目標(biāo)的整個(gè)跟蹤。逐幀傳輸和更新,以無(wú)縫地執(zhí)行目標(biāo)檢測(cè)和跟蹤。提出了時(shí)間聚合網(wǎng)絡(luò)(Temporal aggregation network)結(jié)合多框架訓(xùn)練來(lái)建模長(zhǎng)期時(shí)間關(guān)系。實(shí)驗(yàn)結(jié)果表明,MOTR達(dá)到了最先進(jìn)的性能。
2
簡(jiǎn)單背景
多目標(biāo)跟蹤(MOT)是一種視覺(jué)目標(biāo)檢測(cè),其任務(wù)不僅是定位每一幀中的所有目標(biāo),而且還可以預(yù)測(cè)這些目標(biāo)在整個(gè)視頻序列中的運(yùn)動(dòng)軌跡。這個(gè)問(wèn)題具有挑戰(zhàn)性,因?yàn)槊恳粠械哪繕?biāo)可能會(huì)在pool environment中被遮擋,而開發(fā)的跟蹤器可能會(huì)受到長(zhǎng)期和低速率跟蹤的影響。這些復(fù)雜而多樣的跟蹤方案在設(shè)計(jì)MOT解決方案時(shí)帶來(lái)了重大挑戰(zhàn)。

對(duì)于基于IoU的方法,計(jì)算從兩個(gè)相鄰幀檢測(cè)到的檢測(cè)框的IoU矩陣,重疊高于給定閾值的邊界框與相同的身份相關(guān)聯(lián)(見上圖(a))。類似地,基于Re-ID的方法計(jì)算相鄰幀的特征相似性,并將目標(biāo)對(duì)與高相似性相關(guān)起來(lái)。此外,最近的一些工作還嘗試了目標(biāo)檢測(cè)和重識(shí)別特征學(xué)習(xí)的聯(lián)合訓(xùn)練(見上圖(b))。
由于DETR的巨大成功,這項(xiàng)工作將“目標(biāo)查詢”的概念擴(kuò)展到目標(biāo)跟蹤模型,在新框架中被稱為跟蹤查詢。每個(gè)跟蹤查詢都負(fù)責(zé)預(yù)測(cè)一個(gè)目標(biāo)的整個(gè)跟蹤。如上圖(c),與分類和框回歸分支并行,MOTR預(yù)測(cè)每一幀的跟蹤查詢集。
3
新框架分析
最近,DETR通過(guò)采用TRansformer成功地進(jìn)行了目標(biāo)檢測(cè)。在DETR中,目標(biāo)查詢,一個(gè)固定數(shù)量的學(xué)習(xí)位置嵌入,表示一些可能的實(shí)例的建議。一個(gè)目標(biāo)查詢只對(duì)應(yīng)于一個(gè)使用bipartite matching的對(duì)象。考慮到DETR中存在的高復(fù)雜性和慢收斂問(wèn)題,Deformable DETR用多尺度deformable attention取代了self-attention。為了展示目標(biāo)查詢?nèi)绾瓮ㄟ^(guò)解碼器與特征交互,研究者重新制定了Deformable DETR的解碼器。

MOTR
在MOTR中,研究者引入了跟蹤查詢和連續(xù)查詢傳遞,以完全端到端的方式執(zhí)行跟蹤預(yù)測(cè)。進(jìn)一步提出了時(shí)間聚合網(wǎng)絡(luò)來(lái)增強(qiáng)多幀的時(shí)間信息。

DETR中引入的目標(biāo)(檢測(cè))查詢不負(fù)責(zé)對(duì)特定目標(biāo)的預(yù)測(cè)。因此,一個(gè)目標(biāo)查詢可以隨著輸入圖像的變化而預(yù)測(cè)不同的目標(biāo)。當(dāng)在MOT數(shù)據(jù)集的示例上使用DETR檢測(cè)器時(shí),如上圖(a),相同檢測(cè)查詢(綠色目標(biāo)查詢)預(yù)測(cè)兩個(gè)不同幀預(yù)測(cè)兩個(gè)不同的目標(biāo)。因此,很難通過(guò)目標(biāo)查詢的身份來(lái)將檢測(cè)預(yù)測(cè)作為跟蹤值聯(lián)系起來(lái)。作為一種補(bǔ)救措施,研究者將目標(biāo)查詢擴(kuò)展到目標(biāo)跟蹤模型,即跟蹤查詢。在新的設(shè)計(jì)中,每個(gè)軌跡查詢都負(fù)責(zé)預(yù)測(cè)一個(gè)目標(biāo)的整個(gè)軌跡。一旦跟蹤查詢與幀中的一個(gè)目標(biāo)匹配,它總是預(yù)測(cè)目標(biāo),直到目標(biāo)消失(見上圖(b))。

Overall architecture of the proposed MOTR
Query Interaction Module
在訓(xùn)練階段,可以基于對(duì)bipartite matching的GTs的監(jiān)督來(lái)實(shí)現(xiàn)跟蹤查詢的學(xué)習(xí)。而對(duì)于推斷,研究者使用預(yù)測(cè)的軌跡分?jǐn)?shù)來(lái)確定軌道何時(shí)出現(xiàn)和消失。

Overall Optimization
我們?cè)敿?xì)描述下MOTR的訓(xùn)練過(guò)程。給定一個(gè)視頻序列作為輸入,訓(xùn)練損失,即track loss,是逐幀計(jì)算和逐幀生成的預(yù)測(cè)。總track loss是由訓(xùn)練樣本上的所有GT的數(shù)量歸一化的所有幀的track loss的總和:

單幀圖像Lt的track loss可表示為:

4
實(shí)驗(yàn)

Implementation Details
All the experiments are conducted on PyTorch with 8Tesla V100 GPUs. We use the Deformable-DETR withResNet50 as our basic network. The basic network ispretrained on the COCO detection dataset.We trainour model with the AdamW optimizer for total 200 epochswith the initial learning rate of 2.0 · 10?4. The learning ratedecays to 2.0 · 10?5 at 150 epochs. The batch size is set to1 and each batch contains 5 frames.

The effect of multi-frame continuous query passing on solving ID switch problem. When the length of video sequence is setto two (top), the objects that are occluded will miss and switch the identity. When improving the video sequence length from two to five(bottom), the track will not occur the ID switch problem with the help of enhanced temporal relation.

審核編輯:劉清
-
解碼器
+關(guān)注
關(guān)注
9文章
1218瀏覽量
43390 -
檢測(cè)器
+關(guān)注
關(guān)注
1文章
931瀏覽量
49933 -
MOT
+關(guān)注
關(guān)注
0文章
25瀏覽量
7358
原文標(biāo)題:利用TRansformer進(jìn)行端到端的目標(biāo)檢測(cè)及跟蹤(附源代碼)
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
端到端下半場(chǎng),如何做好高保真虛擬數(shù)據(jù)集的構(gòu)建與感知?
Nullmax感知規(guī)劃端到端大模型進(jìn)化提速
如何訓(xùn)練好自動(dòng)駕駛端到端模型?
端到端智駕模擬軟件推薦——為什么選擇Keymotek的aiSim?
Nullmax端到端軌跡規(guī)劃論文入選AAAI 2026
自動(dòng)駕駛中端到端仿真與基于規(guī)則的仿真有什么區(qū)別?
自動(dòng)駕駛中“一段式端到端”和“二段式端到端”有什么區(qū)別?
廣和通發(fā)布端側(cè)目標(biāo)檢測(cè)模型FiboDet
蔚來(lái)端到端模型化架構(gòu)如何大幅提升安全上限
Transformer在端到端自動(dòng)駕駛架構(gòu)中是何定位?
Nullmax端到端自動(dòng)駕駛最新研究成果入選ICCV 2025
為什么自動(dòng)駕駛端到端大模型有黑盒特性?
為何端到端成為各車企智駕布局的首要選擇?
一文帶你厘清自動(dòng)駕駛端到端架構(gòu)差異
小米汽車端到端智駕技術(shù)介紹
利用TRansformer進(jìn)行端到端的目標(biāo)檢測(cè)及跟蹤
評(píng)論