玖玖爱资源网,久久手机基线免费你懂,国产无套流白浆一区二区

1、Camera only

主要思想：固定900個query個數(shù)，隨機初始化query。每個query對應一個3D reference point，然后反投影到圖片上sample對應像素的特征。

缺點：需要預訓練模型，且因為是隨機初始化，訓練收斂較慢

BEV Former

https://arxiv.org/abs/2203.17270

主要思想：將BEV下的每個grid作為query，在高度上采樣N個點，投影到圖像中sample到對應像素的特征，且利用了空間和時間的信息。并且最終得到的是BEV featrue，在此featrue上做Det和Seg。

Spatial Cross-Attention：將BEV下的每個grid作為query，在高度上采樣N個點，投影到圖像中獲取特征。

Temporal Self-Attention: 通過self-attention代替運動補償，align上一幀的feature到當前幀的Q

曠視，PETR

https://arxiv.org/pdf/2203.05625.pdf

2、多模態(tài)

清華，F(xiàn)UTR3D

https://arxiv.org/pdf/2203.10642.pdf

在DETR的基礎上，將3D reference point投影到Lidar voxel特征和radar point 特征上。

香港科技大學，Transfusion

https://arxiv.org/pdf/2203.11496.pdf

利用CenterPoint在heatmap上獲取Top K個點作為Query（這K個點可以看做是通過lidar網(wǎng)絡初始化了每個目標的位置，這比DETR用隨機點作為Qurey收斂要快），先經(jīng)過Lidar Transformer得到proposal，把這個proposal作為Query，再和image feature做cross attention。