国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種使用Mask Transformer進(jìn)行全景分割的端到端解決方案

OpenCV學(xué)堂 ? 來源:新智元 ? 作者:新智元 ? 2022-07-28 10:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】近日,谷歌團(tuán)隊(duì)推出了一項(xiàng)新Transformer,可用于優(yōu)化全景分割方案,還登上了CVPR 2022。

最近,谷歌AI團(tuán)隊(duì)受Transformer和DETR的啟發(fā)提出了一種使用Mask Transformer進(jìn)行全景分割的端到端解決方案。

全稱是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架構(gòu)的擴(kuò)展。

該解決方案采用像素路徑(由卷積神經(jīng)網(wǎng)絡(luò)或視覺Transformer組成)提取像素特征,內(nèi)存路徑(由Transformer解碼器模塊組成)提取內(nèi)存特征,以及雙路徑Transformer用于像素特征和內(nèi)存之間的交互特征。

然而,利用交叉注意力的雙路徑Transformer最初是為語言任務(wù)設(shè)計(jì)的,它的輸入序列由幾百個(gè)單詞構(gòu)成。

而對視覺任務(wù)尤其是分割問題來說,其輸入序列由數(shù)萬個(gè)像素組成,這不僅表明輸入規(guī)模的幅度要大得多,而且與語言單詞相比也代表了較低級別的嵌入。

全景分割是一個(gè)計(jì)算機(jī)視覺問題,它是現(xiàn)在許多應(yīng)用程序的核心任務(wù)。

它分為語義分割和實(shí)例分割兩部分。

語義分割就比如為圖像中的每個(gè)像素分配語義標(biāo)簽,例如「人」和「天空」。

而實(shí)例分割僅識別和分割圖中的可數(shù)對象,如「行人」和「汽車」,并進(jìn)一步將其劃分為幾個(gè)子任務(wù)。

每個(gè)子任務(wù)單獨(dú)處理,并應(yīng)用額外的模塊來合并每個(gè)子任務(wù)階段的結(jié)果。

這個(gè)過程不僅復(fù)雜,而且在處理子任務(wù)和整合不同子任務(wù)結(jié)果時(shí)還會引入許多人工設(shè)計(jì)的先驗(yàn)。

332dcd92-0dbb-11ed-ba43-dac502259ad0.png

在 CVPR 2022 上發(fā)表的「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」中,文章提出從聚類的角度重新解讀并且重新設(shè)計(jì)交叉注意力cross attention(也就是將相同語義標(biāo)簽的像素分在同一組),從而更好地適應(yīng)視覺任務(wù)。

CMT-DeepLab 建立在先前最先進(jìn)的方法 MaX-DeepLab 之上,并采用像素聚類方法來執(zhí)行交叉注意,從而產(chǎn)生更密集和合理的注意圖。

33465a56-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 進(jìn)一步重新設(shè)計(jì)了交叉注意力,使其更像一個(gè) k-means 聚類算法,對激活函數(shù)進(jìn)行了簡單的更改。

結(jié)構(gòu)總覽

研究人員將從聚類的角度進(jìn)行重新解釋,而不是直接將交叉注意力應(yīng)用于視覺任務(wù)而不進(jìn)行修改。

具體來說,他們注意到Mask Transformer 對象查詢可以被認(rèn)為是集群中心(旨在對具有相同語義標(biāo)簽的像素進(jìn)行分組)。

交叉注意力的過程類似于 k-means 聚類算法,(1)將像素分配給聚類中心的迭代過程,其中可以將多個(gè)像素分配給單個(gè)聚類中心,而某些聚類中心可能沒有分配的像素,以及(2)通過平均分配給同一聚類中心的像素來更新聚類中心,如果沒有分配像素,則不會更新聚類中心)。

33569146-0dbb-11ed-ba43-dac502259ad0.png

在CMT-DeepLab和kMaX-DeepLab中,我們從聚類的角度重新制定了交叉注意力,其中包括迭代聚類分配和聚類更新步驟

鑒于 k-means聚類算法的流行,在CMT-DeepLab中,他們重新設(shè)計(jì)了交叉注意力,以便空間方面的softmax操作(即沿圖像空間分辨率應(yīng)用的 softmax 操作),實(shí)際上將聚類中心分配給相反,像素是沿集群中心應(yīng)用的。

在 kMaX-DeepLab 中,我們進(jìn)一步將空間方式的 softmax 簡化為集群方式的 argmax(即沿集群中心應(yīng)用 argmax 操作)。

他們注意到 argmax 操作與 k-means 聚類算法中使用的硬分配(即一個(gè)像素僅分配給一個(gè)簇)相同。

從聚類的角度重新構(gòu)建MaskTransformer的交叉注意力,顯著提高了分割性能,并簡化了復(fù)雜的Masktransformer管道,使其更具可解釋性。

首先,使用編碼器-解碼器結(jié)構(gòu)從輸入圖像中提取像素特征。然后,使用一組聚類中心對像素進(jìn)行分組,這些像素會根據(jù)聚類分配進(jìn)一步更新。最后,迭代執(zhí)行聚類分配和更新步驟,而最后一個(gè)分配可直接用作分割預(yù)測。

338234fe-0dbb-11ed-ba43-dac502259ad0.png

為了將典型的MaskTransformer解碼器(由交叉注意力、多頭自注意力和前饋網(wǎng)絡(luò)組成)轉(zhuǎn)換為上文提出的k-means交叉注意力,只需將空間方式的softmax替換為集群方式最大參數(shù)。

本次提出的 kMaX-DeepLab 的元架構(gòu)由三個(gè)組件組成:像素編碼器、增強(qiáng)像素解碼器和 kMaX 解碼器。

像素編碼器是任何網(wǎng)絡(luò)主干,用于提取圖像特征。

增強(qiáng)的像素解碼器包括用于增強(qiáng)像素特征的Transformer編碼器,以及用于生成更高分辨率特征的上采樣層。

一系列 kMaX 解碼器將集群中心轉(zhuǎn)換為 (1) Mask嵌入向量,其與像素特征相乘以生成預(yù)測Mask,以及 (2) 每個(gè)Mask的類預(yù)測。

3390e68e-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的元架構(gòu)

研究結(jié)果

最后,研究小組在兩個(gè)最具挑戰(zhàn)性的全景分割數(shù)據(jù)集 COCO 和 Cityscapes 上使用全景質(zhì)量 (PQ) 度量來評估 CMT-DeepLab 和 kMaX-DeepLab,并對比 MaX-DeepLab 和其他最先進(jìn)的方法。

其中CMT-DeepLab 實(shí)現(xiàn)了顯著的性能提升,而 kMaX-DeepLab 不僅簡化了修改,還進(jìn)一步提升了,COCO val set 上的 PQ 為 58.0%,PQ 為 68.4%,44.0% Mask平均精度(Mask AP),Cityscapes 驗(yàn)證集上的 83.5% 平均交集比聯(lián)合(mIoU),沒有測試時(shí)間增強(qiáng)或使用外部數(shù)據(jù)集。

33a23c36-0dbb-11ed-ba43-dac502259ad0.png

從聚類的角度設(shè)計(jì),kMaX-DeepLab 不僅具有更高的性能,而且還可以更合理地可視化注意力圖以了解其工作機(jī)制。

在下面的示例中,kMaX-DeepLab 迭代地執(zhí)行聚類分配和更新,從而逐漸提高M(jìn)ask質(zhì)量。

33b1197c-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的注意力圖可以直接可視化為全景分割,讓模型工作機(jī)制更合理

結(jié)論

本次研究展示了一種更好地設(shè)計(jì)視覺任務(wù)中的MaskTransformer的方法。

通過簡單的修改,CMT-DeepLab 和 kMaX-DeepLab 重新構(gòu)建了交叉注意力,使其更像一種聚類算法。

因此,所提出的模型在COCO 和 Cityscapes數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。

研究團(tuán)隊(duì)表示,他們希望 DeepLab2 庫中 kMaX-DeepLab 的開源版本有助于未來對專用于視覺Transformer架構(gòu)設(shè)計(jì)的研究。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1219

    瀏覽量

    43413
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42329
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1715

    瀏覽量

    47630

原文標(biāo)題:谷歌團(tuán)隊(duì)推出新Transformer,優(yōu)化全景分割方案|CVPR 2022

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動駕駛仿真新范式:aiSim如何解決智駕測試的"災(zāi)難性挑戰(zhàn)"

    1 引言:從模塊化的智駕革命 隨著智能駕駛技術(shù)快速發(fā)展,
    的頭像 發(fā)表于 12-17 14:15 ?293次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛仿真新范式:aiSim如何解決智駕測試的&quot;災(zāi)難性挑戰(zhàn)&quot;

    如何訓(xùn)練好自動駕駛模型?

    [首發(fā)于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:算法是怎樣訓(xùn)練的?是模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和離線強(qiáng)化學(xué)習(xí)這三類嗎?其實(shí)
    的頭像 發(fā)表于 12-08 16:31 ?1427次閱讀
    如何訓(xùn)練好自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?

    智駕模擬軟件推薦——為什么選擇Keymotek的aiSim?

    隨著自動駕駛技術(shù)的快速發(fā)展,車企和科技公司對于模擬測試平臺的需求越來越強(qiáng)。從L2/ADASL4/L5等級的自動駕駛,虛擬模擬已經(jīng)成為其中的關(guān)鍵環(huán)。特別是對于「」智駕(
    的頭像 發(fā)表于 11-18 11:35 ?817次閱讀

    Nullmax軌跡規(guī)劃論文入選AAAI 2026

    11月8日,全球人工智能頂會 AAAI 2026 公布論文錄用結(jié)果,Nullmax 研發(fā)團(tuán)隊(duì)的軌跡規(guī)劃論文成功入選。該論文創(chuàng)新提出一種由粗
    的頭像 發(fā)表于 11-12 10:53 ?861次閱讀

    自動駕駛中仿真與基于規(guī)則的仿真有什么區(qū)別?

    在自動駕駛領(lǐng)域,“仿真”指的是將感知控制的整個(gè)決策鏈條視為個(gè)整體,從而進(jìn)行訓(xùn)練和驗(yàn)證的
    的頭像 發(fā)表于 11-02 11:33 ?1708次閱讀

    自動駕駛中“段式”和“二段式”有什么區(qū)別?

    [首發(fā)于智駕最前沿微信公眾號]最近有小伙伴提問,段式和二段式
    的頭像 發(fā)表于 10-24 09:03 ?1170次閱讀
    自動駕駛中“<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么區(qū)別?

    自動駕駛中常提的段式(單段)是個(gè)啥?

    自動駕駛技術(shù)的發(fā)展,催生出技術(shù)的應(yīng)用,段式
    的頭像 發(fā)表于 10-18 10:16 ?1690次閱讀

    解決方案 | 云管體化OTA HIL測試解決方案

    TOSUN云管體化OTAHIL測試解決方案隨著智能網(wǎng)聯(lián)汽車的快速發(fā)展,OTA(Over-the-Air)技術(shù)已成為車輛軟件升級的核心手段。為滿足日益嚴(yán)格的法規(guī)要求和技術(shù)挑戰(zhàn),同星智能(TOSUN
    的頭像 發(fā)表于 09-19 20:03 ?980次閱讀
    <b class='flag-5'>解決方案</b> | 云管<b class='flag-5'>端</b><b class='flag-5'>一</b>體化OTA HIL測試<b class='flag-5'>解決方案</b>

    自主工具鏈助力組合輔助駕駛算法驗(yàn)證

    徹底解決越來越多的長尾問題。圖1輔助駕駛算法(圖片來源網(wǎng)絡(luò))輔助駕駛算法是一種深度學(xué)習(xí)算法,該算法將傳感器數(shù)據(jù)輸入后,基于大模型直接輸出車輛控制指令。
    的頭像 發(fā)表于 08-26 17:41 ?3349次閱讀
    自主工具鏈助力<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>組合輔助駕駛算法驗(yàn)證

    Transformer自動駕駛架構(gòu)中是何定位?

    典型的Transformer架構(gòu)已被用于構(gòu)建“感知-規(guī)劃-控制統(tǒng)建模”的方案。如Waymo和小馬智行正在研發(fā)的多模態(tài)大模型(MultimodalLargeModels,MLLMs),將來自攝像頭
    的頭像 發(fā)表于 08-03 11:03 ?1384次閱讀

    Nullmax自動駕駛最新研究成果入選ICCV 2025

    Nullmax 在段式核心技術(shù)上的深厚積累與創(chuàng)新實(shí)力,尤其在
    的頭像 發(fā)表于 07-05 15:40 ?1807次閱讀
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛最新研究成果入選ICCV 2025

    數(shù)據(jù)標(biāo)注方案在自動駕駛領(lǐng)域的應(yīng)用優(yōu)勢

    10-20TB,其中需要標(biāo)注的數(shù)據(jù)占比超過60%。在這樣的背景下,數(shù)據(jù)標(biāo)注方案應(yīng)運(yùn)而生,正在重塑自動駕駛的數(shù)據(jù)生產(chǎn)范式。
    的頭像 發(fā)表于 06-23 17:27 ?1012次閱讀

    文帶你厘清自動駕駛架構(gòu)差異

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)飛速發(fā)展,智能駕駛系統(tǒng)的設(shè)計(jì)思路也經(jīng)歷了從傳統(tǒng)模塊化架構(gòu)大模型轉(zhuǎn)變。傳統(tǒng)模塊化架構(gòu)將感知、預(yù)測、規(guī)劃和控制等子任務(wù)拆分開,分別由不
    的頭像 發(fā)表于 05-08 09:07 ?1030次閱讀
    <b class='flag-5'>一</b>文帶你厘清自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構(gòu)差異

    Elektrobit 將于2025上海車展展示云端至車的軟件定義汽車創(chuàng)新解決方案

    ,Elektrobit?今日宣布將攜其變革性軟件解決方案亮相2025上海車展。公司通過完整覆蓋從云端
    的頭像 發(fā)表于 04-08 11:41 ?635次閱讀

    小米汽車智駕技術(shù)介紹

    后起之秀,小米在宣布造車前被非常多的人質(zhì)疑,但在“真香”定律下,小米創(chuàng)下了很多友商所不能及的成就。作為科技企業(yè),小米也在智能駕駛領(lǐng)域也不斷研發(fā)及突破,并推送了自動駕駛系統(tǒng)。 小米
    的頭像 發(fā)表于 03-31 18:17 ?5270次閱讀
    小米汽車<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>智駕技術(shù)介紹