国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于全景分割的全場景圖生成任務

OpenCV學堂 ? 來源:新智元 ? 作者:新智元 ? 2022-08-24 10:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】本文提出基于全景分割的全場景圖生成(panoptic scene graph generation,即PSG)任務。相比于傳統基于檢測框的場景圖生成,PSG任務要求全面地輸出圖像中的所有關系(包括物體與物體間關系,物體與背景間關系,背景與背景間關系),并用準確的分割塊來定位物體。PSG任務旨在推動計算機視覺模型對場景最全面的理解和感知,用全面的識別結果更好地支撐場景描述、視覺推理等下游任務。同時PSG數據集提供的關系標注和全景分割也為解決當前圖像生成領域對關系不敏感的問題創造了新的機遇。

現在已經2022年了,但是當下大多數的計算機視覺任務卻仍然只關注于圖像感知。比如說,圖像分類任務只需要模型識別圖像中的物體物體類別。

雖然目標檢測,圖像分割等任務進一步要求找到物體的位置,然而,此類任務仍然不足以說明模型獲得了對場景全面深入的理解。

以下圖1為例,如果計算機視覺模型只檢測到圖片中的人、大象、柵欄、樹木等,我們通常不會認為模型已經理解了圖片,而該模型也無法根據理解做出更高級的決策,例如發出「禁止投喂」的警告。

事實上,在智慧城市、自動駕駛、智能制造等許多現實世界的AI場景中,除了對場景中的目標進行定位外,我們通常還期待模型對圖像中各個主體之間的關系進行推理和預測。

例如,在自動駕駛應用中,自動車需要分析路邊的行人是在推車還是在騎自行車。根據不同的情況,相應的后續決策可能都會有所不同。而在智能工廠場景中,判斷操作員是否操作安全正確也需要監控端的模型有理解主體之間關系的能力。

大多數現有的方法都是手動設置一些硬編碼的規則。這使得模型缺乏泛化性,難以適應其他特定情況。

場景圖生成任務(scene graph generation,或SGG)就旨在解決如上的問題。在對目標物體進行分類和定位的要求之上,SGG任務還需要模型預測對象之間的關系(見圖 2)。

a77441c4-22e5-11ed-ba43-dac502259ad0.jpg

圖2:場景圖生成

傳統場景圖生成任務的數據集通常具有對象的邊界框標注,并標注邊界框之間的關系。但是,這種設置有幾個固有的缺陷:

(1)邊界框無法準確定位物體:如圖2所示,邊界框在標注人時不可避免地會包含人周圍的物體;

(2)背景無法標注:如圖2所示,大象身后的樹木用bounding box標注,幾乎覆蓋了整個圖像,所以涉及到背景的關系無法準確標注,這也使得場景圖無法完全覆蓋圖像,無法達到全面的場景理解。

因此,作者提出全場景圖生成(PSG)任務,攜同一個精細標注的大規模PSG數據集。

a790abd4-22e5-11ed-ba43-dac502259ad0.png

圖3:全場景圖生成

如圖 3 所示,該任務利用全景分割來全面準確地定位對象和背景,從而解決場景圖生成任務的固有缺點,從而推動該領域朝著全面和深入的場景理解邁進。

論文信息

a7b9525a-22e5-11ed-ba43-dac502259ad0.png

Paper link: https://arxiv.org/abs/2207.11247

Project Page: https://psgdataset.org/

OpenPSG Codebase: https://github.com/Jingkang50/OpenPSG

Competition Link: https://www.cvmart.net/race/10349/base

ECCV’22 SenseHuman Workshop Link: https://sense-human.github.io/

HuggingFace Demo Link: https://huggingface.co/spaces/ECCV2022/PSG

作者提出的PSG數據集包含近五萬張coco的圖片,并基于coco已有的全景分割標注,標注了分割塊之間的關系。

作者精細地定義了56種關系,包括了位置關系(over,in front of,等),常見的物體間關系(hanging from等),常見的生物動作(walking on,standing on,等),人類行為(cooking等),交通場景中的關系(driving,riding等),運動場景中的關系(kicking等),以及背景間關系(enclosing等)。

作者要求標注員能用更準確的動詞表達就絕不用更模糊的表達,并且盡可能全地標注圖中的關系。

a7c4f952-22e5-11ed-ba43-dac502259ad0.gif

PSG模型效果展示

任務優勢

作者通過下圖的例子再次理解全場景圖生成(PSG)任務的優勢:

a8536520-22e5-11ed-ba43-dac502259ad0.png

左圖來自于SGG任務的傳統數據集Visual Genome (VG-150)。可以看到基于檢測框的標注通常不準確,而檢測框覆蓋的像素也不能準確定位物體,尤其是椅子,樹木之類的背景。同時,基于檢測框的關系標注通常會傾向于的標注一些無聊的關系,如「人有頭」,「人穿著衣服」。

相比之下,右圖中提出的 PSG 任務提供了更全面(包括前景和背景的互動)、更清晰(合適的物體粒度)和更準確(像素級準確)的場景圖表示,以推動場景理解領域的發展。

兩大類PSG模型

為了支撐提出的PSG任務,作者搭建了一個開源代碼平臺OpenPSG,其中實現了四個雙階段的方法和兩個單階段的方法,方便大家開發、使用、分析。

a877c10e-22e5-11ed-ba43-dac502259ad0.png

雙階段的方法利用Panoptic-FPN在第一階段中對圖像進行全景分割。

接下來作者提取全景分割得到的物體的特征以及每一對物體融合的關系特征,送至下一階段的關系預測階段。框架已集成復現了傳統場景圖生成的經典方法IMP,VCTree,Motifs,和GPSNet。

a890fe62-22e5-11ed-ba43-dac502259ad0.png

PSGFormer是基于雙decoder DETR的單階段方法。

模型首先在a)中通過卷積神經網絡backbone提取圖片特征并加以位置編碼信息作為編碼器的輸入,同時初始化一組用以表示三元組的queries。

與DETR類似地, 在b)中模型將編碼器的輸出作為key和value與表示三元組的queries一同輸入解碼器進行cross-attention操作。

隨后模型在c)中將解碼完成的每個query分別輸入主謂賓三元組對應的預測模塊,最后得到對應的三元組預測結果。

a8a60924-22e5-11ed-ba43-dac502259ad0.png

PSGFormer基于雙decode的DETR的單階段方法。

模型在a) 通過CNN提取圖片特征,加以位置編碼信息輸入編碼器,同時初始化了兩組queries分別代表物體和關系。

接著在b)步驟里,模型基于編碼器編碼的圖片信息,分別在物體解碼器和關系編碼器中通過cross-attention解碼學習物體query和關系query。

當兩類query均學習完畢后,在c)中通過映射后匹配,得到成對的三元組query。

最后在d)中通過預測頭分別完成關于物體query和關系query的預測,并根據c)中的匹配結果得到最終的三元組預測結果。

PSGTR與PSGFormer都是在DETR的基礎上進行擴展和改進的模型,不同的地方在于PSGTR用一組query對于三元組直接建模而PSGFormer則通過兩組query分別對物體和關系建模,兩種方法各有利弊,具體可參考論文中實驗結果。

結論分享

大部分在SGG任務上有效的方法在PSG任務上依舊有效。然而有一些利用較強的數據集統計先驗,或主謂賓中謂語方向先驗的方法可能沒那么奏效。這可能是由于PSG數據集相較于傳統VG數據集的bias沒有那么嚴重,并且對謂語動詞的定義更加清晰可學。因此,作者希望后續的方法關注視覺信息的提取和對圖片本身的理解。統計先驗可能在刷數據集上有效,但不本質。

相比于雙階段模型,單階段模型目前能達到更好的效果。這可能得益于單階段模型有關于關系的監督信號可以直接傳遞到feature map端,使得關系信號參與了更多的模型學習,有利于對關系的捕捉。但是由于本文只提出了若干基線模型,并沒有針對單階段或雙階段模型進行調優,因此目前還不能說單階段模型一定強于雙階段模型。這還希望參賽選手繼續探索。

相比于傳統的SGG任務,PSG任務基于全景分割圖進行關系配對,要求對于每個關系中主賓物體的id 進行確認。相比于雙階段直接預測全景分割圖完成物體id 的劃分,單階段模型需要通過一系列后處理完成這一步驟。若基于現有單階段模型進一步改進升級,如何在單階段模型中更有效的完成物體id的確認,生成更好的全景分割圖,仍是一個值得探索的話題。

最后,歡迎大家試用HuggingFace:

a8d5786c-22e5-11ed-ba43-dac502259ad0.gif

Demo:https://huggingface.co/spaces/ECCV2022/PSG

關于圖像生成的展望

最近大火的基于文字輸入的生成模型(如DALL-E2) 著實令人驚嘆,但是也有研究表明,這些生成模型可能只是把文本中的幾個實體粘合在一起,甚至都沒有理解文本中表述的空間關系。

如下圖,雖然輸入的是「杯子在勺子上」,生成的圖片仍然都是「勺子在杯子里」。

a92c6f14-22e5-11ed-ba43-dac502259ad0.png

正巧,PSG數據集標注了基于mask的scene graph關系。

作者可以利用scene graph和全景分割mask作為訓練對,得到一個text2mask的模型,在基于mask生成更細致的圖片。

因此,PSG數據集有可能也為注重關系的圖像生成提供了潛在的解決方案。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    9

    文章

    1715

    瀏覽量

    47631
  • 數據集
    +關注

    關注

    4

    文章

    1236

    瀏覽量

    26201
  • 智能制造
    +關注

    關注

    48

    文章

    6236

    瀏覽量

    79939

原文標題:南洋理工提出全場景圖生成PSG任務,像素級定位物體,還得預測56種關系

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    尋跡智行:讀懂我們的全場景搬運機器人產品矩陣

    尋跡智行多年來憑借深厚的技術積淀與落地經驗,已構建了全場景智能移動機器人產品矩陣。
    的頭像 發表于 01-19 13:57 ?194次閱讀
    尋跡智行:讀懂我們的<b class='flag-5'>全場景</b>搬運機器人產品矩陣

    云邊云科技參與發布《生成式人工智能零售業全景探索白皮書》

    一、云邊云科技入選生成式人工智能零售業全景探索白皮書生成式人工智能在生產力和效率優化、關鍵風險防控、產品和服務提升等方面可以發揮重要作用,本次發布的《生成式人工智能零售業
    的頭像 發表于 12-15 09:58 ?530次閱讀
    云邊云科技參與發布《<b class='flag-5'>生成</b>式人工智能零售業<b class='flag-5'>全景</b>探索白皮書》

    如何選擇適合的智駕仿真工具進行場景生成和測試?

    在自動駕駛技術日益發展的背景下,選擇合適的智駕仿真工具進行場景生成和測試顯得尤為重要。該工具不僅需要支持高精度的場景重建,還需滿足多種環境條件和傳感器模型的兼容性。本文將深入探討如何評估不同智駕仿真
    的頭像 發表于 11-25 10:32 ?378次閱讀
    如何選擇適合的智駕仿真工具進行<b class='flag-5'>場景</b><b class='flag-5'>生成</b>和測試?

    全場景語音交互,告別噪音與回音困擾

    NR2047語音處理芯片集成20-45dB深度降噪和全雙工消回音技術,適用于車載、會議、安防等多場景。其核心優勢包括:1)ENC環境降噪和AEC消回音技術,顯著提升通話清晰度;2)全場景適配能力
    的頭像 發表于 11-15 09:19 ?734次閱讀
    讓<b class='flag-5'>全場景</b>語音交互,告別噪音與回音困擾

    圓柱電池氣動點焊機的全場景應用

    圓柱電池氣動點焊機的全場景應用|深圳比斯特自動化
    的頭像 發表于 09-29 11:32 ?470次閱讀
    圓柱電池氣動點焊機的<b class='flag-5'>全場景</b>應用

    華為攜手產業界聯合發起全場景構網倡議

    在國際數字能源展2025期間,中國能源研究會、全球太陽能理事會、華為數字能源聯合主辦了以“全場景構網技術,加速以風光為主的新能源成為主力電源”為主題的全球低碳產業論壇,來自全球的政府能源部門、電網
    的頭像 發表于 09-20 09:53 ?1149次閱讀

    12 路 1080P 滿負載!米爾 RK3576 補全車載 360° 全景影像視野

    統的高性價比硬件方案。 RK3576開發板標注 一、12 路 1080P:重新定義車載全景影像的 “覆蓋上限”傳統車載 360° 全景影像多采用 4-6 路攝像頭,僅能覆蓋車身前后左右基礎視角,面對
    發表于 09-11 17:16

    華為Mate XTs 非凡大師及全場景新品發布會召開,多款重磅產品正式亮相

    2025年9月4日,華為Mate XTs 非凡大師及全場景新品發布會在深圳隆重舉行,正式推出全新三折疊華為Mate XTs 非凡大師,一同亮相的還有華為ULTIMATE DESIGN非凡大師全新徽標
    發表于 09-05 09:45 ?1390次閱讀
    華為Mate XTs 非凡大師及<b class='flag-5'>全場景</b>新品發布會召開,多款重磅產品正式亮相

    生成式 AI 重塑自動駕駛仿真:4D 場景生成技術的突破與實踐

    生成式AI驅動的4D場景技術正解決傳統方法效率低、覆蓋不足等痛點,如何通過NeRF、3D高斯潑濺等技術實現高保真動態建模?高效生成極端天氣等長尾場景?本文為您系統梳理AI驅動的4D
    的頭像 發表于 08-06 11:20 ?5160次閱讀
    <b class='flag-5'>生成</b>式 AI 重塑自動駕駛仿真:4D <b class='flag-5'>場景</b><b class='flag-5'>生成</b>技術的突破與實踐

    中軟國際全場景AI實踐

    近日,中軟國際與華為云“同舟共濟”戰略合作8周年慶典暨“云智能行業賦能,全場景AI正當時”高峰論壇隆重舉行,會上中軟國際副總裁、AI研究院院長萬如意博士發表了題為《中軟國際全場景AI實踐》的主題演講
    的頭像 發表于 07-24 16:32 ?1042次閱讀

    中軟國際推出全場景AI-R1系列產品

    近日,中軟國際與華為云“同舟共濟”戰略合作8周年慶典暨“云智能行業賦能,全場景AI正當時”高峰論壇隆重舉行。會上,中軟國際正式發布全場景AI-R1系列產品。R1品牌傳承中軟國際自2000年來依托自研平臺迭代創新的理念和初心,面向AI原生應用展開全新范式探索。
    的頭像 發表于 07-18 17:18 ?1476次閱讀

    圓滿收官!科士達全場景光儲生態點燃全球追光者盛宴

    6月13日,SNECPV+2025圓滿收官。科士達以600㎡雙層全景展臺、二十余款硬核產品及智慧能源解決方案,為全球“追光者”呈現了一場集技術高度、場景深度與互動熱度的光儲充盛宴。展會期間人潮
    的頭像 發表于 06-18 09:56 ?997次閱讀
    圓滿收官!科士達<b class='flag-5'>全場景</b>光儲生態點燃全球追光者盛宴

    芯資訊|廣州唯創電子語音識別芯片:全場景覆蓋與長效品質

    在人工智能與物聯網技術深度融合的今天,語音識別技術已成為智能設備交互的核心入口。作為國內語音芯片領域的佼佼者,廣州唯創電子憑借其全場景覆蓋的產品矩陣、超長生命周期保障及嚴苛的品質管理體系,在語音識別
    的頭像 發表于 05-20 08:36 ?622次閱讀
    芯資訊|廣州唯創電子語音識別芯片:<b class='flag-5'>全場景</b>覆蓋與長效品質

    DuxCam G2S全景相機,提供360°全景測繪解決方案

    DuxCam G2S是一款采用全局快門傳感器的高分辨率高幀率全景相機,可用于全天候條件下在各類移動平臺上采集全景影像。其采用全新計算平臺,至高能夠以7200萬滿分辨率、20FPS幀速率采集全景
    發表于 04-07 16:26

    科通技術推出DeepSeek+AI芯片全場景方案

    份有限公司(以下簡稱“科通技術”)作為AI算力供應鏈的核心供應商,憑借深厚的技術積累與產業資源,推出了DeepSeek大模型與AI芯片相結合的全場景應用方案,在AI芯片應用領域持續發力。
    的頭像 發表于 03-24 10:33 ?1281次閱讀