国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CVPR 2023 | 完全無監督的視頻物體分割 RCF

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-07-16 20:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgZomTYhUSAenguAAjVd7mUCo8183.png

TLDR:視頻分割一直是重標注的一個 task,這篇 CVPR 2023 文章研究了完全不需要標注的視頻物體分割。僅使用 ResNet,RCF模型在 DAVIS16/STv2/FBMS59 上提升了 7/9/5%。文章里還提出了不需要標注的調參方法。代碼已公開可用。

ea60cd80-23d5-11ee-962d-dac502259ad0.png ? ? ?論文標題:Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

論文鏈接:

https://arxiv.org/abs/2304.08025

作者機構:

UC Berkeley, MSRA, UMich

分割效果視頻:

https://people.eecs.berkeley.edu/~longlian/RCF_video.html

項目主頁:

https://rcf-video.github.io/

代碼鏈接:

https://github.com/TonyLianLong/RCF-UnsupVideoSeg

ed6b5c70-23d5-11ee-962d-dac502259ad0.png

視頻物體分割真的可以不需要人類監督嗎?

視頻分割一直是重標注的一個 task,可是要標出每一幀上的物體是非常耗時費力的。然而人類可以輕松地分割移動的物體,而不需要知道它們是什么類別。為什么呢?

Gestalt 定律嘗試解釋人類是怎么分割一個場景的,其中有一條定律叫做 Common Fate,即移動速度相同的物體屬于同一類別。比如一個箱子從左邊被拖到右邊,箱子上的點是均勻運動的,人就會把這個部分給分割出來理解。然而人并不需要理解這是個箱子來做這個事情,而且就算是嬰兒之前沒有見過箱子也能知道這是一個物體。

ed89f3ec-23d5-11ee-962d-dac502259ad0.png

edd3b4f0-23d5-11ee-962d-dac502259ad0.png

運用Common Fate來分割視頻

這個定律啟發了基于運動的無監督分割。然而,Common Fate 并不是物體性質的可靠指標:關節可動(articulated)/可變形物體(deformable objects)的一些 part 可能不以相同速度移動,而物體的陰影/反射(shadows/reflections)始終隨物體移動,但并非其組成部分。

舉個例子,下面這個人的腿和身子的運動是不同的(Optical Flow 可視化出來顏色不同)。這很常見,畢竟人有關節嘛(articulated),要是這個處理不了的話,很多視頻都不能分割了。然而很多 baseline 是處理不了這點的(例如 AMD+ 和 OCLR),他們把人分割成了幾個部分。

wKgZomTYhVmAaP-gAALeTk_-f4k153.png

還有就是影子和反射,比如上面這只天鵝,它的倒影跟它的運動是一致的(Optical Flow 可視化顏色一樣),所以之前的方法認為天鵝跟倒影是一個物體。很多視頻里是有這類現象的(畢竟大太陽下物體都有個影子嘛),如果這個處理不了的話,很多視頻也不能分割了。

ee50510e-23d5-11ee-962d-dac502259ad0.png

那怎么解決?放松。Relax.

長話短說,那我們的方法是怎么解決這個問題的呢?無監督學習的一個特性是利用神經網絡自己內部的泛化和擬合能力進行學習。既然 Common Fate 有自己的問題,那么我們沒有必要強制神經網絡去擬合 Common Fate。于是我們提出了 Relaxed Common Fate,通過一個比較弱的學習方式讓神經網絡真正學到物體的特性而不是 noise。

具體來說,我們的方法認為物體運動由兩部分組成:物體總體的 piecewise-constant motion (也就是 Common Fate)和物體內部的 segment motion。比如你看下圖這個舞者,他全身的運動就可以被理解成 piecewise-constant motion 來建模,手部腿部這些運動就可以作為 residual motion 進行擬合,最后合并成一個完整的 flow,跟 RAFT 生成的 flow 進行比較來算 loss。我們用的 RAFT 是用合成數據(FlyingChairs 和 FlyingThings)進行訓練的,不需要人工標注。

wKgaomTYhW-ARynXAAGz3l4TSMw344.png

eea607e8-23d5-11ee-962d-dac502259ad0.png

Relaxed Common Fate

首先我們使用一個 backbone 來進行特征提取,然后通過一個簡單的 full-convolutional network 獲得 Predicted Masks (下圖里的下半部分),和一般的分割框架是一樣的,也可以切換成別的框架。 那我們怎么優化這些 Masks 呢?我們先提取、合并兩幀的特征,放入一個 residual flow prediction head 來獲得 Residual Flow (下圖里的上半部分)。 然后我們對 RAFT 獲得的 Flow 用 Predicted Masks 進行 Guided Pooling,獲得一個 piecewise-constant flow,再加上預測的 residual flow,就是我們的 flow prediction 了。最后把 flow prediction 和 RAFT 獲得的 Flow 的差算一個 L1 norm Loss 進行優化,以此來學習 segmentation。 在測試的時候,只有 Predicted Masks 是有用的,其他部分是不用的。eebe9254-23d5-11ee-962d-dac502259ad0.png ?

這里的 Residual Flow 會盡量初始化得小一些,來鼓勵先學 piecewise-constant 的部分(有點類似 ControlNet),再慢慢學習 residual 部分。

eee33334-23d5-11ee-962d-dac502259ad0.png

引入Appearance信息來幫助無監督視頻分割

光是 Relaxed Common Fate 就能在 DAVIS 上相對 baseline 提 5%了,但這還不夠。前面說 Relaxed Common Fate 的只用了 motion 而沒有使用 appearance 信息。

讓我們再次回到上面這個例子。這個舞者的手和身子是一個顏色,然而 AMD+ 直接把舞者的手忽略了。下面這只天鵝和倒影明明在 appearance 上差別這么大,卻在 motion 上沒什么差別。如果整合 appearance 和 motion,是不是能提升分割質量呢?

wKgZomTYhYaAJeOJAALHCeFXY4w226.png

因此我們引入了 Appearance 來進行進一步的監督。在學習完 motion 信息之后,我們直接把取得的 Mask 進行兩步優化:一個是 low-level 的 CRF refinement,強調顏色等細節一致的地方應該屬于同一個 mask(或背景),一個是 semantic constraint,強調 Unsupervised Feature 一直的地方應該屬于同一個 mask。

把優化完的 mask 再和原 mask 進行比較,計算 L2 Loss,再更新神經網絡。這樣訓練的模型的無監督分割能力可以進一步提升。具體細節歡迎閱讀原文。

ef7e3d5c-23d5-11ee-962d-dac502259ad0.png

efcaa296-23d5-11ee-962d-dac502259ad0.png

無監督調參

很多無監督方法都需要使用有標注的數據集來調參,而我們的方法提出可以利用前面說的 motion 和 appearance 的一致性來進行調參。簡單地說,motion 學習出的 mask 在 appearance 上不一致代表這個參數可能不是最優的。具體方法是在 Unsupervised Feature 上計算 Normalized Cuts (但是不用算出最優值),Normalized Cuts 越小越代表分割效果好。原文里面對此有詳細描述。

efdf21ee-23d5-11ee-962d-dac502259ad0.png

方法效果

無論是否有 Post-processing,我們的方法在三個視頻分割數據集上都有很大提升,在 STv2 上更是提升了 12%。

eff8356c-23d5-11ee-962d-dac502259ad0.png

Ablation 可以看出 Residual pathway (Relaxed Common Fate)的貢獻是最大的,其他部分總計貢獻了 11.9% 的增長。

f03f535c-23d5-11ee-962d-dac502259ad0.png

Visualizations

f069cd58-23d5-11ee-962d-dac502259ad0.png

f164ad9a-23d5-11ee-962d-dac502259ad0.png

f203ca06-23d5-11ee-962d-dac502259ad0.png

wKgaomTYha2Afs61AAUfDqTnj88519.png

f2d31fea-23d5-11ee-962d-dac502259ad0.png

總結

這篇 CVPR 2023 文章研究了完全不需要標注的視頻物體分割。通過 Relaxed Common Fate 來利用 motion 信息,再通過改進和利用 appearance 信息來進一步優化,RCF 模型在 DAVIS16/STv2/FBMS59 上提升了 7/9/5%。文章里還提出了不需要標注的調參方法。代碼和模型已公開可用。


原文標題:CVPR 2023 | 完全無監督的視頻物體分割 RCF

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2945

    文章

    47820

    瀏覽量

    414886

原文標題:CVPR 2023 | 完全無監督的視頻物體分割 RCF

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Nullmax研發團隊靜態元素檢測和拓撲推理新成果入選CVPR 2026

    CVPR 2026(國際計算機視覺與模式識別會議)論文錄用結果揭曉,Nullmax 研發團隊在自動駕駛靜態元素理解領域的最新研究 TopoHR 成功入選。該研究為靜態元素檢測以及拓撲推理提供了突破性
    的頭像 發表于 02-28 10:08 ?441次閱讀

    CVPR 2019看事件相機步態識別:技術突破與產品應用

    這篇題為《EV-Gait:Event-basedRobustGaitRecognitionusingDynamicVisionSensors》的論文發表于計算機視覺領域的頂級會議CVPR
    的頭像 發表于 02-27 16:22 ?716次閱讀
    從<b class='flag-5'>CVPR</b> 2019看事件相機步態識別:技術突破與產品應用

    百度蘿卜快跑攜手AutoGo啟動阿布扎比全無人駕駛商業化運營

    今天,蘿卜快跑攜手阿聯酋自動駕駛出行公司AutoGo,共同宣布在阿布扎比正式啟動面向公眾的全無人駕駛商業化運營。這是蘿卜快跑首次在海外推出面向公眾的全無人駕駛出行服務。
    的頭像 發表于 01-19 12:54 ?598次閱讀

    百度蘿卜快跑獲得迪拜全無人駕駛測試許可

    1月6日,蘿卜快跑正式獲得迪拜道路與交通管理局(RTA)頒發的全無人駕駛測試許可,成為迪拜首個且目前唯一獲準開展全無人測試的平臺。
    的頭像 發表于 01-09 17:02 ?1163次閱讀

    百度蘿卜快跑獲得阿布扎比全無人商業化運營許可

    11月10日,蘿卜快跑獲得由阿布扎比綜合交通中心(ITC)頒發的首批全無人商業化運營許可,標志著蘿卜快跑首次在中國以外地區啟動面向公眾的規模化全無人駕駛運營。
    的頭像 發表于 11-13 16:35 ?971次閱讀

    傳音TEX AI團隊斬獲ICCV 2025大型視頻目標分割挑戰賽雙料亞軍

    近日,國際計算機視覺大會(ICCV 2025)舉辦了第七屆大型視頻目標分割挑戰賽(LSVOS Challenge),傳音TEX AI團隊憑借自主研發的創新技術方案,在復雜視頻目標分割
    的頭像 發表于 10-31 09:42 ?557次閱讀
    傳音TEX AI團隊斬獲ICCV 2025大型<b class='flag-5'>視頻</b>目標<b class='flag-5'>分割</b>挑戰賽雙料亞軍

    手機板 layout 走線跨分割問題

    初學習layout時,都在說信號線不可跨分割,但是在工作中為了成本不能跨分割似乎也非絕對。 在后續工作中,跨分割的基礎都是相鄰層有一面完整的GND參考,跨分割發生在相鄰的另外一層。 但
    發表于 09-16 14:56

    易控智駕榮獲計算機視覺頂會CVPR 2025認可

    近日,2025年國際計算機視覺與模式識別頂級會議(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美國田納西州納什維爾召開。
    的頭像 發表于 07-29 16:54 ?1210次閱讀

    基于黃金分割搜索法的IPMSM最大轉矩電流比控制

    摘 要:在矢量控制理論的基礎上,研究了內嵌式永磁同步電機(IPMSM)基于黃金分割搜索法實現最大轉矩電流比控制(MTPA)的方法。該方法利用對理論最優電流矢量角表達式進行多項式擬合所得值作為搜索
    發表于 07-29 16:11

    EL非監督分割白皮書丨5張OK圖、1分鐘建模、半小時落地的異常檢測工具!

    ,阿丘科技全新發布《EL非監督分割白皮書》,揭秘一款極致速度、零門檻操作、穩定可靠的AI質檢神器,解決柔性產線換型慢、未知缺陷難捕捉等行業難題。傳統檢測技術的三大
    的頭像 發表于 07-11 15:21 ?647次閱讀
    EL非<b class='flag-5'>監督</b><b class='flag-5'>分割</b>白皮書丨5張OK圖、1分鐘建模、半小時落地的異常檢測工具!

    傳音多媒體團隊攬獲CVPR NTIRE 2025兩項挑戰賽冠亞軍

    Challenge)第二名 ,展現了傳音在視頻畫質領域的深厚積累與領先實力。 ? CVPR NTIRE(New Trends in Image Restoration and Enhancement
    的頭像 發表于 06-24 16:08 ?1630次閱讀
    傳音多媒體團隊攬獲<b class='flag-5'>CVPR</b> NTIRE 2025兩項挑戰賽冠亞軍

    【正點原子STM32MP257開發板試用】基于 DeepLab 模型的圖像分割

    == \'__main__\': main() 效果 USB 攝像頭采集實時畫面的圖像分割推理效果 終端打印信息 動態識別效果見頂部視頻。 靜態識別 介紹了通過對本地圖片的 板端推理 實現圖片分割
    發表于 06-21 21:11

    NVIDIA榮獲CVPR 2025輔助駕駛國際挑戰賽冠軍

    NVIDIA 在本周美國田納西州舉辦的國際計算機視覺與模式識別會議(CVPR)上榮獲“端到端輔助駕駛”賽道冠軍。這一消息是在“自主系統具身智能研討會”上宣布的。
    的頭像 發表于 06-16 14:44 ?927次閱讀

    使用MATLAB進行無監督學習

    監督學習是一種根據未標注數據進行推斷的機器學習方法。無監督學習旨在識別數據中隱藏的模式和關系,無需任何監督或關于結果的先驗知識。
    的頭像 發表于 05-16 14:48 ?1436次閱讀
    使用MATLAB進行無<b class='flag-5'>監督</b>學習

    挑戰具身機器人協同操作新高度!地瓜機器人邀你共戰CVPR 2025雙臂協作機器人競賽

    引言2025年6月,全球計算機視覺與人工智能領域的頂級盛會——CVPR(IEEE/CVFConferenceonComputerVisionandPatternRecognition)將重磅亮相
    的頭像 發表于 04-11 05:30 ?1464次閱讀
    挑戰具身機器人協同操作新高度!地瓜機器人邀你共戰<b class='flag-5'>CVPR</b> 2025雙臂協作機器人競賽