国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

北京大學等提出HandTrackNet:點云序列中手物交互的位姿追蹤與重建

CVer ? 來源:北京大學前沿計算研究中 ? 2023-03-02 13:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導 讀

本文是 AAAI 2023 Oral 入選論文 Tracking and Reconstructing Hand Object Interactions from Point Cloud Sequences in the Wild 的解讀。本論文由北京大學王鶴研究團隊與北京通用人工智能研究院、弗吉尼亞理工大學、斯坦福大學、清華大學、哥倫比亞大學合作,針對追蹤并重建一段輸入點云序列中的手和物體這一任務進行了研究。

我們首次提出了一個基于點云的手部關節追蹤網絡 HandTrackNet,并設計了一套完整的算法來完成手和物體追蹤與重建這一具有挑戰性的任務。此外,為了獲得更多樣且精準的數據,我們在仿真器中生成了大量手物交互的數據,并模擬了深度相機的拍攝原理,以獲得接近真實世界噪聲分布的深度數據。僅用仿真數據進行訓練,我們的方法可以很好地泛化到未見過的真實場景測試數據上,以較快的速度(9FPS)取得遠超前人工作的精度。

57f4146a-b077-11ed-bfe3-dac502259ad0.png

論文鏈接:

http://arxiv.org/abs/2209.12009

項目主頁:

https://pku-epic.github.io/HOtrack

代碼地址:

https://github.com/PKU-EPIC/HOTrack

5820cfa0-b077-11ed-bfe3-dac502259ad0.gif

58e29432-b077-11ed-bfe3-dac502259ad0.gif

59a4dad8-b077-11ed-bfe3-dac502259ad0.gif

圖1. HO3D 數據集上的效果展示圖。左起依次為輸入點云,輸出重建結果,另一個視角的輸出,以及輸出與 RGB 疊置的效果。可以看到,我們的算法對手物交互中的遮擋問題有很好的魯棒性。

5ae60ad4-b077-11ed-bfe3-dac502259ad0.gif

5b7c27c6-b077-11ed-bfe3-dac502259ad0.gif

5bbe4a7a-b077-11ed-bfe3-dac502259ad0.gif

圖2. DexYCB 數據集上的效果展示圖。

01

引 言

手和物體的交互作為人類與復雜現實場景交互的主要途徑,在現實生活中無處不在。作為感知人類與物體交互的主要方法,位姿追蹤和重建人手與物體是兩個至關重要的研究課題,可以實現廣泛的應用,包括人機交互[1],增強現實[2],以及讓機器人從人類的演示中學習相應技能(如抓取和操縱等[3])。

近年來,隨著深度學習的發展,越來越多基于深度學習的工作涌現出來,研究如何從單幀信息(RGB 圖片[4]或點云[5])中去感知手和物體,重建他們的幾何形狀或是估計他們的位姿,但是這類方法往往無法利用上視頻相鄰幀之間的連續性。另一方面,深度學習非常依賴數據,而對真實場景視頻中的手和物體去準確標注三維幾何形狀及位姿是一件非常困難且成本極大的事情,現有的數據集如 DexYCB[6]和 HO3D[7]都規模不大且包含的物體數量少(不超過20個不同物體),用這樣的數據難以訓練出能夠泛化到未見過的手和物體的模型。

因此,在這個工作中,我們關注于這樣一個非常有挑戰的任務——在不用任何真實數據作訓練的前提下,對自然條件下的點云序列,聯合追蹤并重建人手和物體。我們的任務設定如下所述:給定一個包含已分割的手和物體的深度點云序列,還有初始的手部位姿和物體位姿,我們的算法需要去重建手和物體的幾何形狀,并以一個在線的方式(即對于第幀的預測只能利用當前幀和過去幀的信息,不能利用未來幀的信息)對他們的位姿進行追蹤。我們選擇點云這一模態作為輸入而非圖片是因為他們具有更加準確的三維結構,便于我們感知手和物體的位姿,并且具有更小的歧義性。

為了實現這一目標,首先,為了緩解數據問題,我們提出了一套流程來合成手和物體交互的仿真數據集。該數據集擁有非常高的多樣性,無論是手的形狀、物體的形狀,還是兩者的交互姿勢;此外,得益于仿真環境的優勢,這些數據帶有免費的位姿和形狀標注。為了最小化仿真和現實的領域差異,我們利用 DDS[8]提出的基于結構光的深度傳感器模擬器,生成帶有真實傳感器噪聲的仿真點云。

除此之外,我們首次提出了一個基于點云的手部姿勢跟蹤網絡,HandTrackNet,以追蹤幀間手部關節的運動。HandTrackNet 建立在 PointNet++[9]的基礎上,基于上一幀的預測來估計當前幀手部關節位置的變化。相較于單幀回歸的算法,這樣做壓縮了輸出數據的分布空間,簡化了回歸任務,增強了時序上的連續性。此外,HandTrackNet 會從上一幀的預測中計算手的全局位姿,并利用手的全局位姿來將當前幀的輸入點云變換到一個規范化的坐標系內,這極大地壓縮了輸入數據的分布空間,進一步簡化了回歸任務。在訓練過程中,HandTrackNet 會學習修正隨機的手部關節擾動,因此不會過擬合到任何時序軌跡上。

最后,為了更好的解決手和物體遮擋帶來的歧義性,我們進一步利用基于優化的方法來推理手和物體之間的空間關系,獲取物理上更加真實的預測。我們先將追蹤到的手部關節位置轉化為 MANO[10]這一參數化模型的表示,得到手部幾何的重建,然后根據手和物體交互的先驗構建幾個能量函數,用于進一步調整手的位姿,從而產生更加符合物理規律、更加真實的手部位姿。

通過充分的實驗,我們證明了我們的方法在從未見過的真實世界手和物體交互數據集 HO3D[7]和 DexYCB[6]中的有效性。我們的方法在手和物體的位姿追蹤精度上明顯優于之前的方法,并顯示出良好的追蹤魯棒性和極強的泛化性。整個算法能夠以交互式幀率(約9FPS)進行在線跟蹤和重建。

02

方法簡介

5bfe106a-b077-11ed-bfe3-dac502259ad0.png

圖3. 我們生成的 SimGrasp 數據集。

首先,為了應對數據不足的問題,我們在仿真環境中造了一個手和物體交互的數據集 SimGrasp,包含超過450個不同的物體和100個不同大小的手,一共生成了1810段視頻,每段視頻有100幀。我們首先使用 GraspIt[11]來生成了一些手和物體呈持握狀態的數據,然后將手往手背方向挪一定距離,并通過對位姿插值的方式獲取動態抓取的視頻。為了減少 Sim2real 的巨大差異,我們重新實現了 DDS 算法[8],基于結構光深度相機的原理,在仿真環境中模擬了真實相機點云會產生的噪聲。

5c4eace6-b077-11ed-bfe3-dac502259ad0.png

圖4. HandTrackNet 結構示意圖。

在方法上,我們首次提出了一個基于點云的手部關節追蹤網絡 HandTrackNet,該網絡接收當前第幀的手部點云和上一幀預測的手部關節位置作為輸入,并對二者進行全局姿勢規范化處理。然后,它利用 PointNet++[9]從規范化的手部點云中提取特征,并使用每個關節進行近鄰查詢和特征傳遞,最后用一個多層線性感知機來回歸并更新關節位置。

其中,主要的創新部分在于利用上一幀預測的關節位置來進行全局姿勢規范化上。前人的工作[5]發現手的全局位姿的多樣性會給網絡預測關節位置帶來很大的困難,而如果能夠設計比較好的全局位姿規范化方法,使得所有的輸入點云都能被變換到同一個規范位姿下(例如手心朝向軸,指尖指向軸),就能大大降低學習難度,提升泛化能力。注意到,按照之前定義的手部規范位姿,規范化的手部點云的第一特征向量應該平行軸,第二特征向量應該平行軸,因此前人工作[5]中大多使用 PCA 來獲取手部點云的外包圍盒,并利用上述特性進行手的全局姿勢規范化。然而,這樣的做法存在的缺陷是當手被嚴重遮擋時,獲取的外包圍盒無法很好地反應真實手部全局位姿,因此不適用于手和物體交互的場景。

而我們則是注意到,手部指根處的關節點相對位置無論手指怎么動都是基本不變的,因此我們可以用 SVD 求解上一幀指根關節位置相對于預定義的規范位姿下的指根位置的平移和旋轉,結合視頻的連續性,利用這一平移和旋轉去規范化當前幀的手部點云輸入。

5c729552-b077-11ed-bfe3-dac502259ad0.png

圖5. 完整流程圖。第0幀,我們會重建手和物體的幾何(如虛線所示);后續每一幀,我們會分別預測物體的位姿和手的位姿,并通過優化來進一步修復手的位姿。我們還可以每10幀更新一次手和物體的幾何。

利用 HandTrackNet 獲取手部關節位置后,我們利用一個簡單的多層感知機網絡 IKNet 將手部關節位置轉化成了手部各關節角度,將作為 MANO 這一常用的手部參數化模型的輸入,結合第0幀通過優化獲得的手部形狀參數,就可以得到手的完整三維重建了。而物體這一支,我們在第0幀利用 DeepSDF[12]的技術來根據觀察到的點云去重建類別級未知物體的幾何形狀,并在之后每一幀通過優化的辦法來解算物體位姿。最后,我們還使用了一個聯合優化的模塊,使用手與物體不會互相穿透、手指會貼近物體表面等條件作為能量函數來優化手的位姿,獲取更符合物理規律、更真實的手物交互。我們還可以每隔10幀更新一次手和物體的幾何,降低初始化時的幾何誤差對后續追蹤的影響。

03

實驗結果

我們僅僅使用我們合成的仿真數據集 SimGrasp 進行訓練,在不使用任何真實數據進一步訓練的情況下,直接在 HO3D[7]和 DexYCB[6]這兩個具有挑戰性的真實數據集上進行測試。相較于之前基于單幀預測的工作HandFoldingNet[13],A2J[14]和 VirtualView[15]以及基于追蹤的工作 Forth[16],我們的方法在平均關節位置誤差這項指標上在兩個數據集中分別能顯著提升6mm 和3mm 以上。

5c91e894-b077-11ed-bfe3-dac502259ad0.png

圖6. 手部關節追蹤實驗結果。MPJPE 指平均關節位置誤差,PD 指手和物體最大穿透深度,DD 指手和物體在接觸時手指到物體上最近點的平均距離。

物體追蹤方面,雖然之前的工作 CAPTRA[17]在驗證集上能獲得更好的表現,但是在真實數據的測試集上,我們基于優化的方法能夠一致地超過它,證明了我們方法具有更強的泛化能力。

5cb6a63e-b077-11ed-bfe3-dac502259ad0.png

圖7. 物體追蹤實驗結果。5度5cm 指旋轉誤差小于5度且平移誤差小于5cm 的百分比,10度10cm 同理,CD 指帶位姿的重建物體和標注物體的倒角距離(Chamfer distance)。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4784

    瀏覽量

    98060
  • 仿真器
    +關注

    關注

    14

    文章

    1051

    瀏覽量

    87275
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265387
  • 點云
    +關注

    關注

    0

    文章

    59

    瀏覽量

    4076

原文標題:AAAI 2023 Oral | 北京大學等提出HandTrackNet:點云序列中手物交互的位姿追蹤與重建

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    北京大學口腔醫學院采購南京大展新品同步熱分析儀

    面對日益增長的個性化診療需求,傳統單一功能的檢測設備已難以滿足復雜工況下的多維分析要求。為了能夠在口腔數字化材料、生物支架研發前沿領域持續突破。北京大學口腔醫學院經過前期的調研和對比,選購了南京大
    的頭像 發表于 01-16 10:24 ?137次閱讀
    <b class='flag-5'>北京大學</b>口腔醫學院采購南京大展新品同步熱分析儀

    曙光立體密算體系重磅發布

    11月26日,曙光“立體密算體系”正式發布。此次發布由數據安全關鍵技術與產業應用評價工業和信息化部重點實驗室、曙光、中國科學院計算技術研究所、北京大學大數據分析與應用技術國家工程實驗室與行業伙伴
    的頭像 發表于 11-28 16:45 ?837次閱讀
    曙光<b class='flag-5'>云</b>立體密算體系重磅發布

    北京大學在光生微波領域取得重要進展

    圖1. 雙波長激光器 高穩定低噪聲微波信號在時頻計量、射電天文、雷達導航領域發揮著不可替代的作用。傳統的電學微波合成方式在穩定性和噪聲控制方面已逼近技術瓶頸,而基于光電子技術的微波合成方案為突破
    的頭像 發表于 11-13 07:50 ?251次閱讀
    <b class='flag-5'>北京大學</b>在光生微波領域取得重要進展

    北京光庭出席汽車產業協同創新峰會

    9月25日,“智驅未來?走進北大——汽車產業協同創新峰會”在北京大學全球大學生創新創業中心成功舉辦。本次峰會由北大科技園、北京大學創新創業學院、中國汽車工程學會科技成果評價及轉化工作委員會聯合主辦
    的頭像 發表于 09-28 18:06 ?1105次閱讀

    北京大學彭練矛院士團隊在高性能壓力傳感領域取得重要進展!突破性能瓶頸!

    的設計思路,這極大制約了其在需要精確力反饋與動態控制的復雜場景的應用。 ? 針對這一挑戰,北京大學電子學院胡又凡-彭練矛團隊提出了一種全新的“接觸主導的局域電位移場增強”設計策略。該策略通過巧妙地設計傳感器
    的頭像 發表于 09-28 10:52 ?1299次閱讀
    <b class='flag-5'>北京大學</b>彭練矛院士團隊在高性能壓力傳感領域取得重要進展!突破性能瓶頸!

    光電融合!中國團隊突破6G全頻段通信瓶頸

    電子發燒友網綜合報道,近日,由北京大學、香港城市大學組成的聯合研究團隊成功研制出超寬帶光電融合集成系統,首次實現全頻段、靈活可調諧的高速無線通信,有望為未來更暢通可靠的6G無線通信提供保障。該成果8
    的頭像 發表于 09-05 09:27 ?4064次閱讀
    光電融合!中國團隊突破6G全頻段通信瓶頸

    北京大學選用我司HS-TGA-301熱重分析儀

    測試儀
    和晟儀器
    發布于 :2025年09月03日 15:50:48

    2025商湯獎學金夏令營活動圓滿落幕

    歷時九年,商湯獎學金已成為國內AI領域頂尖本科生的代名詞,令無數學生心馳神往。本屆夏令營不僅匯聚了2025年度獎學金得主,還特邀了往屆獲獎學子共襄盛舉——來自清華大學北京大學、上海交通大學、中國科學技術
    的頭像 發表于 08-19 15:49 ?959次閱讀

    知存科技助力北京大學校友論壇圓滿落幕

    近日,由知存科技傾情支持的北京大學校友論壇在熱烈的氛圍圓滿落幕。作為第九屆集微半導體大會的特色環節,今年的北大校友論壇吸引了數十來自半導體產業不同領域的校友齊聚上海張江科學會堂,共敘母校情誼
    的頭像 發表于 07-17 10:18 ?830次閱讀

    國際首創新突破!中國團隊以存算一體排序架構攻克智能硬件加速難題

    2025 年 6 月 25 日,北京大學團隊在智能計算硬件方面取得領先突破,國際上首次實現了基于存算一體技術的高效排序硬件架構 (A fast and reconfigurable
    的頭像 發表于 07-02 16:50 ?840次閱讀
    國際首創新突破!中國團隊以存算一體排序架構攻克智能硬件加速難題

    一種基于分布式光交換的高帶寬域架構InfiniteHBD

    曦智科技聯合北京大學、階躍星辰為下一代萬億參數大模型訓練的基礎設施建設提出全新解決方案。
    的頭像 發表于 06-09 10:38 ?1663次閱讀
    一種基于分布式光交換的高帶寬域架構InfiniteHBD

    知存科技創始人向北大、清華、協和醫學院捐贈880萬激勵創新

    近日,知存科技創始人王紹迪和郭昕婕博士向北京大學、清華大學以及北京協和醫學院捐贈共計880萬人民幣作為科技創新獎勵基金,以支持高校人才培養和科研發展。 知存科技創始人兼CEO 王紹迪(左)、知存
    的頭像 發表于 05-06 17:35 ?2157次閱讀
    知存科技創始人向北大、清華、協和醫學院捐贈880萬激勵創新

    北京理工大學:研究眼機界面智能傳感硬件——從可穿戴到仿生

    、功耗(SWaP)及生物兼容性上面臨瓶頸,而新型功能材料正通過柔性透明設計、多模態傳感和集成策略,推動傳感器向小型化、低功耗和高性能發展。鑒于此, 北京理工大學 沈國震 、 王卓然 團隊基于現有研究基礎, 面向眼動追蹤、生物醫療 、視覺恢復
    的頭像 發表于 04-25 18:42 ?912次閱讀
    <b class='flag-5'>北京理工大學</b>:研究眼機界面智能傳感硬件——從可穿戴到仿生

    香橙派AIpro(20T)走進北京大學、上海交通大學等高校鯤鵬昇騰科教創新卓越中心特訓營

    近日,北京大學、上海交通大學等高校鯤鵬昇騰科教創新卓越中心特訓營-DeepSeek專場成功舉辦。活動旨在基于昇騰技術的DeepSeek本地化部署實踐分享,培養學員自主創新開發能力。華為技術專家
    的頭像 發表于 04-18 11:51 ?1161次閱讀
    香橙派AIpro(20T)走進<b class='flag-5'>北京大學</b>、上海交通<b class='flag-5'>大學</b>等高校鯤鵬昇騰科教創新卓越中心特訓營

    軟國際助力北京理工大學珠海校區展開科研創新

    近日,軟國際助力北京理工大學(珠海)基于華為昇騰AI服務DeepSeek滿血版大模型展開科研及教學創新。北京理工大學(珠海)經濟監督大
    的頭像 發表于 03-10 18:13 ?1270次閱讀