国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

基于大規(guī)模人類操作數(shù)據(jù)預訓練的VLA模型H-RDT

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-08-21 09:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

H-RDT人類的“本能”,機器人的“捷徑利用人類數(shù)據(jù)增強機器人操作能力

近年來,機器人操作領域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統(tǒng)一訓練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得益于近年來VR/AR頭顯和3D視覺技術的顯著進步,當前只需極低成本即可采集大量帶有精確人手關節(jié)標注的第一人稱人類操作視頻。

為此,我們提出基于大規(guī)模人類操作數(shù)據(jù)預訓練的VLA模型H-RDT(Human to Robotics Diffusion Transformer)。實驗表明,H-RDT在仿真和真實場景中的多種本體上表現(xiàn)優(yōu)異,對比主流VLA模型具有明顯優(yōu)勢。H-RDT模型曾參加CVPR 2025 RoboTwin雙臂機器人比賽獲真機賽冠軍和仿真賽亞軍。

? 論文題目:

H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation

?論文鏈接:

https://arxiv.org/abs/2507.23523

?項目主頁:

https://embodiedfoundation.github.io/hrdt

H-RDT 架構

e17884ba-7cf2-11f0-a18e-92fbcf53809c.jpg

H-RDT是一個具有20億參數(shù)的擴散Transformer,使用流匹配來建模雙臂機器人的復雜動作分布。H-RDT采用兩階段訓練范式:1)在大規(guī)模第一人稱人類數(shù)據(jù)上預訓練;2)通過模塊化動作編解碼器在機器人數(shù)據(jù)上進行微調(diào),實現(xiàn)跨本體遷移。

人類動作表征設計

我們采用較為精細的3D手部姿態(tài)表示方法,將動作編碼為緊湊的48維向量,以捕捉關鍵的雙手靈巧操作信息:

雙手手腕位姿 (Bilateral Wrist Pose) :

(1)左右手的3D位置(3×2)與6D姿態(tài)(6×2),共計18維;

(2)與機器人控制中的末端執(zhí)行器 (End-Effector) 控制參數(shù)對齊;

十個手指的指尖位置 (Fingertip Position) :

(1)每個手五根手指,各提取一個三維坐標,總共10×3=30維;

(2)用于表達手指張合、握持形態(tài)等細粒度操作意圖。

總計:18(手腕)+30(指尖)=48維動作表示

這種表征策略的優(yōu)勢體現(xiàn)在三個方面:

(1)動作通用性強:該表示可以視作覆蓋大多數(shù)操作型機器人的“上層動作空間”,能覆蓋如雙臂7-DoF機械臂、并聯(lián)夾爪等控制參數(shù);

(2)保留人類操作的關鍵特征:指尖相對位置、手腕旋轉(zhuǎn)、抓取姿態(tài)等都被編碼在其中,保留了對操控幾何和力學要素的刻畫能力;

(3)提供顯式的動力學參數(shù):相比于point flow等表征方式,無需額外增加動力學映射,更為聚焦操作語義。

模型結(jié)構

H-RDT構建了一個五模塊組成的DiT (Diffusion Transformer) 框架,負責從多模態(tài)感知輸入生成機器人控制序列:

視覺編碼器 (DinoV2+SigLIP) :提取RGB觀測的視覺特征;配有MLP Adapter映射到transformer嵌入空間。

語言編碼器 (T5-XXL) :編碼自然語言任務指令;同樣通過MLP Adapter接入主干。

模塊化動作編/解碼器:編碼器對機器人狀態(tài)向量與噪聲動作軌跡分別編碼;解碼器將輸出特征解碼為Action Chunk,其在微調(diào)階段對不同本體重新初始化。

Transformer主干(類LLaMA3架構):使用SwiGLU激活與RMSNorm;使用解耦交叉注意力分別對視覺和語言信息進行融合;流時間 (τ) 通過AdaLN注入。

兩階段訓練范式

階段一:人類數(shù)據(jù)預訓練

第一階段使用EgoDex數(shù)據(jù)集,以48維人手動作表征對H-RDT進行預訓練。EgoDex數(shù)據(jù)集包括338 K+條軌跡、涵蓋194項不同操作任務,全面覆蓋了人類操作策略、物體交互方式以及雙手協(xié)作。

階段二:跨本體微調(diào)

第二階段對特定機器人本體微調(diào)時,需重新初始化動作編碼器和解碼器子模塊以適應不同本體,其余模塊使用預訓練權重進行微調(diào)。

e18f8ff2-7cf2-11f0-a18e-92fbcf53809c.png

流匹配訓練方法

H-RDT采用流匹配 (Flow Matching) 來生成動作,相較于傳統(tǒng)的擴散建模,該方法提供了更優(yōu)的訓練穩(wěn)定性和推理效率。

①訓練目標:學習一個將高斯噪聲連續(xù)映射為目標動作序列的向量場;

②流程設計:

其中

e1a74c00-7cf2-11f0-a18e-92fbcf53809c.svg

表示當前“動作點”在高斯噪聲與真實動作之間線性插值。

③訓練損失:

e1b6958e-7cf2-11f0-a18e-92fbcf53809c.svg

其中是e1c6f50a-7cf2-11f0-a18e-92fbcf53809c.svg要學習的向量場,e1dd2e92-7cf2-11f0-a18e-92fbcf53809c.svg是圖像、狀態(tài)和語言的上下文條件。

④推理階段:使用ODE求解器積分向量場路徑,實現(xiàn)穩(wěn)定高效的動作生成。

實驗結(jié)果

真機實驗

我們在三種真實機器人上進行多任務訓練,用于驗證模型的跨本體遷移能力與實際部署的魯棒性。

1)Aloha-Agilex-2.0實驗

兩項任務均采用基于子任務的評分體系,全部完成視為完全成功。各方法各任務均測試25次。

任務1疊毛巾:測試模型連續(xù)折疊柔性物體的能力。

實驗結(jié)果如下表所示,H-RDT的完全成功率為52%,RDT為40%,未經(jīng)人類數(shù)據(jù)預訓練的模型成功率為0。

e269bef2-7cf2-11f0-a18e-92fbcf53809c.png

任務2將杯子放到杯墊上:該任務測試模型的空間推理能力,要求模型根據(jù)杯子的自動選擇合適的手去抓杯子(左側(cè)杯子必須用左手抓,右側(cè)杯子必須用右手抓)。

實驗結(jié)果如下表所示,H-RDT的完全成功率為64%,RDT為28%,未經(jīng)人類數(shù)據(jù)預訓練的模型成功率為20%。

e2db5526-7cf2-11f0-a18e-92fbcf53809c.png

2)雙臂ARX5小樣本實驗

我們設計了一個極具挑戰(zhàn)的任務:在雙臂ARX5機器人上完成113個不同的抓取放置任務,每個任務僅提供1到5個示范樣本。

e2ee7228-7cf2-11f0-a18e-92fbcf53809c.jpg

實驗結(jié)果如下表所示,H-RDT成功率達到了41.6%,而π0僅為31.2%,RDT為16%,未經(jīng)人類數(shù)據(jù)預訓練的模型17.6%。

e30448b4-7cf2-11f0-a18e-92fbcf53809c.png

3)雙臂UR5+UMI實驗

我們在雙臂UR5機器人上評估了H-RDT,人類演示數(shù)據(jù)通過UMI收集。任務為雙手協(xié)作放置外賣袋,細分為四個連續(xù)步驟:右手抓取 → 右手放置 → 左手抓取 → 左手放置。

e317f940-7cf2-11f0-a18e-92fbcf53809c.jpg

實驗結(jié)果如下表所示,H-RDT完全成功率達到58.0%,遠超RDT(29%)、 π0(31%)、未經(jīng)人類數(shù)據(jù)預訓練的版本(16%)。

e329cb98-7cf2-11f0-a18e-92fbcf53809c.png

仿真測試

我們在仿真環(huán)境RoboTwin 2.0上進行了全面測試,包括單任務和多任務設置:

單任務實驗:在RoboTwin 2.0基準測試的13項操作任務上評估單任務性能。每項任務使用簡單模式下收集的50個演示樣本進行訓練,并在兩種模式下評估:包括簡單模式(干凈桌面)與困難模式(隨機光照、雜亂環(huán)境)。

H-RDT在簡單模式下取得了最高68.7%的平均成功率,在困難模式下為25.6%,顯著優(yōu)于其他方法;且在簡單和困難模式下均大幅超越未經(jīng)人類數(shù)據(jù)預訓練的版本 (w/o human) ,證明了利用人類操作數(shù)據(jù)預訓練的有效性。

e33a93ec-7cf2-11f0-a18e-92fbcf53809c.jpg

多任務實驗:在RoboTwin 2.0的45項任務上進行多任務實驗,使用在困難模式下收集的約2250個演示樣本進行訓練,評估了10項任務子集。實驗結(jié)果如下表所示。

e34d8dda-7cf2-11f0-a18e-92fbcf53809c.png

在多任務場景中,H-RDT取得了高達87.2%的平均成功率,顯著優(yōu)于RDT(28.8%)、π0(48.4%)和未經(jīng)人類數(shù)據(jù)預訓練的版本w/o human(67.2%)。H-RDT相較于未經(jīng)人類數(shù)據(jù)預訓練版本w/o human平均成功率提高了20.0%,明顯大于在單任務場景。這表明,在多任務場景中,利用人類操作數(shù)據(jù)進行預訓練能提供更好的性能。

跨本體泛化:為進一步驗證H-RDT的跨本體遷移能力,在仿真環(huán)境中對兩種不同的機器人本體Aloha-Agilex-1.0和Franka-Panda進行了多任務實驗,實驗結(jié)果如下圖所示。

e361ab80-7cf2-11f0-a18e-92fbcf53809c.png

H-RDT在兩種機器人上均表現(xiàn)出很強的性能,在 Aloha-Agilex-1.0上達到87.2%的成功率,在Franka-Panda上達到62.9%的成功率,在兩個機器人上均顯著優(yōu)于基線方法。

總結(jié)與展望

本文提出H-RDT模型,使用具有3D手部位姿標注的第一人稱人類操作視頻預訓練以增強雙臂機器人的操作能力。展望未來,面對數(shù)據(jù)采集成本高、模型泛化困難等挑戰(zhàn),人類操作數(shù)據(jù)憑借其極低的采集成本和豐富的操作語義,將成為機器人策略學習不可忽視的新“寶藏”。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31073

    瀏覽量

    222162
  • 仿真
    +關注

    關注

    54

    文章

    4482

    瀏覽量

    138244
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52099

原文標題:開發(fā)者說|H-RDT:基于人類操作數(shù)據(jù)的跨本體機器人學習

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【大語言模型:原理與工程實踐】大語言模型訓練

    增長。DeepMind在相關論文中指出,模型大小和訓練Token數(shù)應以相似速率增長,以確保最佳性能。因此,構建與模型規(guī)模相匹配的
    發(fā)表于 05-07 17:10

    使用ADO操作數(shù)據(jù)

    使用ADO操作數(shù)據(jù)庫要運行程序必須將數(shù)據(jù)庫文件demo.mdb與可執(zhí)行文件放在一起,如果在vc開發(fā)環(huán)境中運行,則需要將該數(shù)據(jù)庫文件放在工程目錄下
    發(fā)表于 10-15 11:41

    使用DAO操作數(shù)據(jù)

    使用DAO操作數(shù)據(jù)庫要運行程序必須將數(shù)據(jù)庫文件course.mdb與可執(zhí)行文件放在一起,如果在vc開發(fā)環(huán)境中運行,則需要將該數(shù)據(jù)庫文件放在工程目錄下
    發(fā)表于 10-15 11:42

    pymysql怎么簡單的操作數(shù)據(jù)

    pymysql簡單操作數(shù)據(jù)
    發(fā)表于 05-01 07:33

    python的操作數(shù)據(jù)

    python操作數(shù)據(jù)
    發(fā)表于 05-20 12:11

    C#教程之Linq操作數(shù)組集合

    C#教程之Linq操作數(shù)組集合,很好的C#資料,快來學習吧。
    發(fā)表于 04-20 15:27 ?5次下載

    駕駛操作數(shù)據(jù)采集系統(tǒng)設計研究

    駕駛操作數(shù)據(jù)采集系統(tǒng)設計研究
    發(fā)表于 01-22 21:11 ?12次下載

    《Dot.NET數(shù)據(jù)庫開發(fā)技術》操作數(shù)據(jù)

    《Dot.NET數(shù)據(jù)庫開發(fā)技術》操作數(shù)據(jù)
    發(fā)表于 02-07 15:11 ?0次下載

    單片機尋找操作數(shù)存放單元地址的方法解析

    尋找操作數(shù)存放單元的地址的方式,共6種方式。 1.立即數(shù)尋址 所要找的操作數(shù)是一二進制數(shù)或十進制數(shù),出現(xiàn)在指令中,用“#”作前綴 MOVA,#20H 2.寄存器尋址
    發(fā)表于 10-18 17:04 ?4644次閱讀
    單片機尋找<b class='flag-5'>操作數(shù)</b>存放單元地址的方法解析

    附加固件下載固件以操作數(shù)據(jù)記錄器其他數(shù)據(jù)范圍。

    附加固件下載固件以操作數(shù)據(jù)記錄器其他數(shù)據(jù)范圍。
    發(fā)表于 06-06 08:16 ?5次下載
    附加固件下載固件以<b class='flag-5'>操作數(shù)據(jù)</b>記錄器其他<b class='flag-5'>數(shù)據(jù)</b>范圍。

    如何向大規(guī)模訓練語言模型中融入知識?

    本文關注于向大規(guī)模訓練語言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發(fā)表于 06-23 15:07 ?6073次閱讀
    如何向<b class='flag-5'>大規(guī)模</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>語言<b class='flag-5'>模型</b>中融入知識?

    PLC編程中的操作數(shù)是什么

    操作數(shù)是指等待CPU處理的數(shù)據(jù),也是指等待處理的數(shù)據(jù)所在的內(nèi)存地址。操作數(shù)包括標識符和標識參數(shù),標識符分為主標識符和輔助標識符。 (1)標識符(存儲
    發(fā)表于 12-20 10:13 ?9243次閱讀

    PyTorch教程11.9之使用Transformer進行大規(guī)模訓練

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程11.9之使用Transformer進行大規(guī)模訓練.pdf》資料免費下載
    發(fā)表于 06-05 15:07 ?0次下載
    PyTorch教程11.9之使用Transformer進行<b class='flag-5'>大規(guī)模</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>

    掃描操作數(shù)的信號上升沿

    使用“掃描操作數(shù)的信號上升沿”指令,可以確定所指定操作數(shù))的信號狀態(tài)是否從“0”變?yōu)椤?”。
    的頭像 發(fā)表于 06-27 09:39 ?3791次閱讀
    掃描<b class='flag-5'>操作數(shù)</b>的信號上升沿

    西門子博途:掃描操作數(shù)的信號下降沿

    使用“掃描操作數(shù)的信號下降沿”指令,可以確定所指定操作數(shù))的信號狀態(tài)是否從“1”變?yōu)椤?”。
    的頭像 發(fā)表于 07-17 10:51 ?4313次閱讀
    西門子博途:掃描<b class='flag-5'>操作數(shù)</b>的信號下降沿