国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于擴散模型的視頻生成框架RoboTransfer

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-07-09 14:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

RoboTransfer

幾何約束&條件可控視頻生成

具身數(shù)據(jù)合成新范式

機器人操作領(lǐng)域,模仿學(xué)習(xí)是推動具身智能發(fā)展的關(guān)鍵路徑,但高度依賴大規(guī)模、高質(zhì)量的真實演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。

我們提出RoboTransfer一基于擴散模型的視頻生成框架,旨在合成高保真且符合物理規(guī)律的機器人操作演示數(shù)據(jù)。該框架創(chuàng)新性地融合深度-表面法向的幾何約束與多視角特征建模,確保生成視頻具備高度幾何一致性與真實感。通過拆分控制條件設(shè)計,實現(xiàn)對操作場景元素(如背景替換、物體外觀)的精細(xì)控制。結(jié)合物理仿真器重構(gòu)空間布局與交互狀態(tài),實現(xiàn)多樣化、可拓展的高保真數(shù)據(jù)合成。

RoboTransfer通過數(shù)據(jù)驅(qū)動的生成式Ai技術(shù),建立機器人操作數(shù)據(jù)合成新范式,提供高質(zhì)量、可擴展的演示數(shù)據(jù),助力具身智能突破通用性與泛化性邊界。

近年來,隨著人工智能從感知智能向決策智能演進,世界模型 (World Models)逐漸成為機器人領(lǐng)域的重要研究方向。世界模型旨在讓智能體對環(huán)境進行建模并預(yù)測未來狀態(tài),從而實現(xiàn)更高效的規(guī)劃與決策。

與此同時,具身數(shù)據(jù)也迎來了爆發(fā)式關(guān)注。因為目前具身算法高度依賴于大規(guī)模的真實機器人演示數(shù)據(jù),而這些數(shù)據(jù)的采集過程往往成本高昂、耗時費力,嚴(yán)重限制了其可擴展性和泛化能力。盡管仿真平臺提供了一種相對低成本的數(shù)據(jù)生成方式,但由于仿真環(huán)境與真實世界之間存在顯著的視覺和動力學(xué)差異 (即sim-to-real gap) ,導(dǎo)致在仿真中訓(xùn)練的策略難以直接遷移到真實機器人上,從而限制了其實際應(yīng)用效果。因此如何高效獲取、生成和利用高質(zhì)量的具身數(shù)據(jù),已成為當(dāng)前機器人學(xué)習(xí)領(lǐng)域的核心挑戰(zhàn)之一。

近日,地平線、極佳科技與中國科學(xué)院自動化研究所等單位提出RoboTransfer,基于擴散模型的視頻生成框架,可以用于擴充機器人策略模型的訓(xùn)練數(shù)據(jù)。得益于合成數(shù)據(jù)的多樣性,下游策略模型能夠在新場景下取得251%的顯著提升,大幅提升策略模型的泛化性,為具身智能的通用性與泛化性奠定了堅實的基礎(chǔ)。

?論文鏈接:

https://arxiv.org/pdf/2505.23171

? 項目主頁:

https://horizonrobotics.github.io/robot_lab/robotransfer/

模仿學(xué)習(xí) (Imitation Learning) 已成為機器人操作領(lǐng)域的重要方法之一。通過讓機器人“模仿”專家示教的行為,可以在復(fù)雜任務(wù)中快速構(gòu)建有效的策略模型。然而,這類方法通常依賴大量高質(zhì)量的真實機器人演示數(shù)據(jù),而數(shù)據(jù)采集過程成本高、周期長,嚴(yán)重制約了其擴展性和泛化能力。

為了解決上述問題,本項工作提出了RoboTransfer,一種基于擴散模型 (diffusion model) 的視頻生成框架,旨在實現(xiàn)高質(zhì)量的機器人操作場景數(shù)據(jù)合成。不同于傳統(tǒng)的仿真方法或現(xiàn)有生成模型,RoboTransfer融合了多視角幾何信息,并對場景中的關(guān)鍵組成成分(如背景、物體屬性等)實現(xiàn)了顯式控制。具體而言,RoboTransfer通過引入跨視角特征交互機制以及全局深度圖與法向圖作為條件輸入,確保生成視頻在多個視角下的幾何一致性。此外,該框架支持細(xì)粒度的編輯控制,例如更換背景、替換目標(biāo)物體等,從而能夠靈活地生成多樣化、結(jié)構(gòu)合理的視覺數(shù)據(jù)。

實驗結(jié)果表明,RoboTransfer能夠生成具有高幾何一致性和視覺質(zhì)量的多視角視頻序列。此外,使用RoboTransfer合成數(shù)據(jù)訓(xùn)練的機器人視覺策略模型,在標(biāo)準(zhǔn)測試任務(wù)中表現(xiàn)出顯著提升的性能:在更換前景物體的場景下取得了33.3%的成功率相對提升,在更具挑戰(zhàn)性的場景下(同時更換前景背景)更是達到了251%的顯著提升。

RoboTransfer的整體框圖如下,為了在視頻生成過程中保證多視角之間的一致性,RoboTransfer引入了多視角一致性建模機制,使得生成過程能夠聯(lián)合不同視角的信息進行推理,從而提升生成結(jié)果的空間連貫性與視覺合理性。

此外,在控制條件的設(shè)計方面,RoboTransfer通過將控制信號解耦為幾何信息與外觀(紋理)信息兩個部分,實現(xiàn)了對生成內(nèi)容的細(xì)粒度控制。具體來說,在幾何控制方面,采用深度圖 (depth map) 和表面法向圖 (surface normal map) 等具有強結(jié)構(gòu)約束的表示方式,來引導(dǎo)生成視頻中物體的三維空間結(jié)構(gòu),確保在不同視角下生成內(nèi)容的幾何一致性。而在外觀控制方面,模型利用參考背景圖像和目標(biāo)物體的參考圖像作為輸入條件,這些圖像經(jīng)過編碼后能夠有效保留原始場景的色彩、紋理以及上下文信息,從而在生成過程中維持物體外觀的細(xì)節(jié)還原能力。

在實驗部分,RoboTransfer證明可以通過real-to-real,以及sim-to-real兩種方式實現(xiàn)數(shù)據(jù)增廣,并訓(xùn)練下游的策略模型提升其性能。

real-to-real數(shù)據(jù)增廣

基于真機采集的真實視頻數(shù)據(jù),可從中提取結(jié)構(gòu)化信息作為控制條件,通過調(diào)整背景桌面與前景物體的控制參數(shù),實現(xiàn)新場景數(shù)據(jù)的合成。如下圖所示,左側(cè)為真實采集的數(shù)據(jù)及其對應(yīng)的結(jié)構(gòu)化信息,右側(cè)為合成結(jié)果,實驗表明RoboTransfer能夠靈活地實現(xiàn)背景桌布的替換。

改變前景:下圖所示第一行為真機采集數(shù)據(jù),第二行為深度圖,第三行為法向圖,第四行為前景物體的控制條件,第五行為合成數(shù)據(jù),第六行為背景桌布控制條件。以下實驗結(jié)果表明RoboTransfer可以實現(xiàn)對前景物體外表編輯的功能,豐富生成數(shù)據(jù)的多樣性,提升策略模型的訓(xùn)練質(zhì)量。

sim-to-real數(shù)據(jù)增廣

RoboTransfer不僅可以改變真機數(shù)據(jù)的前景和背景,還可以實現(xiàn)對仿真數(shù)據(jù)的重新渲染。利用仿真數(shù)據(jù)中的結(jié)構(gòu)化信息以及真實場景的物體和背景作為控制條件,RoboTransfer可以將仿真數(shù)據(jù)的轉(zhuǎn)化為逼真的真實數(shù)據(jù),極大地降低sim-to-real之間的gap,為通用機器人的訓(xùn)練提供了一個新的范式。以下是兩個不同的仿真場景重新渲染的實驗結(jié)果,左側(cè)是疊碗,右側(cè)是放置杯子,其中第一行為仿真采集數(shù)據(jù),第二行為深度圖,第三行為法向圖,第四行為合成數(shù)據(jù),第五行為背景參考圖。

對比實驗結(jié)果

與其他SOTA方法的對比可以發(fā)現(xiàn),RoboTransfer在時序一致性以及多視角之間的一致性上都要顯著優(yōu)于其他方法。

定量實驗的實驗結(jié)果如下表所示,實驗表明對于生成數(shù)據(jù)的前背景增廣可以顯著提升策略模型在新場景下的成功率,其中對于前背景完全改變的新場景,前背景的數(shù)據(jù)增廣能夠讓策略模型獲得251%的性能提升。

c2a14bca-57f5-11f0-baa5-92fbcf53809c.png

表1:數(shù)據(jù)增廣對于策略模型在不同setting下的提升

總體來說,該方法構(gòu)建了數(shù)據(jù)處理流程,可以生成包含幾何和外觀控制條件的三元組數(shù)據(jù),以訓(xùn)練基于擴散模型的機器人數(shù)據(jù)合成框架RoboTransfer。實驗和評估結(jié)果顯示,RoboTransfer能夠生成具有多視角一致、幾何一致的數(shù)據(jù),并且可以根據(jù)參考圖像修改前景和背景紋理。生成的數(shù)據(jù)用于訓(xùn)練機器人操作策略,從而顯著提升了策略模型的泛化能力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    31073

    瀏覽量

    222162
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    2005

    瀏覽量

    74956
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3751

    瀏覽量

    52099

原文標(biāo)題:開發(fā)者說|RoboTransfer:幾何一致視頻世界模型,突破機器人操作泛化邊界

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    商湯科技日日新Seko系列模型與寒武紀(jì)成功適配

    12月15日,商湯科技基于在生成式AI與多模態(tài)交互領(lǐng)域的技術(shù)積累,正式發(fā)布Seko2.0——行業(yè)首個多劇集生成智能體。該智能體在多劇集視頻生成致性方面展現(xiàn)出顯著優(yōu)勢,其背后依托的是
    的頭像 發(fā)表于 12-17 14:06 ?455次閱讀

    RAG實踐:文掌握大模型RAG過程

    RAG(Retrieval-Augmented Generation,檢索增強生成), 一種AI框架,將傳統(tǒng)的信息檢索系統(tǒng)(例如數(shù)據(jù)庫)的優(yōu)勢與生成式大語言
    的頭像 發(fā)表于 10-27 18:23 ?1558次閱讀
    RAG實踐:<b class='flag-5'>一</b>文掌握大<b class='flag-5'>模型</b>RAG過程

    OpenAI Sora 2模型上線微軟Azure AI Foundry國際版

    我們非常激動地宣布,OpenAI 的新代多模態(tài)視頻生成模型 Sora 2 現(xiàn)已在 Azure AI Foundry(國際版)上線,進入公共預(yù)覽階段。
    的頭像 發(fā)表于 10-22 09:44 ?766次閱讀
    OpenAI Sora 2<b class='flag-5'>模型</b>上線微軟Azure AI Foundry國際版

    全球首個動漫專屬AI視頻生成平臺Animon,國內(nèi)版&quot;萌動AI&quot;正式發(fā)布

    Animon國內(nèi)版——"萌動AI"首秀:AI動漫創(chuàng)作進入全民時代 北京2025年9月25日?/美通社/ -- CreateAI(OTC:TSPH)今日宣布,其打造的全球首個專注于動漫的AI視頻生成
    的頭像 發(fā)表于 09-25 12:33 ?955次閱讀

    一種適用于動態(tài)環(huán)境的自適應(yīng)先驗場景-對象SLAM框架

    由于傳統(tǒng)視覺SLAM在動態(tài)場景中容易會出現(xiàn)嚴(yán)重的定位漂移,本文提出了一種新穎的基于場景-對象的可靠性評估框架,該框架通過當(dāng)前幀質(zhì)量指標(biāo)以及相對于可靠參考幀的場景變化,全面評估SLAM的穩(wěn)定性。
    的頭像 發(fā)表于 08-19 14:17 ?873次閱讀
    <b class='flag-5'>一種</b>適用于動態(tài)環(huán)境的自適應(yīng)先驗場景-對象SLAM<b class='flag-5'>框架</b>

    百度重磅發(fā)布!全球首創(chuàng)中文音視頻模型

    電子發(fā)燒友網(wǎng)綜合報道 2025年7月2日,百度在北京正式發(fā)布全球首個中文音視頻一體化生成模型——MuseSteamer,標(biāo)志著其正式進軍圖生視頻領(lǐng)域。這款
    的頭像 發(fā)表于 07-11 09:18 ?4388次閱讀

    4K、多模態(tài)、長視頻:AI視頻生成的下個戰(zhàn)場,誰在領(lǐng)跑?

    電子發(fā)燒友網(wǎng)報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型,支持文字與圖片輸入,可
    的頭像 發(fā)表于 06-16 00:13 ?7277次閱讀

    AKOOL發(fā)布全球首款實時攝像頭

    近日,硅谷新銳公司AKOOL發(fā)布全球首款實時攝像頭Akool Live Camera,集虛擬數(shù)字人、AI視頻翻譯、實時換臉、實時AI視頻生成四大功能于身,重新定義了AI視頻生成的“實
    的頭像 發(fā)表于 06-09 16:30 ?2215次閱讀

    寬調(diào)速范圍低轉(zhuǎn)矩脈動的一種新型內(nèi)置式永磁同步電機的設(shè)計與分析

    脈動的一種新型內(nèi)置式永磁同步電機的設(shè)計與分析.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第時間告知,刪除內(nèi)容!
    發(fā)表于 06-06 14:13

    FA模型訪問Stage模型DataShareExtensionAbility說明

    DataShareExtensionAbility提供數(shù)據(jù)庫的讀寫服務(wù)。 服務(wù)端由FA模型升級到Stage模型后,會導(dǎo)致FA模型的客戶端在API 9(含)之后的版本上無法訪問服務(wù)端。 為了解決上述問題,系統(tǒng)在
    發(fā)表于 06-04 07:53

    一種實時多線程VSLAM框架vS-Graphs介紹

    針對現(xiàn)有VSLAM系統(tǒng)語義表達不足、地圖可解釋性差的問題,本文提出vS-Graphs,一種實時多線程VSLAM框架。該方案顯著提升了重建地圖的語義豐富度、可解釋性及定位精度。實驗表明
    的頭像 發(fā)表于 04-19 14:07 ?1000次閱讀
    <b class='flag-5'>一種</b>實時多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs介紹

    一種多模態(tài)駕駛場景生成框架UMGen介紹

    端到端自動駕駛技術(shù)的快速發(fā)展對閉環(huán)仿真器提出了迫切需求,而生成模型為其提供了一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場景生成方法大多側(cè)重于圖像模態(tài),忽略了其他關(guān)鍵模態(tài)的建模,如地圖信息、
    的頭像 發(fā)表于 03-24 15:57 ?1685次閱讀
    <b class='flag-5'>一種</b>多模態(tài)駕駛場景<b class='flag-5'>生成</b><b class='flag-5'>框架</b>UMGen介紹

    ?VLM(視覺語言模型)?詳細(xì)解析

    視覺語言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并
    的頭像 發(fā)表于 03-17 15:32 ?8814次閱讀
    ?VLM(視覺語言<b class='flag-5'>模型</b>)?詳細(xì)解析

    ?Diffusion生成式動作引擎技術(shù)解析

    Diffusion生成式動作引擎 Diffusion生成式動作引擎是一種基于擴散模型(Diffusion Models)的
    的頭像 發(fā)表于 03-17 15:14 ?3043次閱讀

    《AI Agent 應(yīng)用與項目實戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用

    開發(fā)視頻內(nèi)容生成Agent。 訪問語聚AI平臺官網(wǎng) ,進行注冊或登錄。 在平臺首頁,了解語聚AI的功能和應(yīng)用場景,特別是其支持的視頻生成相關(guān)的AI
    發(fā)表于 03-05 19:52