伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NeurIPS 2023 | 擴散模型解決多任務強化學習問題

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-10-02 10:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

擴散模型(diffusion model)在 CV 領域甚至 NLP 領域都已經有了令人印象深刻的表現。最近的一些工作開始將 diffusion model 用于強化學習(RL)中來解決序列決策問題,它們主要利用 diffusion model 來建模分布復雜的軌跡或提高策略的表達性。

但是, 這些工作仍然局限于單一任務單一數據集,無法得到能同時解決多種任務的通用智能體。那么,diffusion model 能否解決多任務強化學習問題呢?我們最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning”,旨在解決這個問題并希望啟發后續通用決策智能的研究:

wKgaomUs_uiAPwcVAADyizd-MH8593.png

論文題目:Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

論文鏈接:

https://arxiv.org/abs/2305.18459

wKgaomUs_uiARxLWAAAl6LOgh3c813.png

背景

數據驅動的大模型在 CV 和 NLP 領域已經獲得巨大成功,我們認為這背后源于模型的強表達性和數據集的多樣性和廣泛性。基于此,我們將最近出圈的生成式擴散模型(diffusion model)擴展到多任務強化學習領域(multi-task reinforcement learning),利用 large-scale 的離線多任務數據集訓練得到通用智能體。 目前解決多任務強化學習的工作大多基于 Transformer 架構,它們通常對模型的規模,數據集的質量都有很高的要求,這對于實際訓練來說是代價高昂的。基于 TD-learning 的強化學習方法則常常面臨 distribution-shift 的挑戰,在多任務數據集下這個問題尤甚,而我們將序列決策過程建模成條件式生成問題(conditional generative process),通過最大化 likelihood 來學習,有效避免了 distribution shift 的問題。

wKgaomUs_umAfPWpAAAuhh9-KLM146.png

方法

具體來說,我們發現 diffusion model 不僅能很好地輸出 action 進行實時決策,同樣能夠建模完整的(s,a,r,s')的 transition 來生成數據進行數據增強提升強化學習策略的性能,具體框架如圖所示:

wKgaomUs_umAGc6HAAI2cE1qOKM978.png

對于決策規劃任務,我們將模型稱為 ;對于數據生成(增強)任務,我們將模型稱為 。我們的擴散模型基于 DDPM 的訓練方式,利用 損失訓練 ,它能夠預測逆向過程每一步的噪聲 。對于 ,它的損失函數可以表示為:wKgaomUs_umAAA_wAACLlEPXDXA612.png其中wKgaomUs_umAWYSRAAB1Ws6EjIU335.png是軌跡的標準化累積回報,Demonstration Prompt,可以表示為:

wKgaomUs_umAQRwuAAAxxdL7iBY889.png

*表示專家軌跡, 即是從每個任務下的一條或幾條專家軌跡采樣得到的 時間步長的一段包含狀態和動作的軌跡。 classifi-free guidance,并在測試推理過程中生成未來 步長的動作序列,在實驗中我們選取第一個動作與環境交互。 對于 ,它的損失函數可以表示為:wKgaomUs_umAUGgDAACK-1SXsoo131.png其中wKgaomUs_umANKHeAACSilxMGYM177.png

wKgaomUs_uqAEzr3AAAq2QW7Bb8589.png

值得注意的是這里我們需要擴散模型建模整個(s,a,r)的完整軌跡,并且由于目標是完成數據生成任務,需要盡可能多樣化的數據,不需要模型 condition 在 上,自然也不需要 classifier-free guidance。

wKgaomUs_uqAaGp7AAAtJ0fTuoM419.png

模型結構

為了更好地建模多任務數據,并且統一多樣化的輸入數據,我們用 transformer 架構替換了傳統的 U-Net 網絡,網絡結構圖如下:

wKgaomUs_uqAO-7aAAJyxIMKF6w767.png

▲ 關于模型結構和更多細節,還請參考我們的論文

wKgaomUs_uqAK0WIAAAr2pbNr48494.png

實驗

我們首先在 Meta-World MT50 上開展實驗并與 baselines 進行比較,我們在兩種數據集上進行實驗,分別是包含大量專家數據,從 SAC-single-agent 中的 replay buffer 中收集到的 Near-optimal data(100M);以及從 Near-optimal data 中降采樣得到基本不包含專家數據的 Sub-optimal data(50M)。實驗結果如下:

wKgaomUs_uqACYt7AAPaFsHrZ_A580.png

可以看到我們的方法在同樣大小的數據上不僅超越了大多數離線強化學習方法,并且也超過了兩種多任務在線強化學習方法,其中 PaCo 是目前的 SOTA 方法。我們的方法通過 classifier-free guidance 得到最優行為,對數據集質量的依賴性不強,在 Sub-optimal data 上的表現相比其他 sequence modeling 的方法有很大提升。 在我們的實驗中也觀察到 Behavior Cloning(BC)在 Near-optimal data 上和我們的方法相比具有 competitive performance,但 BC 嚴重依賴數據集質量,在 Sub-optimal data 上性能急劇下降。 在數據增強方面,我們的方法也同樣有效,明顯提升了數據集的質量以增強策略性能,實驗結果如下:wKgaomUs_uuAFGIsAAL17Q96vJY141.png我們選取 45 個任務的 Near-optimal data 訓練 ,從表中我們可以觀察到在 見過的任務上,我們的方法均取得了最好的性能。甚至給定一段 demonstration prompt, 能泛化到沒見過的任務上并取得較好的表現。我們選取四個任務對原數據和 生成的數據做 T-SNE 可視化分析,發現我們生成的數據的分布基本匹配原數據分布,并且在不偏離的基礎上擴展了分布,使數據覆蓋更加全面。

wKgaomUs_uuASXaRAAQzw2TjRHc660.png

同樣也具有泛化性,更多實驗分析可以參見論文。

wKgaomUs_uuAeNslAAAtTL4L6hI534.png

總結

我們提出了一種基于擴散模型(diffusion model)的一種新的、通用性強的多任務強化學習解決方案,它不僅可以通過單個模型高效完成多任務決策,而且可以對原數據集進行增強,從而提升各種離線算法的性能。我們未來將把 遷移到更加多樣、更加通用的場景,旨在深入挖掘其出色的生成能力和數據建模能力,解決更加困難的任務。同時,我們會將 遷移到真實控制場景,并嘗試優化其推理速度以適應某些需要高頻控制的任務。


原文標題:NeurIPS 2023 | 擴散模型解決多任務強化學習問題

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2948

    文章

    48066

    瀏覽量

    417697

原文標題:NeurIPS 2023 | 擴散模型解決多任務強化學習問題

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    上汽奧迪E5 Sportback車型升級搭載全新Momenta強化學習模型

    近日,上汽奧迪宣布旗下 E5 Sportback 車型升級搭載 全新Momenta 強化學習模型
    的頭像 發表于 04-09 09:33 ?110次閱讀

    上汽大眾ID. ERA 9X全球首發搭載Momenta R7強化學習世界模型

    3月30日,Momenta R7強化學習世界模型全球首發搭載車型——上汽大眾ID. ERA 9X正式開啟預售。
    的頭像 發表于 03-31 13:48 ?281次閱讀

    Momenta R6強化學習模型上車東風日產NX8

    3月20日,東風日產NX8技術暨預售發布會在廣州舉辦,官宣Momenta R6強化學習模型正式上車東風日產新能源SUV——NX8。以全球頂級大廠合力,融合先鋒科技力量,打造更適配全家出行的智能SUV,開啟合資品牌智能化全新賽道。
    的頭像 發表于 03-24 09:08 ?759次閱讀

    Momenta強化學習模型助力別克至境世家純電版正式上市

    3月17日,別克至境世家純電版正式上市,這是別克與Momenta強化學習模型的又一次深度聯手。融合別克在MPV市場深耕27年的技術積淀,以更從容的智慧駕控,重新定義豪華與自在的出行體驗。
    的頭像 發表于 03-18 15:48 ?253次閱讀

    Momenta R7強化學習世界模型即將推出

    3月16日,上汽大眾舉辦以“人本科技”為主題的ID. ERA技術發布會,首次揭曉了ID. ERA 系列包括智能輔助駕駛在內的諸多核心技術亮點。會上,Momenta CEO曹旭東正式宣布:Momenta R7強化學習世界模型即將推出,并將全球首發搭載于上汽大眾全新旗艦SUV
    的頭像 發表于 03-17 13:57 ?1135次閱讀

    自動駕駛中常提的離線強化學習是什么?

    [首發于智駕最前沿微信公眾號]在之前談及自動駕駛模型學習時,詳細聊過強化學習的作用,由于強化學習能讓大模型通過交互學到策略,不需要固定的規則
    的頭像 發表于 02-07 09:21 ?318次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    強化學習會讓自動駕駛模型學習更快嗎?

    [首發于智駕最前沿微信公眾號]在談及自動駕駛大模型訓練時,有的技術方案會采用模仿學習,而有些會采用強化學習。同樣作為大模型的訓練方式,強化學習
    的頭像 發表于 01-31 09:34 ?799次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛<b class='flag-5'>模型</b><b class='flag-5'>學習</b>更快嗎?

    多智能體強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能體的過程非常簡單,那么我們現在換一個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學習
    的頭像 發表于 01-21 16:21 ?293次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發搭載Momenta R6強化學習模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發。新車將搭載Momenta R6強化學習模型,帶來全場景的智能出行體驗。
    的頭像 發表于 01-12 16:23 ?447次閱讀

    國內七大基于大模型的發射任務調度與過程保障分系統軟件介紹

    )、多模態AI、數字孿生與強化學習等前沿技術,聚焦發射任務的智能規劃、資源調度、過程保障與應急響應,是當前全球航天領域智能化升級的核心載體。 ? ?系統軟件供應可以來這里,這個首肌開始是幺伍扒,中間是幺幺叁叁,最后一個是泗柒泗
    的頭像 發表于 12-24 11:08 ?375次閱讀

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數周”減至“數十分鐘” ? 近日,智元機器人宣布其研發的真機強化學習技術,已在與龍旗科技合作的驗證產線中成功落地。據介紹,此次落地的真機強化學習方案,機器人
    發表于 11-05 09:44 ?1140次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    [首發于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術。簡單理解
    的頭像 發表于 10-23 09:00 ?838次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    NVIDIA Isaac Lab可用環境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行學習),為所有機器
    的頭像 發表于 07-14 15:29 ?2567次閱讀
    NVIDIA Isaac Lab可用環境與<b class='flag-5'>強化學習</b>腳本使用指南

    快速入門——LuatOS:sys庫多任務管理實戰攻略!

    在嵌入式開發中,多任務管理是提升系統效率的關鍵。本教程專為快速入門設計,聚焦LuatOS的sys庫,通過實戰案例帶你快速掌握多任務創建、調度與同步技巧。無論你是零基礎新手還是希望快速提升開發效率
    的頭像 發表于 05-29 14:36 ?973次閱讀
    快速入門——LuatOS:sys庫<b class='flag-5'>多任務</b>管理實戰攻略!

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?1745次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級<b class='flag-5'>模型</b>的理論技術與代碼實現