国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MoDem解決了視覺強化學習領域的三個挑戰

OpenCV學堂 ? 來源:新智元 ? 2023-01-05 11:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】MetaAI這次發布的MoDem解決了視覺強化學習領域的三個挑戰,無需解碼器,效率最高提升250%,一起看看它有多牛。

12月27日,MetaAI 負責視覺和強化學習領域的A

eaf4d14c-8c5e-11ed-bfe3-dac502259ad0.png

截止27日晚間,這篇推文的閱讀量已經達到73.9k。

eafc10a6-8c5e-11ed-bfe3-dac502259ad0.png

他表示,僅給出5個演示,MoDem就能在100K交互步驟中解決具有稀疏獎勵和高維動作空間的具有挑戰性的視覺運動控制任務,大大優于現有的最先進方法。

有多優秀呢?

他們發現MoDem在完成稀疏獎勵任務方面的成功率比低數據機制中的先前方法高出150%-250%。

eb0169a2-8c5e-11ed-bfe3-dac502259ad0.png

Lecun也轉發了這一研究,表示MoDem的模型架構類似于JEPA,可在表征空間做出預測且無需解碼器。

eb0df6c2-8c5e-11ed-bfe3-dac502259ad0.png

鏈接小編就放在下面啦,有興趣的小伙伴可以看看~

eb17ae42-8c5e-11ed-bfe3-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2212.05698

Github鏈接:https://github.com/facebookresearch/modem

研究創新和模型架構

樣本效率低下是實際應用部署深度強化學習 (RL) 算法的主要挑戰,尤其是視覺運動控制。

基于模型的RL有可能通過同時學習世界模型并使用合成部署來進行規劃和政策改進,從而實現高樣本效率。

然而在實踐中,基于模型的RL的樣本高效學習受到探索挑戰的瓶頸,這次研究恰恰解決了這些主要挑戰。

首先,MoDem分別通過使用世界模型、模仿+RL和自監督視覺預訓練,解決了視覺強化學習/控制領域的三個主要挑戰:

大樣本復雜性(Large sample complexity)

高維狀態和動作空間探索(Exploration in high-dimensional state and action space)

同步視覺表征和行為學習(Simultaneous learning of visual representations and behaviors)

eb22ced0-8c5e-11ed-bfe3-dac502259ad0.png

這次的模型架構類似于Yann LeCun的JEPA,并且無需解碼器。

作者Aravind Rajeswaran表示,相比Dreamer需要像素級預測的解碼器,架構繁重,無解碼器架構可支持直接插入使用SSL預訓練的視覺表示。

eb2abf6e-8c5e-11ed-bfe3-dac502259ad0.png

此外基于IL+RL,他們提出了一個三階段算法:

BC預訓練策略

使用包含演示和探索的種子數據集預訓練世界模型,此階段對于整體穩定性和效率很重要

通過在線互動微調世界模型

eb34d1b6-8c5e-11ed-bfe3-dac502259ad0.png

結果顯示,生成的算法在21個硬視覺運動控制任務中取得了SOTA結果(State-Of-The-Art result),包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。

從數據上來看,MoDem在各項任務中的表現遠遠優于其他模型,結果比之前的SOTA方法提升了150%到250%。

eb3f2a3a-8c5e-11ed-bfe3-dac502259ad0.png

紅色線條為MoDem在各項任務中的表現

在此過程中,他們還闡明了MoDem中不同階段的重要性、數據增強對視覺MBRL的重要性以及預訓練視覺表示的實用性。

最后,使用凍結的 R3M 功能遠遠優于直接的 E2E 方法。這很令人興奮,表明視頻中的視覺預訓練可以支持世界模型。

但8月數據強勁的E2E與凍結的R3M競爭,我們可以通過預訓練做得更好。

eb5281de-8c5e-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1218

    瀏覽量

    43393
  • Meta
    +關注

    關注

    0

    文章

    322

    瀏覽量

    12453
  • 強化學習
    +關注

    關注

    4

    文章

    270

    瀏覽量

    11967

原文標題:Meta推出MoDem世界模型:解決視覺領域三大挑戰,LeCun轉發

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛中常提的離線強化學習是什么?

    [首發于智駕最前沿微信公眾號]在之前談及自動駕駛模型學習時,詳細聊過強化學習的作用,由于強化學習能讓大模型通過交互學到策略,不需要固定的規則,從而給自動駕駛的落地創造更多可能。
    的頭像 發表于 02-07 09:21 ?203次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    強化學習會讓自動駕駛模型學習更快嗎?

    [首發于智駕最前沿微信公眾號]在談及自動駕駛大模型訓練時,有的技術方案會采用模仿學習,而有些會采用強化學習。同樣作為大模型的訓練方式,強化學習有何不同?又有什么特點呢? 什么是強化學習
    的頭像 發表于 01-31 09:34 ?641次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    多智能體強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能體的過程非常簡單,那么我們現在換一場景,同時訓練五智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學習
    的頭像 發表于 01-21 16:21 ?193次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發搭載Momenta R6強化學習大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發。新車將搭載Momenta R6強化學習大模型,帶來全場景的智能出行體驗。
    的頭像 發表于 01-12 16:23 ?325次閱讀

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    大系列課程,形成\"傳統視覺算法→深度學習建模→工業級部署\"的完整技術鏈,不論是新手、老手都適合學習。 1. 新手入門 課程通過層保障體系降低
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    大系列課程,形成\"傳統視覺算法→深度學習建模→工業級部署\"的完整技術鏈,不論是新手、老手都適合學習。 1. 新手入門 課程通過層保障體系降低
    發表于 12-03 13:50

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數周”減至“數十分鐘” ? 近日,智元機器人宣布其研發的真機強化學習技術,已在與龍旗科技合作的驗證產線中成功落地。據介紹,此次落地的真機強化學習方案,機器人
    發表于 11-05 09:44 ?1090次閱讀

    自動駕駛中常提的“強化學習”是啥?

    下,就是一智能體在環境里行動,它能觀察到環境的一些信息,并做出一動作,然后環境會給出一反饋(獎勵或懲罰),智能體的目標是把長期得到的獎勵累積到最大。和監督學習不同,
    的頭像 發表于 10-23 09:00 ?662次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是<b class='flag-5'>個</b>啥?

    淺談Sn-Bi-Ag低溫錫膏的晶界強化機制

    Sn-Bi-Ag低溫錫膏的晶界強化機制是一多因素協同作用的過程,以下從各機制的具體作用、研究案例及數據支持、協同效應三個角度進行詳細闡述:
    的頭像 發表于 08-13 09:08 ?638次閱讀

    NVIDIA Isaac Lab可用環境與強化學習腳本使用指南

    Lab 是一適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行
    的頭像 發表于 07-14 15:29 ?2346次閱讀
    NVIDIA Isaac Lab可用環境與<b class='flag-5'>強化學習</b>腳本使用指南

    怎么結合嵌入式,Linux,和FPGA三個方向達到一均衡發展?

    在嵌入式領域,不少人都懷揣著讓嵌入式、Linux 和 FPGA 三個方向實現均衡發展的夢想,然而實踐中卻面臨諸多挑戰。就像備受矚目的全棧工程師稚暉君,他從大學玩單片機起步,憑借將智能算法融入嵌入式而
    的頭像 發表于 06-25 10:08 ?860次閱讀
    怎么結合嵌入式,Linux,和FPGA<b class='flag-5'>三個</b>方向達到一<b class='flag-5'>個</b>均衡發展?

    華為發布天才少年挑戰課題發布 五大主題方向課題放榜

    ?: ?智能聯接與計算?:涉及自主智能無線通信架構、昇騰強化學習系統等關鍵技術研究。 ?基礎研究與創新?:包括大模型安全關鍵技術、智能成像/編輯技術等研究。 ?智能終端?:聚焦于世界模型理論突破、基于計算機視覺的多
    的頭像 發表于 06-16 19:23 ?1198次閱讀

    18常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?1610次閱讀
    18<b class='flag-5'>個</b>常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼實現

    如何檢測極管的三個

    可以用萬用表來初步確定極管的好壞及類型 (NPN 型還是 PNP 型 ),并辨別出e(發射極)、b(基極)、c(集電極)三個電極。
    發表于 03-08 16:40

    如何區分場效應管mos管三個引腳

    場效應管mos管三個引腳怎么區分
    發表于 03-07 09:20 ?0次下載