国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用PyTorch實現了基本的RL算法

DPVg_AI_era ? 來源:lq ? 2019-06-07 15:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天和大家分享Reddit上的一個熱帖,樓主用PyTorch實現了基本的RL算法,而且每個算法都在一個文件夾中完成,即使沒有GPU,每個算法也可以在30秒內完成訓練。

近日,有開發人員用PyTorch實現了基本的RL算法,比如REINFORCE, vanilla actor-critic, DDPG, A3C, DQN 和PPO。這個帖子在Reddit論壇上獲得了195個贊并引發了熱議,一起來看一下吧。

特點如下:

每個算法都在一個文件中完成。

每個算法的長度可達100~150行代碼。

即使沒有GPU,每個算法也可以在30秒內完成訓練。

Envs固定在“CartPole-v1”上,你只需關注執行。

minimalRL-pytorch算法:

1. REINFORCE(66行)

2. TD Actor-Critic(97行)

3. DQN(113行,包括重放內存和目標網絡)

4. PPO(116行,包括GAE)

5. DDPG(149行,包括OU噪聲和軟目標更新)

6. A3C(116行)

7. 有什么建議嗎?

依賴配置:

1. PyTorch

2. OpenAI GYM

使用:

# Works only with Python 3.#e.g.python3REINFORCE.pypython3actor_critic.pypython3dqn.pypython3ppo.pypython3ddpg.pypython3 a3c.py

評論中,不少朋友表示了對樓主的認可和感謝:

Dump7留言:“可以!這是我見過的最美的東西之一。我不是一個能用框架編寫NN的人。但我正在努力。這將在很大程度上幫助到我。謝謝你做了這個。但是你能為基本的CNN和RNN制作這樣的單一文件代碼嗎?”

CodeReclaimers表示:“謝謝你分享這個——我知道把代碼簡化到最少是很費事的。特別好的是,你的代碼將依賴配置控制在最低限度。通常都是,我去尋找可以學習的例子,要花至少30多分鐘來收集所有依賴配置,結果發現我的平臺上少了一些關鍵的東西。”

Reddit上的討論:

https://www.reddit.com/r/MachineLearning/comments/bt8sap/p_implementations_of_basic_rl_algorithms_with/

Github資源:

https://github.com/seungeunrho/minimalRL

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4784

    瀏覽量

    98092
  • 代碼
    +關注

    關注

    30

    文章

    4968

    瀏覽量

    74009
  • pytorch
    +關注

    關注

    2

    文章

    813

    瀏覽量

    14856

原文標題:6行代碼搞定基本的RL算法,速度圍觀Reddit高贊帖

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    PyTorch 中RuntimeError分析

    原生實現。這是一個已知的 PyTorch 限制,常見于 Stable Diffusion、ComfyUI 等使用 interpolate(..., mode=\'nearest\') 的模型中
    發表于 03-06 06:02

    Pytorch 與 Visionfive2 兼容嗎?

    Pytorch 與 Visionfive2 兼容嗎? $ pip3 install torch torchvision torchaudio --index-url https
    發表于 02-06 08:28

    PID控制的算法

    語言實現二 PID算法的離散化上一節中,我論述PID算法的基本形式,并對其控制過程的實現
    發表于 01-23 08:18

    SM4算法實現分享(一)算法原理

    ,Xi、Yi、rki為字,i=0,1,2,…,31。則本算法的加密實現為: 本算法的解密實現與加密實現結構是相同的,不同的只是提供的輪
    發表于 10-30 08:10

    復雜的軟件算法硬件IP核的實現

    具體方法與步驟 通過 C 語言實現軟件算法,并驗證算法的有效性以后,就可以進行算法的 HDL 轉化工作了。通過使用 Altium Des
    發表于 10-30 07:02

    TCORDIC算法實現正余弦函數

    TCORDIC算法,由低延遲CORDIC算法和Taylor展開組成。Taylor展開計算作為CORDIC算法的補充,能夠結合CORDIC算法和Taylor展開方式來計算浮點正余弦函數,
    發表于 10-29 06:30

    查找表與多項式近似算法實現初等函數

    逼近的定義區間長度及選取系數的方式決定。 每個子間隔的系數存儲在查找表中。Xm來選擇系數,所以方程變成: 使用查找表與多項式近似結合算法實現對數函數,如下圖所示為指數函數的流水線結構: 下圖為仿真結果:
    發表于 10-28 08:10

    數據濾波算法的具體實現步驟是怎樣的?

    ? 數據濾波算法在電能質量在線監測裝置中的具體實現,需圍繞 “ 數據采集→預處理→算法執行→參數適配→效果驗證→結果輸出 ” 的全流程展開,核心是結合裝置硬件特性(采樣率、ADC 精度)和干擾類型
    的頭像 發表于 10-10 16:45 ?835次閱讀

    CW32L012實現外部flash下載算法

    外部flash或者內置的片上flash,都是編譯器通過調用寫好的FLM文件來實現下載,單片機內部的安裝pack包就會有(官方實現),外部flash的情況比較復雜,例如用的哪種flash,的什么接口,都是不定的,沒有辦法寫好一個
    的頭像 發表于 10-09 17:38 ?1663次閱讀
    CW32L012<b class='flag-5'>實現</b>外部flash下載<b class='flag-5'>算法</b>

    基于FPGA實現FOC算法之PWM模塊設計

    哈嘍,大家好,從今天開始正式帶領大家從零到一,在FPGA平臺上實現FOC算法,整個算法的框架如下圖所示,如果大家對算法的原理不是特別清楚的話,可以先去百度上學習一下,本教程著重介紹
    的頭像 發表于 07-17 15:21 ?3508次閱讀
    基于FPGA<b class='flag-5'>實現</b>FOC<b class='flag-5'>算法</b>之PWM模塊設計

    基于Matlab與FPGA的雙邊濾波算法實現

    前面發過中值、均值、高斯濾波的文章,這些只考慮位置,并沒有考慮相似度。那么雙邊濾波來了,既考慮位置,有考慮相似度,對邊緣的保持比前幾個好很多,當然實現上也是復雜很多。本文將從原理
    的頭像 發表于 07-10 11:28 ?4563次閱讀
    基于Matlab與FPGA的雙邊濾波<b class='flag-5'>算法</b><b class='flag-5'>實現</b>

    基于FPGA的壓縮算法加速實現

    本設計中,計劃實現對文件的壓縮及解壓,同時優化壓縮中所涉及的信號處理和計算密集型功能,實現對其的加速處理。本設計的最終目標是證明在充分并行化的硬件體系結構 FPGA 上實現算法時,可
    的頭像 發表于 07-10 11:09 ?2409次閱讀
    基于FPGA的壓縮<b class='flag-5'>算法</b>加速<b class='flag-5'>實現</b>

    FT232RL USB 轉串口工業級替代方案DT232RL公司產品競爭力直線提升

    DT232RL的成本與技術雙突破 摘要 面對進口FT232RL芯片的高成本與供貨風險,本文驗證國產DT232RL方案的工業級替代可行性。實測表明,該方案較國內同類產品單一個串口芯片成
    的頭像 發表于 07-03 17:00 ?795次閱讀

    如何在VS Code中使用瑞薩RL78系列MCU

    RL78家族系列MCU,以其業界領先的低功耗和各種內置的高性能外圍功能,極大地提高了電源效率,降低了BOM成本,實現設備的小型化。
    的頭像 發表于 04-23 13:49 ?4251次閱讀
    如何在VS Code中使用瑞薩<b class='flag-5'>RL</b>78系列MCU

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    易于理解和實踐,全部代碼均在JupyterNotebook環境中實現,僅依賴基礎庫進行算法構建。代碼庫組織結構如下:├──1_simple_rl.ipynb├──
    的頭像 發表于 04-23 13:22 ?1620次閱讀
    18個常用的強化學習<b class='flag-5'>算法</b>整理:從基礎方法到高級模型的理論技術與代碼<b class='flag-5'>實現</b>