深度強化學習(Deep RL)可以通過序列決策式的方式,在很多方面得到應用。這里我們主要介紹一篇CVPR‘21使用RL做點云圖像配準的文章:ReAgent: Point Cloud Registration using Imitation and Reinforcement Learninghttps://arxiv.org/abs/2103.15231
總體上而言,ReAgent是通過訓練了一個Policy網絡,狀態是Source點云和Target點云,輸出一系列動作(旋轉、平移Source點云),使得Source點云最終和Target點云在相同的地方重合。那么我們現在深入其中的細節,其實針對RL的應用文章,最需要關注的點是以下4個方面:
狀態(State)設計
動作(Action)設計
獎勵(Reward)設計
算法實現
一般來說RL的應用文章在算法上無非使用的是較為廣泛使用的算法模型,如DQN、PPO、SAC等。
State
這里的State是將Source和Targe點云通過一個PointNet類似的結構,從高維點云信息Embedding到一個特征空間后,兩者Concatenate得到State的表征信息。這里從上圖中可以比較好的理解。
Action
這里Action的選擇就比較直觀,我們需要通過一些操作來旋轉、平移Source點云。那么Action就直接設置為旋轉、平移相關的動作。這篇文章在實現上,使用離散的動作集,比如x方向的平移為[0.0033,0.01,0.03,0.09,0.27],當然是有正有負。
Reward
Reward的設計就更為直觀,就是在執行動作后,看是否Source和Target之間更加接近了。這里使用的是Chamfer Distance(CD)來衡量,下面給出Reward的設計:

這里的Reward也很直觀,就是加入執行動作之后,是否變得更好?如果變好了就給一個正的獎勵,如果變差了就給一個負的獎勵。
算法實現
文章采用了PPO。那么ReAgent的總體框架就如下圖:

如果理解了這個問題中的State、Action的設計,還是相當直觀的框架。同時筆者也跑通了ReAgent的代碼,實際看下其效果如何,主要是觀察其序列動作過程
可以看到ReAgent的動作還是相當“絲滑“”且準確的。也希望更多的讀者能夠探索RL的各種應用,做到像人一樣“絲滑”~
—版權聲明—
來源:強化學習技術前沿
僅用于學術分享,版權屬于原作者。
若有侵權,請聯系微信號: 刪除或修改!
編輯:jq
-
代碼
+關注
關注
30文章
4967瀏覽量
73960 -
深度強化學習
+關注
關注
0文章
14瀏覽量
2485
原文標題:深度強化學習點云配準——ReAgent技術詳解
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
配網圖像監拍裝置:配網監測的性能標桿
【EASY EAI Nano-TB(RV1126B)開發板試用】AI手部21關鍵點識別
【「高速數字設計(基礎篇)」閱讀體驗】 + 書籍評測第一篇
如何使用自動駕駛激光雷達獲得的點云圖進行障礙物識別?
UPS需要配多少電池?續航時間怎么算?一篇文章讓你完全搞懂!
毫秒級響應!配網行波故障預警與定位裝置煥新效率
易控智駕榮獲計算機視覺頂會CVPR 2025認可
TLKS-PMG-PV550 配網圖像監拍裝置:配網安全的智能守護者
傳音多媒體團隊攬獲CVPR NTIRE 2025兩項挑戰賽冠亞軍
NVIDIA榮獲CVPR 2025輔助駕駛國際挑戰賽冠軍
后摩智能四篇論文入選三大國際頂會
一篇帶你搞定!Air8101:物聯網設備AirKiss配網方案
挑戰具身機器人協同操作新高度!地瓜機器人邀你共戰CVPR 2025雙臂協作機器人競賽
一篇關于CVPR‘21使用RL做點云圖像配準
評論