少妇丰满爆乳一区二区三区,强奸乱伦第一页一区二区三区,国产精品一区二区久久

深度強化學習（Deep RL）可以通過序列決策式的方式，在很多方面得到應用。這里我們主要介紹一篇CVPR‘21使用RL做點云圖像配準的文章：ReAgent： Point Cloud Registration using Imitation and Reinforcement Learninghttps://arxiv.org/abs/2103.15231

總體上而言，ReAgent是通過訓練了一個Policy網絡，狀態是Source點云和Target點云，輸出一系列動作（旋轉、平移Source點云），使得Source點云最終和Target點云在相同的地方重合。那么我們現在深入其中的細節，其實針對RL的應用文章，最需要關注的點是以下4個方面：

狀態（State）設計

動作（Action）設計

獎勵（Reward）設計

算法實現

一般來說RL的應用文章在算法上無非使用的是較為廣泛使用的算法模型，如DQN、PPO、SAC等。

State

這里的State是將Source和Targe點云通過一個PointNet類似的結構，從高維點云信息Embedding到一個特征空間后，兩者Concatenate得到State的表征信息。這里從上圖中可以比較好的理解。

Action

這里Action的選擇就比較直觀，我們需要通過一些操作來旋轉、平移Source點云。那么Action就直接設置為旋轉、平移相關的動作。這篇文章在實現上，使用離散的動作集，比如x方向的平移為［0.0033，0.01，0.03，0.09，0.27］，當然是有正有負。

Reward

Reward的設計就更為直觀，就是在執行動作后，看是否Source和Target之間更加接近了。這里使用的是Chamfer Distance（CD）來衡量，下面給出Reward的設計：