PPO: Giải thích thuật toán Proximal Policy Opitmization (PPO)

Proximal Policy Optimization (PPO) hiện nay được xem như là thuật toán SoTA trong Reinforcement Learning (RL). Thuật toán được giới thiệu bởi OpenAI năm 2017, được xây dựng nằm cân bằng giữa performance và khả năng hiểu/ dễ dàng sử dụng. Chất lượng của thuật toán cạnh tranh với các thuật toán khác trong RL trên nhiều benchmark chất lượng, thâm chí còn vượt trội trên một số task. Đồng thời, nó đủ đơn giản để chúng ta dễ dàng áp dụng vào thực tế, điều này thường rất khó khăn cho mọi thuật toán trong RL.

Hiểu theo bề nổi thì sự khác nhau giữa các phương pháp policy gradient truyền thống với PPO không quá lớn. Dựa trên pseudo-code của 2 thuật toán có thể thấy tưởng chừng như hai thuật toán này giống nhau. Tuy nhiên, đằng sau tất cả là một lý thuyết phong phú cần thiết để đánh giá và hiểu đầy đủ về thuật toán. Chúng ta sẽ thảo luận ngắn gọn về các điểm chính của các phương pháp Policy Gradient, Natural Policy Gradient và Trust Region Policy Optimization (TRPO) để có thể làm bước đệm cho việc hiểu rõ hơn về PPO.

Vanilla Policy Gradient

Để hiểu rõ về PPO chúng ta cần phải hiểu thật rõ về phương pháp Policy Gradients. Nếu bạn còn chưa có kiến thức về phần này bạn có thể đọc tham khảo bài viết này: https://phanxuanphucnd.github.io/chatgpt/PolicyGradients.

Trong RL, một policy π hiểu đơn giản là một hàm mà trả về một hành động (action) khả thi cho trước 1 trạng thái (state) s.

Natural Policy Gradient

Trust Region Policy Optimization (TRPO)

Proximal Policy Optimization (PPO)

PPO - Variant with Adaptive KL Penalty

PPO - Variant with Clipped Objective

PPO2

Kết luận

References

[1] Natural Gradient Works Efficiently in Learning, 1998, https://ieeexplore.ieee.org/abstract/document/6790500.

[2] Towards Delivering a Coherent Self-Contained Explanation of Proximal Policy Optimization, 2021, https://fse.studenttheses.ub.rug.nl/25709/1/mAI_2021_BickD.pdf.

[3] A Natural Policy Gradient, 2001, https://proceedings.neurips.cc/paper/2001/file/4b86abe48d358ecf194c56c69108433e-Paper.pdf.

[4] Trust Region Policy Optimization, 2015, https://proceedings.mlr.press/v37/schulman15.pdf.

[5] Proximal policy optimization algorithms, 2017, https://arxiv.org/pdf/1707.06347.pdf.

Phanxuan Phuc

fakerphan