本文主要是整理策略迭代的部分,重在阐明原理。李宏毅的视频,见网上。

最终说明OpenAI的默认强化学习算法PPO的部分。(Proximal Policy Optimization)

蓝色标记为有待查阅具体代码。不同于强化学习的值迭代的容易理解和表达,策略迭代更需要耐心、细心、思考。

 

优化目标

策略

版权声明:本文为bai2018原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/bai2018/p/12888101.html