李宏毅的强化学习视频用于梳理翻阅
本文主要是整理策略迭代的部分,重在阐明原理。李宏毅的视频,见网上。
最终说明OpenAI的默认强化学习算法PPO的部分。(Proximal Policy Optimization)
蓝色标记为有待查阅具体代码。不同于强化学习的值迭代的容易理解和表达,策略迭代更需要耐心、细心、思考。
优化目标
策略
版权声明:本文为bai2018原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文主要是整理策略迭代的部分,重在阐明原理。李宏毅的视频,见网上。
最终说明OpenAI的默认强化学习算法PPO的部分。(Proximal Policy Optimization)
蓝色标记为有待查阅具体代码。不同于强化学习的值迭代的容易理解和表达,策略迭代更需要耐心、细心、思考。
策略