深度确定性策略梯度(DDPG)

强化学习(十六) 深度确定性策略梯度(DDPG)

　　　　在强化学习(十五) A3C中，我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题，今 […]