强化学习(十三)

强化学习(十三) 策略梯度(Policy Gradient)

　　　　在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value […]