返回
总结强化学习中策略梯度方法的核心思想,涵盖目标函数的定义、对数求导技巧与梯度定理的推导过程,并梳理REINFORCE算法及其参数更新机制。
reinforcement learning
policy gradient
reinforce
学习笔记