Maxton‘s Blog

博客文档链接关于时间轴 English

返回

标签: #reinforce

2026年2月22日

RL学习笔记：策略梯度方法

总结强化学习中策略梯度方法的核心思想，涵盖目标函数的定义、对数求导技巧与梯度定理的推导过程，并梳理REINFORCE算法及其参数更新机制。

8 min 中文