Maxton‘s Blog

博客文档链接关于时间轴 English

返回

标签: #actor-critic

2026年2月22日

RL学习笔记：Actor-Critic算法

简述强化学习Actor-Critic算法框架，涵盖QAC、A2C、重要性采样及确定性策略梯度（DPG）的核心推导与更新机制。

8 min 中文