返回
简述强化学习Actor-Critic算法框架,涵盖QAC、A2C、重要性采样及确定性策略梯度(DPG)的核心推导与更新机制。
reinforcement learning
actor-critic
a2c
dpg
学习笔记