第 1 页 - 显示 8 / 16 篇
按年份查看归档 →
- RL学习笔记:Actor-Critic算法
简述强化学习Actor-Critic算法框架,涵盖QAC、A2C、重要性采样及确定性策略梯度(DPG)的核心推导与更新机制。
8 min 中文 - RL学习笔记:策略梯度方法
总结强化学习中策略梯度方法的核心思想,涵盖目标函数的定义、对数求导技巧与梯度定理的推导过程,并梳理REINFORCE算法及其参数更新机制。
8 min 中文 - RL学习笔记:值函数近似
总结强化学习中值函数近似的核心概念,涵盖线性与非线性近似、状态分布假设与梯度优化方法,并梳理DQN及经验回放机制。
7 min 中文 - RL学习笔记:时序差分算法
整理时序差分算法的核心思想,对比TD与MC的区别,并梳理Sarsa、n-step Sarsa与Q-learning等经典算法的更新机制与理论依据。
16 min 中文 - RL学习笔记:随机近似与随机梯度下降
梳理随机近似理论与Robbins-Monro算法,推导随机梯度下降(SGD)的演变过程与收敛特性,并对比BGD、MBGD与SGD的采样差异。
9 min 中文 - RL学习笔记:蒙特卡洛方法
深入解析强化学习中的蒙特卡洛方法(Monte Carlo Methods),涵盖MC Basic与Exploring Starts采样机制。探讨了广义策略迭代(GPI)框架,并详细推导epsilon-Greedy策略如何平衡探索与利用,实现无模型场景下的策略优化。
5 min 中文 - RL学习笔记:值迭代与策略迭代
深入解析值迭代(Value Iteration)与策略迭代(Policy Iteration)的核心算法流程,推导策略更新与值更新的数学形式。探讨了截断策略迭代(Truncated Policy Iteration)如何通过调整评估步数,在统一视角下连接这两种经典算法。
4 min 中文 - RL学习笔记:贝尔曼最优公式
推导了贝尔曼最优方程(Bellman Optimality Equation)及其不动点性质,解析了Value Iteration的收敛原理(Contraction Mapping),并讨论了系统模型与奖励函数对最优策略的决定作用。
5 min 中文