博客 • Maxton‘s Blog

简述强化学习Actor-Critic算法框架，涵盖QAC、A2C、重要性采样及确定性策略梯度（DPG）的核心推导与更新机制。

总结强化学习中策略梯度方法的核心思想，涵盖目标函数的定义、对数求导技巧与梯度定理的推导过程，并梳理REINFORCE算法及其参数更新机制。

总结强化学习中值函数近似的核心概念，涵盖线性与非线性近似、状态分布假设与梯度优化方法，并梳理DQN及经验回放机制。

整理时序差分算法的核心思想，对比TD与MC的区别，并梳理Sarsa、n-step Sarsa与Q-learning等经典算法的更新机制与理论依据。

梳理随机近似理论与Robbins-Monro算法，推导随机梯度下降（SGD）的演变过程与收敛特性，并对比BGD、MBGD与SGD的采样差异。

深入解析强化学习中的蒙特卡洛方法（Monte Carlo Methods），涵盖MC Basic与Exploring Starts采样机制。探讨了广义策略迭代（GPI）框架，并详细推导epsilon-Greedy策略如何平衡探索与利用，实现无模型场景下的策略优化。

深入解析值迭代（Value Iteration）与策略迭代（Policy Iteration）的核心算法流程，推导策略更新与值更新的数学形式。探讨了截断策略迭代（Truncated Policy Iteration）如何通过调整评估步数，在统一视角下连接这两种经典算法。

推导了贝尔曼最优方程（Bellman Optimality Equation）及其不动点性质，解析了Value Iteration的收敛原理（Contraction Mapping），并讨论了系统模型与奖励函数对最优策略的决定作用。