- RL学习笔记:值迭代与策略迭代
深入解析值迭代(Value Iteration)与策略迭代(Policy Iteration)的核心算法流程,推导策略更新与值更新的数学形式。探讨了截断策略迭代(Truncated Policy Iteration)如何通过调整评估步数,在统一视角下连接这两种经典算法。
4 min 中文 - RL学习笔记:贝尔曼最优公式
推导了贝尔曼最优方程(Bellman Optimality Equation)及其不动点性质,解析了Value Iteration的收敛原理(Contraction Mapping),并讨论了系统模型与奖励函数对最优策略的决定作用。
5 min 中文