Maxton‘s Blog

博客文档链接关于时间轴 English

返回

标签: #policy iteration

2026年2月18日

RL学习笔记：值迭代与策略迭代

深入解析值迭代（Value Iteration）与策略迭代（Policy Iteration）的核心算法流程，推导策略更新与值更新的数学形式。探讨了截断策略迭代（Truncated Policy Iteration）如何通过调整评估步数，在统一视角下连接这两种经典算法。

4 min 中文