返回
深入解析值迭代(Value Iteration)与策略迭代(Policy Iteration)的核心算法流程,推导策略更新与值更新的数学形式。探讨了截断策略迭代(Truncated Policy Iteration)如何通过调整评估步数,在统一视角下连接这两种经典算法。
reinforcement learning
value iteration
policy iteration
truncated policy iteration
学习笔记