Maxton‘s Blog

博客文档链接关于时间轴 English

返回

标签: #gpi

2026年2月18日

RL学习笔记：蒙特卡洛方法

深入解析强化学习中的蒙特卡洛方法（Monte Carlo Methods），涵盖MC Basic与Exploring Starts采样机制。探讨了广义策略迭代（GPI）框架，并详细推导epsilon-Greedy策略如何平衡探索与利用，实现无模型场景下的策略优化。

5 min 中文