返回
深入解析强化学习中的蒙特卡洛方法(Monte Carlo Methods),涵盖MC Basic与Exploring Starts采样机制。探讨了广义策略迭代(GPI)框架,并详细推导epsilon-Greedy策略如何平衡探索与利用,实现无模型场景下的策略优化。
reinforcement learning
monte carlo methods
gpi
epsilon-greedy
学习笔记