2 无模型的强化学习_深度强化学习核心算法与应用-QQ阅读男频玄幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2　无模型的强化学习

在基于模型的强化学习中，可以通过动态规划的方法更新值函数。但是在现实的大部分场景中，我们都无法对环境建模，也就是，我们不知道状态之间的转移概率，不了解在某个状态下做了一个动作后会变成什么状态。那么在无模型的情况下，就只能用别的方法来学习值函数了。我们把最优化控制和试错学习结合起来，很自然地就会想到从轨迹中学习（Learning from Trajectories），让智能体在环境中不断尝试，估计一个接近真实的值函数。

在模型已知的情况下，可以直接根据式（2.1）用动态规划的方法得到值函数

那么在没有模型时，怎么估计一个比较准确的值函数？这就是强化学习算法的精髓了。我们可以采用蒙特卡罗的方法计算该期望，即在环境中按照一定的先验知识进行采样，将多次采样的平均结果作为值函数的期望；也可以通过时间差分的方法来迭代地估计值函数，只要每次能够比前一次的估计更准确，最终一定可以收敛到一个比较好的值；此外，在值函数难以估计的情况下，还可以通过策略梯度的方法，直接对策略进行估计和迭代更新。

接下来，我们就详细讲述这些无模型的强化学习方法。