深度强化学习核心算法与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2 无模型的强化学习

在基于模型的强化学习中,可以通过动态规划的方法更新值函数。但是在现实的大部分场景中,我们都无法对环境建模,也就是,我们不知道状态之间的转移概率,不了解在某个状态下做了一个动作后会变成什么状态。那么在无模型的情况下,就只能用别的方法来学习值函数了。我们把最优化控制和试错学习结合起来,很自然地就会想到从轨迹中学习(Learning from Trajectories),让智能体在环境中不断尝试,估计一个接近真实的值函数。

在模型已知的情况下,可以直接根据式(2.1)用动态规划的方法得到值函数

那么在没有模型时,怎么估计一个比较准确的值函数?这就是强化学习算法的精髓了。我们可以采用蒙特卡罗的方法计算该期望,即在环境中按照一定的先验知识进行采样,将多次采样的平均结果作为值函数的期望;也可以通过时间差分的方法来迭代地估计值函数,只要每次能够比前一次的估计更准确,最终一定可以收敛到一个比较好的值;此外,在值函数难以估计的情况下,还可以通过策略梯度的方法,直接对策略进行估计和迭代更新。

接下来,我们就详细讲述这些无模型的强化学习方法。