上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
3 有模型的强化学习
前面我们介绍了无模型的强化学习,它不对未知的环境进行建模,而是直接在与环境的交互中学习策略。本章我们将介绍另一类方法:有模型的强化学习。它主要是先对模型进行具体的建模,也就是对转移概率进行建模,之后使用学习到的环境模型进行策略学习。在基于模型的方法中,可以通过使用事先建立好的预测模型来获知采取某个动作可能发生的结果,而不一定需要实际去执行。在无模型方法中,这个建模步骤则完全被忽略,采取的是直接学习控制策略的方法。尽管在实践中,这两种技术之间的界限可能变得模糊,但作为一种粗略的指导,它对于划分算法可能性的空间是有用的。
可以看出,在基于模型的方法中,当有了环境的模型后,可以用模型来生成人造的样本,而不需要在环境中真实探索,也就没有采样的损失。换言之,这类方法在数据收集非常昂贵的场景中非常实用,比如机器人的控制任务等。当然,如何从有限的样本中估计出环境的模型,尤其是面对很多连续状态和动作空间的任务时,会很有挑战性。