上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
3.1 什么是模型
强化学习方法一般分为有模型和无模型两类,那么到底什么是模型呢?概括地说,模型是对智能体所处环境的一种描述和表示。前面我们提到,强化学习会用马尔可夫决策过程来建模,即有这样一个五元组(S,A,P,R,γ),其中的五个元素分别代表状态空间、动作空间、状态转移函数、奖赏函数以及折损系数。在无模型的方法中,我们都假设P和R未知,且并不尝试去学习P和R,而是直接利用样本(experiences)学习策略。我们知道,P表示的是在某个环境中在状态s下执行动作a时转移到状态s′的概率,而R则表示在转移过程中应该得到的奖赏值。可以看出,它们可以度量环境本身动态变化的性质,当可以对环境的动态变化P(s′|s,a)和R(s′|s,a)建模时,就可以认为我们有了环境的模型。