3.1 什么是模型_深度强化学习核心算法与应用-QQ阅读武侠男生网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

3.1　什么是模型

强化学习方法一般分为有模型和无模型两类，那么到底什么是模型呢？概括地说，模型是对智能体所处环境的一种描述和表示。前面我们提到，强化学习会用马尔可夫决策过程来建模，即有这样一个五元组（S，A，P，R，γ），其中的五个元素分别代表状态空间、动作空间、状态转移函数、奖赏函数以及折损系数。在无模型的方法中，我们都假设P和R未知，且并不尝试去学习P和R，而是直接利用样本（experiences）学习策略。我们知道，P表示的是在某个环境中在状态s下执行动作a时转移到状态s′的概率，而R则表示在转移过程中应该得到的奖赏值。可以看出，它们可以度量环境本身动态变化的性质，当可以对环境的动态变化P（s′|s，a）和R（s′|s，a）建模时，就可以认为我们有了环境的模型。