1.2 一些基本定义_深度强化学习核心算法与应用-QQ阅读武侠男生网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2　一些基本定义

通常，我们会将强化学习问题建模成智能体与环境交互的模型。其中，智能体通过与环境交互来接收环境的信息，得到自己当前的状态（State），再根据状态做出动作，到达下一个状态。在这个交互的过程中，环境也会给智能体以正向或者负向的反馈，通常称为奖赏［68］。

如果要用数学的形式来表达马尔可夫决策过程，我们需要首先定义一些基本概念。

·状态s：代表智能体可以从环境中获取的信息，其中s∈S，S代表所有可能的状态的集合；

·动作a：代表智能体可以做的决策，其中a∈A，A代表所有可能的动作的集合；

·转移概率p（si+1|si，ai）：代表智能体在状态si做了动作ai，使环境转变为si+1的概率；

·奖赏r（si，ai）：代表智能体在状态si做了动作ai所获得的奖赏。

通常智能体在环境中会做多步的决策，在状态s0做了动作a0，获得r0，并使状态变成s1，一步一步进行下去，形成一个序列τ=（s0，a0，s1，a1，···）。智能体在时间步t时决策的目标就是使得之后的累积奖赏最大，这个累积奖赏通常会称为回报（Return）。假设在时间步t后智能体拿到的奖赏依次是rt+1，rt+2，rt+3，···，则其中一种带折扣的回报的表达形式如下所示：

这里的γ是0到1之间的折扣因子，表示未来的奖赏对现在的影响。γ=0相当于只考虑当前的回报，这个时候，其实强化学习和监督学习没有什么区别；而当γ=1的时候，表示能够看到无限远的地方，但这种情况一般不容易训练，很难收敛。

本周热推：

大数据驱动的机械装备智能运维理论及应用实时流计算系统设计与实现智能制造：技术前沿与探索应用新编计算机导论（第2版）Silverlight 2完美征程