上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.2 一些基本定义
通常,我们会将强化学习问题建模成智能体与环境交互的模型。其中,智能体通过与环境交互来接收环境的信息,得到自己当前的状态(State),再根据状态做出动作,到达下一个状态。在这个交互的过程中,环境也会给智能体以正向或者负向的反馈,通常称为奖赏[68]。
如果要用数学的形式来表达马尔可夫决策过程,我们需要首先定义一些基本概念。
·状态s:代表智能体可以从环境中获取的信息,其中s∈S,S代表所有可能的状态的集合;
·动作a:代表智能体可以做的决策,其中a∈A,A代表所有可能的动作的集合;
·转移概率p(si+1|si,ai):代表智能体在状态si做了动作ai,使环境转变为si+1的概率;
·奖赏r(si,ai):代表智能体在状态si做了动作ai所获得的奖赏。
通常智能体在环境中会做多步的决策,在状态s0做了动作a0,获得r0,并使状态变成s1,一步一步进行下去,形成一个序列τ=(s0,a0,s1,a1,···)。智能体在时间步t时决策的目标就是使得之后的累积奖赏最大,这个累积奖赏通常会称为回报(Return)。假设在时间步t后智能体拿到的奖赏依次是rt+1,rt+2,rt+3,···,则其中一种带折扣的回报的表达形式如下所示:
这里的γ是0到1之间的折扣因子,表示未来的奖赏对现在的影响。γ=0相当于只考虑当前的回报,这个时候,其实强化学习和监督学习没有什么区别;而当γ=1的时候,表示能够看到无限远的地方,但这种情况一般不容易训练,很难收敛。