深度强化学习核心算法与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4 基于策略的值函数

智能体做动作的决策过程,可以用策略π表示,可以被定义为智能体在状态s下选择动作空间A中的动作的概率pa|s)。在确定性策略的情况下,某个状态s对应的动作a概率为1;在随机策略情况下,这是一个概率分布。一个智能体在某个状态下选择某个策略的V值和Q值就可以定义为

这两个值的概率很相似。V值表示的是某个状态本身长期的价值,而Q值表示的是某个状态下、某个动作的长期价值。由于Q值直接对动作进行打分,因此通常在动作离散的情况下,会使用Q值来学习(Q-Learning的方法),而动作空间很大的时候,则使用V值对策略进行梯度迭代(策略梯度的方法)。