上QQ阅读APP看书，第一时间看更新

第2章 Markov决策过程

本章介绍强化学习最经典、最重要的数学模型——Markov决策过程（Markov Decision Process，MDP）。首先我们从离散时间智能体/环境接口引入Markov决策过程的定义，然后介绍在求解Markov决策过程时会用到的重要性质，最后介绍一种求解Markov决策过程最优策略的方法。