本章介绍强化学习最经典、最重要的数学模型——Markov决策过程(Markov Decision Process,MDP)。首先我们从离散时间智能体/环境接口引入Markov决策过程的定义,然后介绍在求解Markov决策过程时会用到的重要性质,最后介绍一种求解Markov决策过程最优策略的方法。