第一部分　基础理论篇

1　马尔可夫决策过程

强化学习的两大基础是试错学习（Trail and Error）和最优化控制（Optimal Control）［68］。试错学习为强化学习提供了基础的框架和奖赏（Reward）等基本概念；由贝尔曼（Richard Bellman）所发展出来的最优化控制则为强化学习提供了重要的解决问题的工具和理论基础。从最优化控制出发，我们可以知道，强化学习依赖于一个重要的假设，即智能体（Agent）所在环境（Environment）对于动作的反馈是确定的，同时是满足马尔可夫性的。因此我们必须把强化学习问题转化成用马尔可夫决策过程（Markov Decision Process，MDP）来进行建模，以便能使用后续的各种工具如策略梯度（Policy Gradient）。

第一部分 基础理论篇

1 马尔可夫决策过程

第一部分　基础理论篇

1　马尔可夫决策过程