深度强化学习核心算法与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

近几年来,深度学习无论是在学术界还是在工业界都掀起了一次又一次的热潮。深度学习凭借强大的建模能力和学习能力,不仅使机器学习技术有了长足的进步,而且在计算机视觉、自然语言处理、搜索推荐等诸多领域都展现了强大的应用实力[36,22,21,29,79]

即使深度学习技术能够把猫狗花草分得比人类精准得多,人们依然认为它距离真正的人工智能还有很大差距。这是为什么呢?原因在于深度学习技术仅仅解决了机器感知外界的问题,虽然它能够告诉我们一张图片是猫还是狗(这是一个分类模型),但是对于感知到这个外界的知识之后该怎么用这一问题,目前在绝大部分场景下,都还是由人类完成的。因此,与真正的人工智能相比,深度学习技术还欠缺决策能力,必须对感知的知识做出反应才能称得上是一个智能体[61,64,62]。

众所周知,强化学习一直研究的就是多步决策的问题,它在机器学习领域是一个比较特殊的类别[68]。在监督学习中,我们通过建立数据与标签的关系来学习样本的数据分布;在无监督学习中,我们从数据的结构中发掘样本的分布规律。而强化学习与监督学习和无监督学习都不同,它既没有非常准确的监督信号,也不完全是无监督地在数据中发现结构。它通过不断与环境交互去学习一系列的决策,使得模型最终能够在环境中获得最大的收益。这是一种很接近人类智能的算法,但是由于学习效率低,强化学习一直都仅存在于学术研究领域,很难在真实的复杂场景中应用起来[42,13,83,4]

然而DeepMind在2015年于《自然》杂志上发表的Human-Level Control Through Deep Reinforcement Learning中,将强化学习与深度学习技术相结合,赋予了深度学习决策能力,两者结合训练出来的智能体在若干电子游戏上达到甚至超过了人类玩家的水平[44,46,69,75,55]。这是一个里程碑式的研究工作,它利用深度学习极大地拓宽了强化学习的应用范围,打开了深度强化学习这个全新的研究方向。DeepMind的技术负责人David Silver提出:人工智能就等于强化学习加深度学习!随着越来越多的相关研究比如A3C、IMPALA、PPO、DDPG等研究工作的涌现[72,8,43,56,57,20],深度强化学习展现出越来越强的生命力,在许多真实的应用领域比如围棋、非常复杂的即时战略游戏《星际争霸》、机器人、动画生成、智能对话、搜索与推荐等领域都开始发挥着重要的作用,并且完成了很多之前根本无法完成的任务[72,8,16,60,14,28]

深度强化学习无疑正在掀起深度学习的又一波浪潮,它对机器学习技术乃至人工智能技术有着深远的影响,并且很可能把人工智能领域带向新的高度,这是令所有人工智能从业者和爱好者激动的技术革命。笔者认为,无论未来人工智能技术是否会强依赖于深度强化学习,它都很有借鉴价值,值得大家学习、了解。

本书系统地介绍了深度强化学习的基本概念和经典算法,并结合若干实际的应用场景对深度强化学习进行了深入的探讨。本书希望通过相对完整的知识体系和应用案例,帮助读者比较快地了解深度强化学习的内涵,掌握大概的脉络,从而能够顺利地进入该领域的研究和应用。