深度强化学习

时间:2019-03-10 14:19:53 阅读:3次

  人类擅长解决各种具有挑战性的问题,从低级别的运动控制到高级认知任务。我们在DeepMind的目标是创建可以达到类似性能和通用性的人工代理。与人类一样,我们的代理人为自己学习,以实现成功的战略,从而获得最大的长期回报。这种通过反复试验学习的范式,仅仅来自奖励或惩罚,被称为强化学习(RL)。同样像人类一样,我们的代理人直接从原始输入构建和学习他们自己的知识,例如视觉,没有任何手工设计的特征或领域启发式。这是通过深入学习神经网络来实现的。在DeepMind,我们开创了这些方法的结合 - 深度强化学习 - 创建第一个人工智能代理,以在许多具有挑战性的领域实现人类绩效。

  我们的代理人必须不断做出价值判断,以便选择好的行为而不是坏事。这种知识由Q网络表示,该网络估计代理在采取特定行动后可以获得的总奖励。两年前,我们推出了第一个广泛成功的深度强化学习算法。关键的想法是使用深度神经网络来表示Q网络,并训练这个Q网络来预测总奖励。由于学习不稳定,以前将RL与神经网络结合起来的尝试已基本失败。为了解决这些不稳定性,我们的深度Q网络(DQN)算法存储了所有代理的经验,然后随机抽样并重放这些经验,以提供多样化和解相关的训练数据。我们应用DQN学习在Atari 2600控制台上玩游戏。在每个时间步骤,代理观察屏幕上的原始像素,对应于游戏分数的奖励信号,并选择操纵杆方向。在我们的自然论文中,我们为50种不同的Atari游戏训练了不同的DQN代理,而没有任何先前的游戏规则知识。

全屏 fullscreen_mobile

  令人惊讶的是,DQN在其应用的50场比赛中几乎有一半达到了人类级别的表现;远远超过任何以前的方法。 DQN源代码和Atari 2600仿真器可供任何希望自己进行实验的人免费使用。

play DQN Breakout

  我们随后在很多方面改进了DQN算法:进一步稳定学习动态;优先重播经验;规范化,汇总和重新调整产出。将这些改进中的几项相结合,使得Atari游戏的平均得分提高了300%;几乎所有的Atari游戏都实现了人性化的表现。我们甚至可以训练单个神经网络来了解多个Atari游戏。我们还建立了一个大规模分布的深度RL系统,称为Gorila,它利用Google Cloud平台将训练时间加快一个数量级;该系统已应用于Google内的推荐系统。

  然而,深度Q网络只是解决深度RL问题的一种方法。我们最近推出了一种基于异步RL的更实用有效的方法。这种方法利用了标准CPU的多线程功能。我们的想法是并行执行代理的许多实例,但使用共享模型。这为体验重放提供了可行的替代方案,因为并行化也使数据多样化和解相关。我们的异步行为者 - 评论算法A3C将深度Q网络与深度策略网络相结合,以选择行动。它使用DQN的一小部分训练时间和Gorila的一小部分资源消耗来实现最先进的结果。通过建立内在动机和时间抽象规划的新方法,我们也在最臭名昭着的Atari游戏中取得了突破性的成果,例如Montezuma的复仇。

  虽然Atari游戏具有广泛的多样性,但它们仅限于基于2D精灵的视频游戏。我们最近推出了Labyrinth:一套具有挑战性的3D导航和解谜环境。同样,代理仅从其直接的视野中观察基于像素的输入,并且必须找出地图以发现和利用奖励。

play DQN Space Invaders
fullscreen fullscreen_mobile

  令人惊讶的是,A 3C算法在许多Labyrinth任务中实现了开箱即用的人类级性能。基于情景记忆的替代方法也被证明是成功的。 Labyrinth也将在未来几个月内发布。

play 深度强化学习的异步方法:Labyrinth

  我们还开发了许多用于连续控制问题的深度RL方法,例如机器人操作和运动。我们的确定性策略梯度算法(DPG)提供了与DQN的连续模拟,利用Q网络的可区分性来解决各种连续控制任务。异步RL在这些领域也表现良好,并且当采用分级控制策略进行增强时,可以解决诸如蚂蚁足球和54维人形障碍等挑战性问题,而无需事先了解动态。

play Ant Soccer

   Go游戏是经典游戏中最具挑战性的游戏。尽管经过数十年的努力,但先前的方法仅实现了业余水平的表现。我们开发了一种深度RL算法,通过自我游戏来学习价值网络(预测胜利者)和政策网络(选择行动)。我们的程序AlphaGo将这些深度神经网络与最先进的树搜索相结合。 2015年10月,AlphaGo成为第一个击败专业人类玩家的计划。 2016年3月,AlphaGo以2比1的比分击败了Lee Sedol(过去十年中最强劲的球员,拥有令人难以置信的18个世界冠军),在一场由估计2亿观众观看的比赛中。

全屏 fullscreen_mobile

  另外,我们还开发了针对深度RL的游戏理论方法,最终导致超级人类扑克玩家进入单挑限制德州扑克。

  从Atari到迷宫,从运动到操控,再到扑克甚至Go游戏,我们的深层强化学习代理已经在各种具有挑战性的任务中取得了显着的进步。我们的目标是继续提高我们的代理商的能力,并在医疗保健等重要应用中利用它们对社会产生积极影响。

深度强化学习所属专题:深度专题 强化专题 《深度强化学习》链接:http://www.zhouchuanxiong.net/1159