使用无人监督的辅助任务进行强化学习

时间:2019-03-10 14:19:23 阅读:31次

  我们在DeepMind的主要任务是突破人工智能的界限,开发可以学习解决任何复杂问题的程序,而无需如何教授。我们的强化学习代理在Atari 2600游戏和Go游戏中取得了突破。然而,这样的系统可能需要大量数据并且需要很长时间才能学习,因此我们一直在寻找改进通用学习算法的方法。

  我们最近的论文“使用无监督辅助任务强化学习”介绍了一种大大提高学习者学习速度和最终表现的方法。我们通过增加标准的深度强化学习方法来实现这一目标,其中包括两个主要的附加任务,供我们的代理在培训期间执

  在迷宫迷宫觅食任务中我们的代理人的可视化可以在下面看到。

全屏 fullscreen_mobile

  第一项任务涉及代理学习如何控制屏幕上的像素,强调了解您的行为将如何影响您将看到的而不仅仅是预测。这类似于婴儿如何通过移动它们并观察动作来学习控制它们的手。通过学习改变屏幕的不同部分,我们的经纪人可以学习视觉输入的功能,这些功能对于玩游戏和获得更高的分数非常有用。

  在第二项任务中,训练代理人从短暂的历史背景中预测即时奖励的开始。为了更好地处理奖励稀少的情况,我们向代理人提供过去的奖励和无回报的历史。通过更频繁地学习奖励历史,代理可以更快地发现预测奖励的视觉特征。

  这些辅助任务的组合以及我们以前的A3C论文是我们新的UNREAL代理(UNUpervised REinforcement and Auxiliary Learning)。我们在57个Atari游戏以及一个名为Labyrinth的13个级别的3D环境中测试了这个代理。在所有游戏中,相同的UNREAL代理以相同的方式在游戏的原始图像输出上进行训练,以产生最大化游戏中代理的得分或奖励的动作。获得游戏奖励所需的行为是非常多变的,从在3D迷宫中拾取苹果到玩太空入侵者 - 相同的UNREAL算法学会经常将这些游戏玩到人类级别以及更高级别。一些结果和可视化可以在下面的视频中看到。

play UNREAL代理玩Labyrinth

  在Labyrinth中,使用辅助任务的结果 - 控制屏幕上的像素并预测奖励何时发生 - 意味着UNREAL能够学习速度比我们以前最好的A3C代理快10倍,并且性能要好得多。我们现在可以在我们考虑的迷宫级别中达到平均87%的专家人类表现,其中包括超人类表现。在Atari,代理人现在平均达到9倍的人力表现。我们希望这项工作能够让我们将代理商扩展到更复杂的环境。

  

在这里阅读全文。
使用无人监督的辅助任务进行强化学习所属专题:辅助 强化 《使用无人监督的辅助任务进行强化学习》链接:http://www.zhouchuanxiong.net/1149