使用无人监督的辅助任务进行强化学习

时间:2019-03-10 14:19:23 阅读:47次

  我们在DeepMind的主要任务是突破人工智能的界限,开发可以学习解决任何复杂问题的程序,而无需如何教授。我们的强化学习代理在Atari 2600游戏和Go游戏中取得了突破。然而,这样的系统可能需要大量数据并且需要很长时间才能学习,因此我们一直在寻找改进通用学习算法的方法。

  我们最近的论文“使用无监督辅助任务强化学习”介绍了一种大大提高学习者学习速度和最终表现的方法。我们通过增加标准的深度强化学习方法来实现这一目标,其中包括两个主要的附加任务,供我们的代理在培训期间执

  在迷宫迷宫觅食任务中我们的代理人的可视化可以在下面看到。

全屏 fullscreen_mobile

  第一项任务涉及代理学习如何控制屏幕上的像素,强调了解您的行为将如何影响您将看到的而不仅仅是预测。这类似于婴儿如何通过移动它们并观察动作来学习控制它们的手。通过学习改变屏幕的不同部分,我们的经纪人可以学习视觉输入的功能,这些功能对于玩游戏和获得更高的分数非常有用。

  在第二项任务中,训练代理人从短暂的历史背景中预测即时奖励的开始。为了更好地处理奖励稀少的情况,我们向代理人提供过去的奖励和无回报的历史。通过更频繁地学习奖励历史,代理可以更快地发现预测奖励的视觉特征。

  这些辅助任务的组合以及我们以前的A3C论文是我们新的UNREAL代理(UNUpervised REinforcement and Auxiliary Learning)。我们在57个Atari游戏以及一个名为Labyrinth的13个级别的3D环境中测试了这个代理。在所有游戏中,相同的UNREAL代理以相同的方式在游戏的原始图像输出上进行训练,以产生最大化游戏中代理的得分或奖励的动作。获得游戏奖励所需的行为是非常多变的,从在3D迷宫中拾取苹果到玩太空入侵者 - 相同的UNREAL算法学会经常将这些游戏玩到人类级别以及更高级别。一些结果和可视化可以在下面的视频中看到。

play UNREAL代理玩Labyrinth

  在Labyrinth中,使用辅助任务的结果 - 控制屏幕上的像素并预测奖励何时发生 - 意味着UNREAL能够学习速度比我们以前最好的A3C代理快10倍,并且性能要好得多。我们现在可以在我们考虑的迷宫级别中达到平均87%的专家人类表现,其中包括超人类表现。在Atari,代理人现在平均达到9倍的人力表现。我们希望这项工作能够让我们将代理商扩展到更复杂的环境。

  

在这里阅读全文。
使用无人监督的辅助任务进行强化学习所属专题:辅助 强化 《使用无人监督的辅助任务进行强化学习》链接:http://www.zhouchuanxiong.net/1149

使用无人监督的辅助任务进行强化学习相关文章

  • 提炼:传播机器学习的科学
  • 通过人工反馈学习
  • 超越平均水平进行强化学习
  • AlphaGo Zero:从零开始学习
  • 将机器学习应用于乳腺癌的乳腺X线摄影筛查
  • 从嘈杂的数据中学习解释规则
  • 重要性加权演员 - 学习者架构:DMLab-30中的可扩展分布式DeepRL
  • 通过游戏来学习
  • 通过神经元删除来理解深度学习
  • 学习编写生成图像的程序
  • 学习在没有地图的城市中导航
  • 前额皮质作为一种元强化学习系统
  • 开源TRFL:强化学习构建模块库
  • 机器学习可以提高风能的价值
  • TF-Replicator:研究人员的分布式机器学习
  • AlphaGo的胜利对AI和机器学习意味着什么
  • 案例研究:机器学习与自然语言处理 - Inbenta
  • 用人工神经元进行无监督学习
  • 借助TrueNorth,嵌入式系统可以进行深度学习推理
  • 使用分布式学习来提升Watson的Visual IQ
  • 学会回答非平凡的问题:通过深度学习推理知识库
  • IBM Research利用新的软件技术实现了创纪录的深度学习性能
  • 脑启动AI:神经科学如何帮助推进机器学习
  • 使用深度学习来预测海浪
  • 深度学习的开放标准,以简化神经网络的发展
  • 使用物联网和机器学习来跟踪肺病的进展
  • 机器学习过去常常超过MELD来评估肝脏疾病
  • IBM科学家证明使用GPU可以将大规模机器学习速度提高10倍
  • 分布式深度学习培训控制提供10倍的性能提升
  • ROMEO寻求通过机器学习和边缘物联网改善风电场