超越平均水平进行强化学习

时间:2019-03-10 14:12:44 阅读:10次

  考虑每天在火车上往返前进的通勤者。大多数早晨,她的火车按时运行,她第一次见面就放松了,准备好了。但是她知道偶尔会发生意外情况:机械问题,信号故障,甚至是特别下雨天。这些打嗝总是会扰乱她的模式,使她迟到并且心慌。

  随机性是我们每天都会遇到的,对我们如何体验这个世界产生深远的影响。在强化学习(RL)应用程序中也是如此,这些系统通过反复试验来学习,并且受到奖励的激励。通常,RL算法预测它从任务的多次尝试中获得的平均奖励,并使用该预测来决定如何行动。但是环境中的随机扰动可以通过改变系统获得的确切奖励数量来改变其行为。

  在一篇新论文中,我们展示了不仅可以模拟这个奖励的平均值,还可以模拟这个奖励的全部变化,我们称之为价值分布。这导致RL系统比以前的模型更准确,更快速训练,更重要的是开启了重新思考整个强化学习的可能性。

  回到我们的通勤者的例子,让我们考虑一个由三个段组成的旅程,每个段5分钟,除了每周一次火车发生故障,再加上15分钟的旅程。一个简单的计算表明,平均通勤时间是(3 x 5)+ 15/5 = 18分钟。

全屏 fullscreen_mobile

  在强化学习中,我们使用Bellman方程来预测平均通勤时间。具体来说,Bellman方程将我们当前的平均预测与我们在不久的将来所做的平均预测联系起来。从第一站开始,我们预测18分钟的旅程(平均总持续时间);从第二个开始,我们预测行程为13分钟(平均持续时间减去第一段的长度)。最后,假设火车尚未发生故障,我们预计从第三站开始通勤还有8分钟(13 - 5),直到最后我们到达目的地。 Bellman方程按顺序进行每个预测,并根据新信息更新这些预测。

  对贝尔曼方程式有点违反直觉的是,我们从未真正观察到这些预测平均值:要么火车需要15分钟(5天中有4天),要么需要30分钟 - 从不18岁!从纯粹的数学角度来看,这不是问题,因为决策理论告诉我们,我们只需要平均值来做出最佳选择。结果,这个问题在实践中大多被忽略了。然而,现在有大量的经验证据表明,预测平均值是一项复杂的业务。

  从我们的实证结果可以看出,分布视角导致更好,更稳定的强化学习

  在我们的新论文中,我们表明事实上存在贝尔曼方程的变体,它预测所有可能的结果,而不是对它们求平均值。在我们的例子中,我们在每个站点保持两个预测 - 分布:如果旅程顺利,那么时间分别是15,10,然后是5分钟;但是如果火车发生故障,那么时间是30分钟,25分钟,最后是20分钟。

  所有强化学习都可以在这个新视角下重新诠释,其应用已经导致令人惊讶的新理论成果。预测结果的分布也开启了各种算法的可能性,例如:

解决随机性的原因:一旦我们观察到通勤时间是双峰的,即承担两个可能的值,我们就可以根据这些信息采取行动,例如在离开家之前检查火车更新;
告诉安全和分开的风险选择:当两个选择具有相同的平均结果(例如,步行或乘坐火车)时,我们可能会倾向于那个变化最小(行走)的人。

自然辅助预测:预测a众多结果,例如通勤时间的分布,已被证明有利于更快地培训深层网络。

  我们采用了新的想法并在Deep Q-Network代理中实施,用具有51个可能值的分布替换其单个平均奖励输出。唯一的另一个变化是一个新的学习规则,反映了从贝尔曼(平均)方程到其分布对应方程式的转变。令人难以置信的是,事实证明,从平均值到分布,我们需要超越所有其他可比方法的表现,并且大幅度提升。下图显示了我们如何在25%的时间内获得75%的训练有素的深度Q网络性能,并实现更好的人员表现:

全屏 fullscreen_mobile

  一个令人惊讶的结果是我们在Atari 2600游戏中观察到一些随机性,即使底层游戏模拟器Stella本身是完全可预测的。这种随机性部分是因为所谓的部分可观察性:由于模拟器的内部编程,我们玩Pong游戏的代理人无法预测他们的分数增加的确切时间。可视化代理在连续帧上的预测(下图)我们看到两个单独的结果(低和高),反映了可能的时间。虽然这种内在随机性并不直接影响绩效,但我们的结果突出了我们代理人理解的局限性。

全屏 fullscreen_mobile

  随机性也会发生,因为代理自己的行为是不确定的。在太空入侵者中,我们的经纪人学会预测未来可能犯错并失去游戏的概率(零奖励)。

全屏 fullscreen_mobile

  就像在我们的火车旅程示例中一样,对这些截然不同的结果保持单独的预测是有意义的,而不是将它们聚合成不可实现的平均值。事实上,我们认为我们改进的结果在很大程度上是由于代理人能够模拟自己的随机性。

  从我们的实证结果可以明显看出,分布视角导致更好,更稳定的强化学习。由于每个强化学习概念现在都需要分配对应的可能性,它可能只是这种方法的开始。


   这项工作由Marc G. Bellemare *,Will Dabney *和RémiMunos完成。

  完整阅读本文。

超越平均水平进行强化学习所属专题:强化 超越 《超越平均水平进行强化学习》链接:http://www.zhouchuanxiong.net/1121

超越平均水平进行强化学习相关文章

  • 将机器学习应用于乳腺癌的乳腺X线摄影筛查
  • 从嘈杂的数据中学习解释规则
  • 重要性加权演员 - 学习者架构:DMLab-30中的可扩展分布式DeepRL
  • 通过游戏来学习
  • 通过神经元删除来理解深度学习
  • 学习编写生成图像的程序
  • 学习在没有地图的城市中导航
  • 前额皮质作为一种元强化学习系统
  • 开源TRFL:强化学习构建模块库
  • 机器学习可以提高风能的价值
  • TF-Replicator:研究人员的分布式机器学习
  • AlphaGo的胜利对AI和机器学习意味着什么
  • 案例研究:机器学习与自然语言处理 - Inbenta
  • 用人工神经元进行无监督学习
  • 借助TrueNorth,嵌入式系统可以进行深度学习推理
  • 使用分布式学习来提升Watson的Visual IQ
  • 学会回答非平凡的问题:通过深度学习推理知识库
  • IBM Research利用新的软件技术实现了创纪录的深度学习性能
  • 脑启动AI:神经科学如何帮助推进机器学习
  • 使用深度学习来预测海浪
  • 深度学习的开放标准,以简化神经网络的发展
  • 使用物联网和机器学习来跟踪肺病的进展
  • 机器学习过去常常超过MELD来评估肝脏疾病
  • IBM科学家证明使用GPU可以将大规模机器学习速度提高10倍
  • 分布式深度学习培训控制提供10倍的性能提升
  • ROMEO寻求通过机器学习和边缘物联网改善风电场
  • 从研究论文中自动生成深度学习模型的代码
  • 攻丝机学习促进更多地利用仿生学进行创新
  • 深度学习培训时间显着减少
  • IBM Research的深度学习进展