通过人工反馈学习

时间:2019-03-10 14:18:20 阅读:9次

  我们相信人工智能将成为有史以来最重要和最广泛有益的科学进步之一,帮助人类应对气候变化和提供先进医疗保健等一些最大的挑战。但是,为了实现这一承诺,我们知道技术必须以负责任的方式构建,我们必须考虑所有潜在的挑战和风险。

这就是为什么DeepMind共同创建了类似于人工智能合作伙伴关系使人民和社会受益,以及为什么我们有一个致力于技术AI安全的团队。该领域的研究需要开放和协作,以确保尽可能广泛地采用最佳实践,这就是我们与OpenAI合作进行技术AI安全研究的原因。
其中一个这个领域的问题是我们如何允许人类告诉系统我们想要它做什么 - 重要的是 - 我们不希望它做什么。这一点越来越重要,因为我们在机器学习中遇到的问题变得更加复杂并且在现实世界中得到应用。

我们合作的第一个结果证明了一种解决这个问题的方法,即允许没有技术的人教授强化学习(RL)系统的经验 - 通过反复试验学习的AI - 一个复杂的目标。这消除了人类预先为算法指定目标的需要。这是一个重要的步骤,因为实现目标甚至有点错误可能会导致不良甚至危险的行为。在某些情况下,只需30分钟的非专家反馈即可培训我们的系统,包括教授全新的复杂行为,例如如何让模拟机器人进行后空翻。

全屏 fullscreen_mobile 从人类那里花了大约900条反馈来教这个算法后空翻

  系统 - 在我们的论文中描述了Deep Reinforcement Learning from Human Preferences - 通过从称为“奖励预测器”的神经网络训练代理而不是经典RL系统,而不是在探索环境时收集的奖励。

它由三个并行运行的进程组成:

强化学习代理探索并与其环境进行交互,例如Atari游戏。

周期性地,将其行为的一对1-2秒剪辑发送给操作员,要求他们选择哪一个最能显示实现预期目标的步骤。

人类的选择用于训练奖励预测者,而预测者又训练代理人。随着时间的推移,代理人学会最大化来自预测器的奖励并根据人的偏好改善其行为。

全屏 fullscreen_mobile 系统将学习目标与学习分开实现它的行为

  这种迭代的学习方法意味着人类可以发现并纠正任何不良行为,这是任何安全系统的关键部分。该设计也不会给操作人员带来繁重的负担,操作人员只需要检查约0.1%的代理行为,以使其能够按照自己的意愿行事。然而,这可能意味着要审查数百到数千对剪辑,需要减少这些剪辑以使其适用于现实世界的问题。

全屏 fullscreen_mobile 人工操作员必须在两个剪辑之间进行选择。在这个例子中,对于Atari游戏Qbert,右手剪辑显示了更好的点得分 - 行为

  在Atari游戏Enduro中,它涉及驾驶汽车超越其他人的线路通过传统RL网络的反复试验技术很难学习,人类反馈最终使我们的系统达到了超人的效果。在其他游戏和模拟机器人任务中,它的表现与标准的RL设置相当,而在像Qbert和Breakout这样的游戏中,它根本无法工作。

  但是这样的系统的最终目的是允许人类为代理指定目标,即使它不存在于环境中。为了测试这一点,我们教授代理人各种新颖的行为,例如进行后空翻,单腿行走或学习与Enduro中的另一辆车一起驾驶,而不是超车以最大化游戏分数。

全屏 fullscreen_mobile Enduro的正常目标是尽可能多地通过汽车。但是使用我们的系统,我们可以训练代理人追求不同的目标,例如与其他车辆一起驾驶

  虽然这些测试显示出一些积极的结果,但其他测试显示出其局限性。特别是,如果在培训早期中断了人工反馈,我们的设置很容易受到奖励黑客攻击或游戏其奖励功能。在这种情况下,代理继续探索其环境,这意味着奖励预测者被迫估计其未收到任何反馈的情况的奖励。这可能导致它过度预测奖励,激励代理人学习错误 - 通常是奇怪的 - 行为。在下面的视频中可以看到一个例子,代理人发现来回击球是一种比赢或输更好的策略。

全屏 fullscreen_mobile 代理已经破解了它的奖励功能,并且已经决定来回击球比获胜或失去一分更好

  了解这些缺陷对于确保我们避免失败并构建符合预期的AI系统至关重要。

  还有更多的工作要做,以测试和增强这个系统,但它已经显示了生产可以由非专家用户教授的系统的一些关键的第一步,是经济的,他们需要的反馈量,可以扩展到各种问题。

  其他探索领域可能包括减少所需的人工反馈量,或让人类通过自然语言界面提供反馈。这标志着创建一个可以轻松地从人类行为的复杂性中学习的系统的一个步骤变化,以及创建适用于全人类的人工智能的关键步骤。


  

   这项研究是作为Jan Leike,Miljan Martic和DeepMind的Shane Legg与Paul Christiano,Dario Amodei和Tom Brown在OpenAI的持续合作的一部分进行的。

阅读全文

阅读OpenAI的博客

阅读'AI安全中的具体问题'了解更多主题背景

通过人工反馈学习所属专题:人工 反馈 《通过人工反馈学习》链接:http://www.zhouchuanxiong.net/1130

通过人工反馈学习相关文章

  • AlphaGo Zero:从零开始学习
  • 将机器学习应用于乳腺癌的乳腺X线摄影筛查
  • 从嘈杂的数据中学习解释规则
  • 重要性加权演员 - 学习者架构:DMLab-30中的可扩展分布式DeepRL
  • 通过游戏来学习
  • 通过神经元删除来理解深度学习
  • 学习编写生成图像的程序
  • 学习在没有地图的城市中导航
  • 前额皮质作为一种元强化学习系统
  • 开源TRFL:强化学习构建模块库
  • 机器学习可以提高风能的价值
  • TF-Replicator:研究人员的分布式机器学习
  • AlphaGo的胜利对AI和机器学习意味着什么
  • 案例研究:机器学习与自然语言处理 - Inbenta
  • 用人工神经元进行无监督学习
  • 借助TrueNorth,嵌入式系统可以进行深度学习推理
  • 使用分布式学习来提升Watson的Visual IQ
  • 学会回答非平凡的问题:通过深度学习推理知识库
  • IBM Research利用新的软件技术实现了创纪录的深度学习性能
  • 脑启动AI:神经科学如何帮助推进机器学习
  • 使用深度学习来预测海浪
  • 深度学习的开放标准,以简化神经网络的发展
  • 使用物联网和机器学习来跟踪肺病的进展
  • 机器学习过去常常超过MELD来评估肝脏疾病
  • IBM科学家证明使用GPU可以将大规模机器学习速度提高10倍
  • 分布式深度学习培训控制提供10倍的性能提升
  • ROMEO寻求通过机器学习和边缘物联网改善风电场
  • 从研究论文中自动生成深度学习模型的代码
  • 攻丝机学习促进更多地利用仿生学进行创新
  • 深度学习培训时间显着减少