前额皮质作为一种元强化学习系统

时间:2019-03-10 14:10:01 阅读:9次

  最近,人工智能系统已经掌握了一系列视频游戏,如Atari经典Breakout和Pong。但令人印象深刻的是,人工智能仍然依赖相当于数千小时的游戏玩法来达到并超越人类视频游戏玩家的表现。相比之下,我们通常可以在几分钟内掌握以前从未玩过的视频游戏的基础知识。

  为什么大脑能够用这么少的东西做更多事情的问题引起了元学习理论或“学习学习”。我们认为我们在两个时间尺度上学习 - 在短期内我们专注于学习具体的例子,而在更长的时间尺度我们学习完成任务所需的抽象技能或规则。正是这种组合被认为有助于我们有效地学习并快速灵活地应用这些知识来完成新任务。在人工智能系统中重新创建这种元学习结构 - 称为元强化学习 - 已经证明在促进我们的代理人快速,一次性学习方面非常有成效(参见我们的论文和OpenAI的密切相关工作)。然而,允许这一过程在大脑中发生的具体机制在神经科学中仍然很大程度上无法解释。

play 神经科学和AI

  在我们的自然神经科学新论文(在这里下载PDF)中,我们使用人工智能研究中开发的元强化学习框架来研究多巴胺的作用在大脑中帮助我们学习。多巴胺 - 通常被称为大脑的快感信号 - 通常被认为类似于AI强化学习算法中使用的奖励预测误差信号。这些系统学会通过奖励引导的反复试验来行动。我们提出多巴胺的作用不仅仅是利用奖励来学习过去行为的价值,而且它在前额皮质领域发挥着不可或缺的作用,使我们能够高效,快速,灵活地学习新任务。

  我们通过虚拟地重建神经科学领域的六个元学习实验来测试我们的理论 - 每个实验都要求代理执行使用相同基本原则(或一组技能)但在某些方面有所不同的任务。我们使用标准深度强化学习技术(代表多巴胺的作用)训练复发神经网络(代表前额皮质),然后将复发网络的活动动态与从神经科学实验中的先前发现中获得的真实数据进行比较。循环网络是元学习的良好代理,因为它们能够将过去的行动和观察内化,然后在培训各种任务时利用这些经验。

  我们重新创建的一项实验被称为Harlow实验,这是一项20世纪40年代的心理学测试,用于探索元学习的概念。在最初的测试中,一组猴子被展示出两个不熟悉的物体可供选择,其中只有一个给了他们食物奖励。他们被展示了这两个对象六次,每次左右放置是随机的,所以猴子必须知道哪个对象给予了食物奖励。然后他们展示了两个全新的物品,再次只有一个会产生食物奖励。在这个训练过程中,猴子制定了一个选择奖励相关对象的策略:它学会了第一次随机选择,然后根据奖励反馈来选择特定的对象,而不是左边或右边的位置,从那时起。实验表明,猴子可以内化任务的基本原则,并学习抽象的规则结构 - 实际上,学习学习。

  当我们使用虚拟计算机屏幕和随机选择的图像模拟非常相似的测试时,我们发现我们的'meta-RL代理'似乎以类似于Harlow实验中的动物的方式学习,即使完全呈现从未见过的新图像。

全屏 fullscreen_mobile 在我们对Harlow实验的虚拟娱乐中,代理必须将其视线移向它认为与奖励相关联的对象。

  事实上,我们发现meta-RL代理可以学习如何在具有不同规则和结构的广泛任务领域中快速适应。而且由于网络学会了如何适应各种任务,它还学习了如何有效学习的一般原则。

  重要的是,我们看到大多数学习都发生在经常性网络中,这支持了我们的建议,即多巴胺在元学习过程中比以前认为的更为不可或缺。多巴胺传统上被认为可以加强前额叶系统中的突触联系,从而强化特定的行为。在AI中,这意味着多巴胺样奖励信号在学习解决任务的正确方法时调整神经网络中的人工突触权重。然而,在我们的实验中,神经网络的权重被冻结,这意味着它们在学习过程中无法调整,但是,meta-RL代理仍然能够解决并适应新的任务。这表明多巴胺类奖励不仅用于调整权重,而且还传达和编码有关抽象任务和规则结构的重要信息,允许更快地适应新任务。

  神经科学家长期观察到前额叶皮质中类似的神经激活模式,这种模式很快适应和灵活,但很难找到适当的解释为什么会这样。前额叶皮层不依赖于缓慢的突触体重变化来学习规则结构,而是使用直接编码在多巴胺中的抽象模型信息,这为其多功能性提供了更令人满意的理由。

  在证明大脑中存在导致AI增强学习的关键成分时,我们提出的理论不仅适用于已知的多巴胺和前额皮质,而且还解释了来自神经科学和心理学的一系列神秘发现。特别是,该理论揭示了结构化,基于模型的学习如何在大脑中出现,为什么多巴胺本身包含基于模型的信息,以及前额叶皮质中的神经元如何调整到与学习相关的信号。利用人工智能的见解,可用于解释神经科学和心理学的发现,突出了每个领域可以提供另一个领域的价值。展望未来,我们期望通过在强化学习代理人的学习设计新模型中采用大脑回路的特定组织的指导,在相反的方向上获得很多好处。

   这项工作由Jane X. Wang,Zeb Kurth-Nelson,Dharshan Kumaran,Dhruva Tirumala,Hubert Soyer,Joel Z. Leibo,Demis Hassabis和Matthew Botvinick完成。


  在此下载Nature Neuroscience论文。

  在此处下载该论文的Open Access版本。

前额皮质作为一种元强化学习系统所属专题:学习系统 前额 《前额皮质作为一种元强化学习系统》链接:http://www.zhouchuanxiong.net/1085

前额皮质作为一种元强化学习系统相关文章

  • 机器学习可以提高风能的价值
  • TF-Replicator:研究人员的分布式机器学习
  • AlphaGo的胜利对AI和机器学习意味着什么
  • 案例研究:机器学习与自然语言处理 - Inbenta
  • 用人工神经元进行无监督学习
  • 借助TrueNorth,嵌入式系统可以进行深度学习推理
  • 使用分布式学习来提升Watson的Visual IQ
  • 学会回答非平凡的问题:通过深度学习推理知识库
  • IBM Research利用新的软件技术实现了创纪录的深度学习性能
  • 脑启动AI:神经科学如何帮助推进机器学习
  • 使用深度学习来预测海浪
  • 深度学习的开放标准,以简化神经网络的发展
  • 使用物联网和机器学习来跟踪肺病的进展
  • 机器学习过去常常超过MELD来评估肝脏疾病
  • IBM科学家证明使用GPU可以将大规模机器学习速度提高10倍
  • 分布式深度学习培训控制提供10倍的性能提升
  • ROMEO寻求通过机器学习和边缘物联网改善风电场
  • 从研究论文中自动生成深度学习模型的代码
  • 攻丝机学习促进更多地利用仿生学进行创新
  • 深度学习培训时间显着减少
  • IBM Research的深度学习进展
  • IBM利用POWER9和NVIDIA GPU设置万亿级机器学习基准记录; PowerAI即将推出
  • 一种用于大规模图的可扩展深度学习方法
  • 在强化学习中发现特征选择的新算法
  • 加速机器学习算法的培训
  • 使用深度学习生成餐厅评论
  • 使用OpenCV和深度学习在视频中跟踪对象
  • 开发一个使用机器学习的基于Web的移动健康应用程序
  • 在Kubernetes上部署和使用多框架深度学习平台
  • 创建一个Web应用程序以与机器学习生成的图像标题进行交互