脑启动AI:神经科学如何帮助推进机器学习
虽然建造人造系统并不一定需要复制自然 - 毕竟,飞机飞行而不像鸟一样挥动翅膀 - 人工智能和机器学习的历史令人信服地证明,从神经科学和心理学中吸取灵感可以带来重大突破,神经网络和强化学习可能是两个最突出的例子。
从大脑中汲取灵感,我们的IBM研究团队最近使用机器学习技术开发注意力和记忆力的计算模型。我们的最终目标是构建终身学习人工智能系统,能够适应新环境,同时保留他们迄今所学到的知识。这一挑战可以分解为短期适应,在这种情况下,几乎没有时间改变系统并对其进行培训以及需要关注的内容,以及受人类大脑如何形成记忆以及神经可塑性如何影响的长期适应(例如,成人神经发生)影响这个过程。
我们的团队开发了两项重要创新,可实现短期和长期适应,这是由奖励驱动的注意力技术和网络“可塑性”的结果。这些将在我们将在IJCAI上发表的两篇论文中讨论。本周。
快速适应奖励驱动的关注
注意力是能够从大量的感官信号(视觉,听觉等)中快速选择和处理最重要的信息。由于我们的视网膜提供了非常有限的视野视野,我们不断地决定关注哪些“瞥见”并快速做出决定。在现实生活中,我们每天都会遇到的问题是,选择一小部分重要特征来关注潜在无穷无尽的可能性。例如,面对突然看到灌木丛中的狮子,羚羊必须对其看到的内容和要采取的行动做出瞬间决定;在另一个例子中,医生可能只能在决定药物或测试给患者开处方之前询问有限数量的问题。
在我们的论文“Context-Attentive Bandit:Contextual Bandit with Restricted Context”中,我们开发了一种针对上述情况的算法。我们的算法学习基于在任务期间获得的奖励(即来自其环境的反馈)来快速将其注意力集中在正确的输入上。奖励越高,它对某一输入的关注就越多。在狮子和羚羊的情况下,羚羊会了解其环境的哪一部分,并且当检测到灌木丛中的异常运动时,奖励就是当它采取行动逃离潜在捕食者的路径时的生存。在上面的医生的例子中,规定的可能的测试和治疗的数量非常大,并且医生需要决定最有效的测试和治疗。就像人工智能系统一样,通过培训和经验,医生学会选择最有效的测试和治疗组合,以便最大化预期的奖励(即患者变得更好)。
我们的算法的新颖之处在于能够以在线方式了解要关注哪些输入,即数据集不是固定的,而是不断变化的,同时接收基于部分输入做出决策的奖励。在线意味着系统可以在其执行时学习,因此对变化具有鲁棒性。
到目前为止,我们已经使用公开的数据集在几个在线分类任务上测试了我们的算法,接下来的步骤涉及将我们的方法应用于更广泛的现实数据集和更复杂环境的问题。
用于评估IBM团队在线词典学习算法的图像数据集,通过提高重建准确度和学习更紧凑的表示来优于标准的在线词典学习方法
为长期适应建立记忆:神经发生学习
我们正在开发的另一项技术是基于神经可塑性,我们的第二篇论文“神经发生 - 灵感词典学习:变化世界中的在线模型适应”中提到了这种方法。这种方法可以让我们实现长期学习,并受到成人神经发生过程发生在海马体中,海马体是负责形成记忆的人脑部分。
虽然突触可塑性,即学习过程中神经元连接强度的变化,是神经网络训练的标准方法,但其他类型的可塑性,如神经发生,可以激发新颖的学习方法,其中网络的架构不断适应在终身学习期间应对不断变化的环境。在我们的论文中,我们提出了这样一种算法,它扩展和压缩网络的隐藏层,模仿神经元的诞生和死亡。我们证明我们的算法不仅适应新的环境(例如,新的域),而且还保留了以前域的记忆,从而向终身学习AI系统迈出了一步。
在图像识别和自然语言处理等应用中,我们观察到我们的自适应方法,就像人类大脑一样,扩展和折叠其隐藏层,显着优于非自适应基线。
自然和神经科学继续激励我们的研究和我们寻求建立适应性终身学习系统,以增强和扩展人类大脑已经是专家。
保存
保存
保存