在神经网络中实现持续学习
学习执行任务的计算机程序通常也会很快忘记它们。我们表明可以修改学习规则,以便程序在学习新任务时可以记住旧任务。这是迈向更智能的程序的重要一步,这些程序能够逐步和自适应地学习。
深度神经网络是目前最成功的机器学习技术,用于解决各种任务,包括语言翻译,图像分类和图像生成。但是,它们通常被设计为仅在数据一次全部呈现时才学习多个任务。当网络训练特定任务时,其参数适于解决任务。当引入新任务时,新的适应性会覆盖神经网络先前获得的知识。这种现象在认知科学中被称为“灾难性遗忘”,被认为是神经网络的基本局限之一。
相比之下,我们的大脑以一种非常不同的方式工作。我们能够逐步学习,逐一学习技能,并在学习新任务时运用我们以前的知识。作为我们最近的PNAS论文的起点,我们提出了一种方法来克服神经网络中的灾难性遗忘,我们从基于神经科学的理论中汲取灵感,关于巩固先前在哺乳动物和人类大脑中获得的技能和记忆。神经科学家已经区分了大脑中发生的两种巩固:系统整合和突触巩固。系统整合是一个过程,通过这个过程,我们大脑的快速学习部分所获得的记忆被印在慢学习部分。众所周知,这种印记是通过有意识和无意识的回忆来调节的 - 例如,这可能发生在梦中。在第二种机制中,突触合并,如果神经元之间的连接在先前学习的任务中很重要,则不太可能被覆盖。我们的算法专门从这种机制中汲取灵感,以解决灾难性遗忘问题。
神经网络由几个连接组成,与大脑的连接方式大致相同。在学习任务之后,我们计算每个连接对该任务的重要程度。当我们学习一项新任务时,每个连接都会受到保护,不会被修改与其对旧任务的重要性成比例的数量。因此,可以学习新任务而不会覆盖在先前任务中学到的内容并且不会产生显着的计算成本。在数学术语中,我们可以将新任务中附加到每个连接的保护视为通过弹簧链接到旧保护值,弹簧的刚度与连接的重要性成比例。出于这个原因,我们称之为算法弹性重量合并(EWC)。
全屏 fullscreen_mobile 使用EWC的两个任务学习过程的插图为了测试我们的算法,我们将代理顺序暴露给Atari游戏。仅从分数中学习单个游戏是一项具有挑战性的任务,但随着每个游戏需要个人策略,顺序学习多个游戏更具挑战性。如下图所示,没有EWC,代理会在停止播放后快速忘记每个游戏(蓝色)。这意味着平均而言,代理商几乎没有学到单个游戏。但是,如果我们使用EWC(棕色和红色),代理人不会轻易忘记,可以学会一个接一个地玩几个游戏。
全屏 fullscreen_mobile今天,计算机程序无法自适应地实时学习数据。然而,我们已经证明,灾难性遗忘对于神经网络来说并不是一个不可逾越的挑战。我们希望这项研究能够朝着能够以更加灵活和有效的方式学习的计划迈出一步。
我们的研究也促进了我们对人类大脑中巩固如何发生的理解。事实上,我们的工作基于的神经科学理论主要通过非常简单的例子得到证实。通过表明这些相同的理论可以应用于更现实和复杂的机器学习环境,我们希望进一步强调突触整合是保留记忆和技术诀窍的关键。
全屏 fullscreen_mobile要了解更多信息,请在此处阅读我们的论文。