AlphaFold:使用AI进行科学发现

时间:2019-03-10 14:05:42 阅读:52次

  今天,我们很高兴与大家分享DeepMind在展示人工智能研究如何推动和加速新科学发现方面的第一个重要里程碑。通过对我们工作采用强有力的跨学科方法,DeepMind汇集了来自结构生物学,物理学和机器学习领域的专家,以应用尖端技术,仅根据其基因序列预测蛋白质的3D结构。

  我们的系统AlphaFold,我们在过去两年一直在研究,建立在多年前的研究基础上,使用大量的基因组数据来预测蛋白质结构。 AlphaFold产生的蛋白质3D模型比之前的任何蛋白质都更加准确 - 在生物学的核心挑战之一上取得了重大进展。

什么是蛋白质折叠问题?

  蛋白质是维持生命所必需的大而复杂的分子。几乎我们身体所执行的所有功能 - 收缩肌肉,感知光线或将食物转化为能量 - 都可以追溯到一种或多种蛋白质以及它们如何移动和变化。这些蛋白质的配方 - 称为基因 - 在我们的DNA中编码。

  任何给定的蛋白质可以做什么取决于其独特的3D结构。例如,构成我们免疫系统的抗体蛋白质是“Y形”的,并且类似于独特的钩子。通过锁定病毒和细菌,抗体蛋白能够检测和标记引起疾病的微生物以进行消灭。类似地,胶原蛋白的形状像绳索,其在软骨,韧带,骨骼和皮肤之间传递张力。其他类型的蛋白质包括Cas9,它使用CRISPR序列作为指导,像剪刀一样切割和粘贴DNA片段;抗冻蛋白,其3D结构使它们能够结合冰晶并防止生物冻结;和核糖体一样,它们就像一条程序化的装配线,有助于自己构建蛋白质。

  但纯粹从其基因序列中找出蛋白质的三维形状是一项复杂的任务,科学家们已经发现了数十年的挑战。挑战在于DNA仅包含有关蛋白质构建块序列的信息,称为氨基酸残基,形成长链。预测这些链如何折叠成蛋白质的复杂3D结构就是所谓的“蛋白质折叠问题”。

  蛋白质越大,模型就越复杂和困难,因为氨基酸之间需要考虑更多的相互作用。正如Levinthal悖论所指出的那样,在达到正确的3D结构之前,需要比宇宙时代更长的时间来计算典型蛋白质的所有可能配置。

全屏 fullscreen_mobile

为什么蛋白质折叠很重要?

  预测蛋白质形状的能力对科学家很有用,因为它是了解其在蛋白质中的作用的基础身体,以及诊断和治疗被认为是由错误折叠的蛋白质引起的疾病,如阿尔茨海默氏症,帕金森氏症,亨廷顿氏症和囊性纤维化。

  我们对如何提高我们对身体及其运作方式的理解感到特别兴奋,使科学家能够更有效地设计新的,有效的疾病治疗方法。随着我们通过模拟和模型获得更多关于蛋白质形状及其运作方式的知识,它在药物发现中开辟了新的潜力,同时也降低了与实验相关的成本。这最终可以改善全世界数百万患者的生活质量。

  了解蛋白质折叠也有助于蛋白质设计,这可以带来巨大的好处。例如,生物可降解酶的进步 - 可以通过蛋白质设计实现 - 可以帮助管理塑料和石油等污染物,帮助我们以对环境更友好的方式分解废物。事实上,研究人员已经开始设计细菌来分泌蛋白质,使废物可以生物降解,更容易加工。

  为了促进研究和衡量提高预测准确性的最新方法的进展,1994年成立了一项名为“蛋白质结构预测技术关键评估的社区范围实验”(CASP)的双年度全球竞赛,并已成为评估技术的黄金标准。

人工智能如何发挥作用?

  在过去的五十年中,科学家们已经能够使用冷冻电子显微镜,核磁共振或X射线等实验技术确定实验室蛋白质的形状。晶体学,但每种方法都依赖于大量的试验和错误,这可能需要数年而且每个结构需要花费数万美元。这就是为什么生物学家转向使用人工授精方法来替代困难蛋白质这一漫长而费力的过程。

  幸运的是,由于基因测序成本的快速降低,基因组学领域的数据非常丰富。因此,在过去几年中,依赖于基因组数据的预测问题的深度学习方法变得越来越流行。 DeepMind关于这个问题的工作产生了AlphaFold,我们今年提交给了CASP。我们很自豪能成为CASP组织者称之为“计算方法预测蛋白质结构能力的前所未有的进步”的一部分,在进入的团队中排名第一(我们的参赛作品是A7D)。

  我们的团队专注于从头开始建模目标形状的难题,而不使用先前解析的蛋白质作为模板。我们在预测蛋白质结构的物理性质时达到了高度的准确性,然后使用两种不同的方法来构建完整蛋白质结构的预测。

使用神经网络预测物理性质

  这两种方法都依赖于深度神经网络,这些神经网络经过训练可以从其基因序列中预测蛋白质的特性。我们的网络预测的属性是:(a)氨基酸对之间的距离和(b)连接这些氨基酸的化学键之间的角度。第一个发展是对常用技术的进步,这些技术可以估计氨基酸对是否彼此接近。

  我们训练了一个神经网络来预测蛋白质中每对残基之间的距离的单独分布。然后将这些概率组合成评估所提出的蛋白质结构的准确度的分数。我们还训练了一个单独的神经网络,它使用所有距离汇总来估计拟议结构与正确答案的接近程度。

  

全屏 fullscreen_mobile 全屏 fullscreen_mobile
构建蛋白质结构预测的新方法

  使用这些评分函数s,我们能够搜索蛋白质景观,找到符合我们预测的结构。我们的第一种方法建立在结构生物学中常用的技术上,并且用新的蛋白质片段反复替换蛋白质结构的片段。我们训练了一个生成神经网络来发明新的片段,用于不断提高所提出的蛋白质结构的得分。

全屏 fullscreen_mobile

  第二种方法通过梯度下降优化得分 - 一种常用于机器学习的数学技术,用于进行小的,渐进式的改进 - 从而产生高度精确的结构。这种技术适用于整个蛋白质链,而不是必须在组装前单独折叠的碎片,降低了预测过程的复杂性。

接下来会发生什么?

  我们首次涉足蛋白质折叠的成功表明机器学习系统如何整合各种信息来源,以帮助科学家快速提出解决复杂问题的创造性解决方案。正如我们已经看到AI如何通过AlphaGo和AlphaZero等系统帮助人们掌握复杂游戏,我们同样希望有一天,AI突破将帮助我们掌握基本的科学问题。

  看到蛋白质折叠的这些早期进展迹象令人兴奋,展示了AI用于科学发现的实用性。尽管在我们能够对治疗疾病,管理环境等方面产生可量化的影响之前还有很多工作要做,但我们知道潜力是巨大的。我们的专业团队专注于深入研究机器学习如何推动科学世界的发展,我们期待看到我们的技术可以通过多种方式发挥作用。


  在我们发表关于这项工作的论文之前,请引用它:
通过基于深度学习的评分进行的从头结构预测
R.Evans,J.Jumper,J。 Kirkpatrick,L.Sifre,TFGGreen,C.Qin,A.Zidek,A.Nelson,A.Bridgland,H.Penedones,S.Petersen,K.Simonyan,S.Crossan,DTJones,D.Silver,K。 Kavukcuoglu,D.Hassabis,AWSenior
在蛋白质结构预测技术的第十三次关键评估(摘要)2018年12月1日至4日。检索自此处。


   这项工作是与Richard Evans,John Jumper,James Kirkpatrick,Laurent Sifre,Tim Green,Chongli Qin,Augustin Zidek,Sandy Nelson,Alex Bridgland,Hugo Penedones,Stig Petersen, Karen Simonyan,Steve Crossan,D 狂热的琼斯,David Silver,Koray Kavukcuoglu,Demis Hassabis和Andrew Senior

  

  

AlphaFold:使用AI进行科学发现所属专题:AI专题 《AlphaFold:使用AI进行科学发现》链接:http://www.zhouchuanxiong.net/1069

AlphaFold:使用AI进行科学发现相关文章