计算机系统预测化学反应的产物

时间:2019-03-04 16:13:35 阅读:3次
当有机化学家确定一种有用的化合物 - 例如一种新药 - 由化学工程师决定如何大规模生产它。
可能有100种不同的反应序列产生相同的最终产物。但是其中一些使用比其他试剂更便宜的试剂和更低的温度,也许最重要的是,一些更容易连续运行,技术人员偶尔会在不同的反应室中补充试剂。
从历史上看,确定生产特定分子的最有效和最具成本效益的方法与科学一样多。但麻省理工学院的研究人员正试图将这一过程置于一个更安全的经验基础之上,计算机系统已经培训了数千个实验反应的例子,并且学会预测反应的主要产品是什么。
研究人员的工作出现在美国化学学会的“中央科学”杂志上。像所有机器学习系统一样,他们在概率方面呈现其结果。在测试中,该系统能够在72%的时间内预测反应的主要产品; 87%的时间,它在三个最有可能的结果中排名第一。
“对于今天的反应,人们已经有了很多了解,”麻省理工学院化学工程系Warren K. Lewis教授和该论文的四位资深作者之一克拉夫斯·詹森说,“但这是一种高度进化,获得的观察分子的技巧并决定如何从原材料中合成它。“
Jensen说,通过这项新工作,“愿景就是你能够走到一个系统并说'我想制造这个分子'。软件将告诉你应该从哪个路线出来,并且机器就会成功。“
由于有72%的机会确定反应的主要产品,该系统还没有准备好锚定Jensen设想的完全自动化学合成的类型。但它可以帮助化学工程师更快地收敛到最佳反应序列 - 并可能建议他们可能没有研究过的序列。
第一作者,化学工程研究生Connor Coley加入了Jensen的论文。 William Green,Hoyt C. Hottel化学工程教授,与Jensen共同为Coley提供建议; Regina Barzilay,Delta电子工程与计算机科学教授;和Tommi Jaakkola,Thomas Siebel电气工程和计算机科学教授。
在当地行动
单个有机分子可由数十个甚至数百个原子组成。但是两个这样的分子之间的反应可能只涉及两个或三个原子,这破坏了它们现有的化学键并形成新的化学键。数百种不同试剂之间的数千次反应通常会归结为同一对“反应位点”之间的单一共享反应。
然而,大的有机分子可能具有多个反应位点,当它遇到另一个大的有机分子时,它们之间实际上只会发生几种可能的反应中的一种。这使得自动反应预测如此棘手。
在过去,化学家已经建立了计算机模型,用于表征反应位点相互作用的反应。但是他们经常要求列举例外,这些例外必须独立研究并手工编码。例如,该模型可能会声明如果分子A具有反应位点X,并且分子B具有反应位点Y,则X和Y将反应形成基团Z - 除非分子A也具有反应位点P,Q,R,S ,T,U或V.
单个模型需要十几个枚举异常并不罕见。在科学文献中发现这些例外并将其添加到模型中是一项艰巨的任务,这限制了模型的实用性。
麻省理工学院研究人员新系统的主要目标之一是规避这一艰巨的过程。 Coley和他的合着者开始在美国专利申请中报告了15,000个经验观察到的反应。然而,因为机器学习系统必须知道不会发生什么反应,以及那些会成功反应的例子还不够。
反面的例子
因此,对于所列反应中的每一对分子,Coley还根据分子的反应位点产生了一系列其他可能的产物。然后,他将反应的描述连同人工扩展的可能产品列表一起提供给称为神经网络人工智能系统,该系统的任务是按可能性顺序对可能的产品进行排序。
从这次培训中,网络基本上学会了一种反应层次 - 在没有费力的人类注释的情况下,哪些反应站点的反应往往优先于哪些反应站点。
分子的其他特征可以影响其反应性。例如,给定反应位点处的原子可具有不同的电荷分布,这取决于它们周围的其他原子。并且分子的物理形状可以使反应位点难以进入。因此麻省理工学院研究人员的模型还包括这两个特征的数值测量。
根据制药公司诺华的化学技术研究员理查德罗宾逊的说法,麻省理工学院研究人员的系统“在靶向合??成领域提供了一种不同的机器学习方法,未来可以将实验设计的实践转化为靶向分子“。
“目前我们非常依赖自己的反合成训练,这种训练与我们自己的个人经历相一致,并增加了反应数据库搜索引擎,”罗宾逊说。 “这对我们很有帮助,但往往仍会导致严重的失败率。即使是经验丰富的化学家也经常感到惊讶如果您将所有累积综合故障加起来作为一个行业,这可能与大量的时间和成本投资有关。如果我们能提高成功率怎么办?“
罗宾逊说,麻省理工学院的研究人员“巧妙地证明了一种新方法,可以获得比传统方法更高的预测反应性能。通过使用负面反应示例扩充报告的文献,数据集具有更多价值。“
计算机系统预测化学反应的产物所属专题:化学反应专题 产物专题 《计算机系统预测化学反应的产物》链接:http://www.zhouchuanxiong.net/383