爱吧机器人网 » 技术 > 机器学习 > 正文

谷歌研究院在化学发力:应用机器学习技术预测分子性质

最近,机器学习在化学领域的应用有很大进展,特别是化学搜索问题,从药物筛选、电池设计到OLEDs设计,催化剂的发现。 历史上化学家使用薛定谔方程做数值近似来解决化学检索问题,如使用密度泛函理论(DFT),然而近似值的计算成本限制了搜索的规模。
 
为了能够扩大搜索能力,雷锋网了解到已有几个研究小组使用DFT生成的训练数据,创建ML模型来预测化学性质,例如Matthias Rupp等用机器学习模型来预测各种有机分子的原子化能,J?rg Behler 和 Michele Parrinello引入DFT势能面的一种新的神经网络表征。在这些工作的基础之上,谷歌研究院在QM9基准数据集(配有DFT计算的电子,热力学和振动性质的分子集合)上应用了各种机器学习方法。
 
谷歌研究院发布了两篇论文,介绍了他们在这一领域的研究,研究工作由Google Brain团队,Google Accelerated Science团队,DeepMind和巴塞尔大学合作完成。 第一篇论文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》调查了回归分子和分子表征的选择对快速机器学习模型的影响,模型用于构建有机分子的十三个基态电子性质,每个回归/表征/性质组合的性能通过学习曲线评估,该曲线描绘近似误差,以此作为训练集大小的函数。论文在QM9基准数据集上测试了多种机器学习方法,并集中改进最有希望的深层神经网络模型。
 
第二篇论文《Neural Message Passing for Quantum Chemistry》描述了一种称为消息传递神经网络(MPNN)的模型族,将其抽象地定义为包含很多对图形对称性具有不变性的神经网络模型。研究团队在MPNN模型族中开发了新变体,性能明显优于QM9基准测试的所有基准测试方法,另外某些目标的性能改进了近四倍。
 
从机器学习的角度来看,分子数据之所以有趣,原因之一是一个分子的自然表征以原子作为边界的结点和键。能够利用数据中固有对称性的模型更容易泛化,这很容易理解,卷积神经网络在图像识别上之所以成功,一部分原因是模型能够记住图像数据中的一些不变性知识,比如把一种图片中的狗挪到图片左边还是一张狗的照片)。 图形对称性这一固有特征是机器学习处理图像数据非常理想的性质,在这领域也有许多有趣的研究,例如Yujia Li等研究了结构化图片的特征学习技巧,David Duvenaud等应用图像神经网络学习分子指纹信息,Steven Kearnes等提出一种机器学习模型用于无向图的学习。尽管这一领域已有所进展,谷歌研究院希望找到化学(和其他)应用模型的最佳版本,并找出文献中提到的不同模型之间的联系。
 
谷歌研究院提出的MPNN模型提高了QM9数据集任务(预测所有13种化学性质)的最好性能,在这个特定的数据集上,他们的模型可以准确地预测13种性质中的11个,这样的预测性能已经足够准确,能对化学家未来的应用有帮助。另外,此模型比使用DFT模拟要快30万倍。但是在MPNN模型走向实际应用之前还有很多工作要做。实际上,MPNN模型必须应用于比QM9数据更多样化的分子集合(例如数目更大,变化更大的重原子集合)。当然,即使有了更真实的数据集,模型的泛化性能还是很差。克服以上两个挑战需要解决机器学习研究的核心问题,例如泛化。
 
预测分子性质是一个非常重要的问题,它既是先进的机器学习技术的应用场景,也为机器学习带来了非常有趣的基础研究课题。最后,分子性质的预测有助于造福人类的新药物和材料的设计。谷歌科学家们认为传播研究成果,帮助其他研究者学习机器学习应用都是及其重要的。

雷锋网(公众号:雷锋网)编译


上一篇:革命正在发生!机器学习将带领人类走向何方?
下一篇:麻省理工开发这个机器学习系统,能让机器人互相学习!
精选推荐
7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

比利时研发出可以自我愈合伤口的软体机器人
比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03]  软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用,而不会杀死他们,并拿起像西红柿这样柔软的物体。” 从长远来看,布鲁塞尔大学队伍正在努力创建一个类似的材......

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

谷歌宣布搜索算法重大升级,用BERT模型理解用户搜索意图
谷歌宣布搜索算法重大升级,用BERT模型理解用户搜索意图

[2019-10-26]  谷歌刚刚宣布,其搜索引擎的核心算法正在进行一项重大升级,这项升级可能会改变10%的搜索结果排序。此项升级应用了自然语言处理技术(BERT ...

科学家从蟑螂获得启发 教机器人更好地走路
科学家从蟑螂获得启发 教机器人更好地走路

[2017-12-11]  Weihmann指出:“我特别感到惊讶的是,动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定,因为它的重心很低,三条腿总是以协调的方式运动。...

[2017-03-21]  虽然有很多关于机器人取代工人的担心,但哈佛经济学家James Bessen的论文指出,在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

英国首台月球车是个小型四腿机器人 将于2021年登月
英国首台月球车是个小型四腿机器人 将于2021年登月

[2019-10-12]  探测器将用四条腿探测月球表面,并将数据传回着陆器,后者将把数据传回地球图 詹姆斯温斯皮尔英国即将成为继美国、俄罗斯、中国之后的又一 ...

助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出
助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出

[2017-12-25]  本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:1)长序列:平均每段视频序列长为200帧,包含丰......

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01]    人工智能(AI)研究现正迅速发展,如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......