元素周期表是化学领域最伟大的科学成就之一。人类科学家们经过了将近一个世纪的反复试验,才将元素周期表整合成目前的样子。而近日,
斯坦福大学的张首晟教授团队开发了一个新的人工智能程序,竟然在短短几个小时内就完成了同样的行动,在无监督条件下重现了元素周期表。
AI程序可以找出化学元素间的相关性,从而重现元素周期表(图片来源:123RF)
这个AI程序名为Atom2Vec,它可以从在线数据库中对化合物名称进行分析,从而对不同的原子进行区分。然后,该
AI系统在无监督条件下,使用自然语言处理的概念来根据元素的化学性质,对它们进行聚集整合。
在这里,研究人员
应用了自然语言处理领域的一个概念,即
通过语境中在某一单词周围出现频率较高的其他单词,来理解该单词的属性和意义。例如,“国王”这个词通常伴随着“王后”这个词一起出现,而“男人”和“女人”共同出现的频率也非常之高。然后,
AI程序会对已经输入的自然语言进行解析,将单词转化为数学代码或数学向量的形式。在上面的例子中,“国王”的数学向量就可以大概转化为“国王=王后-女人+男人”的形式。通过对这些向量进行分析,AI可以在给出其他单词出现频率的情况下,对该单词在文本中出现的频率进行估计。
而这一概念可以同样应用于原子上。与AI解析单词和句子不同的是,研究人员并没有向AI程序中输入所有的单词和句子,
而是向Atom2Vec输入了所有已知的化合物形式,如氯化钠(NaCl)、氯化钾(KCl)、水(H2O)等。从这些数据中AI程序发现,钾(K)和钠(Na)的性质是相似的,因为这两种元素都可以和氯(Cl)进行结合。这样一来,Atom2Vec就可以逐渐发现各个元素之间的关系,并逐步重现了我们熟知的元素周期表。
斯坦福大学的张首晟教授(图片来源:斯坦福大学官网)
目前,张教授及其团队已经在研究该AI程序的2.0版本,目的是解决医学研究中的一个棘手问题:
如何设计正确的抗体,来攻击对于癌细胞具有特异性的抗原,即那些能够诱导免疫应答的分子。目前,治愈癌症最有前途的方法之一是癌症免疫疗法,需要利用特定的抗体,来攻击癌细胞上的抗原。然而,人体内可以产生超过1000万抗体,每个抗体都由大约50个不同基因组合而成。
“
如果我们能够将这些基因及其组合方式映射到数学向量中,那么就可以形成一张由抗体组成的‘元素周期表’,”张首晟教授表示:“这样一来,如果你发现一种抗体对某种抗原有效,但是却因自身毒性无法作为免疫疗法的抗体进行使用,这时就可以利用抗体的‘元素周期表’寻找另外一种同样有效但毒性较低的抗体。”
参考资料:
[1] Stanford AI recreates chemistry’s periodic table of elements