科学家利用人工智能发现近 6000 种未知病毒。近日,在美国能源部(Department of Energy)举办的会议中,研究员展示了一种新的
机器学习工具,可探索地球上无数未知的病毒。
利用机器学习发现新病毒
虽然病毒影响着我们的日常生活,例如我们的健康,或垃圾的分解,不过由于科学家无法在实验室中培养大多数的病毒,而且病毒的基因体很小、进化快速,所以科学家一直以来都难以识别病毒的基因序列。
近年来,研究人员尝试从不同环境的样本进行 DNA 定序,希望能寻找出未知的病毒。为了识别存在的微生物,研究人员搜寻已知病毒和细菌的基因特征,就像文字处理软件的「寻找」功能,找出文件中的特定文字一样。不过因为病毒学家无法寻找未知的东西,所以这种方法往往失败。
不过,机器学习能解决这个问题,这种方法能在大量的讯息中找出有意义的规律。机器学习算法能分析数据,从中学习,然后自主分类信息。
南加州大学(University of Southern California)的计算生物学家任杰博士(Jie Ren)表示:「以往,人们没有研究病毒的好方法,但现在我们终于有一个工具可以寻找它们。」
训练丝状噬菌体科病毒家族
最新的研究中,美国能源部联合基因体研究所(Joint Genome Institute,简称 JGI)的计算生物学家鲁林博士(Simon Roux),训练计算机从一个不常见的丝状噬菌体科(Inoviridae)病毒家族,去识别病毒的基因序列。这些病毒生活在细菌中,并改变宿主的行为,例如,它们会让霍乱弧菌的毒性更强。在鲁林博士开始研究前,估计只发现了不到 100 个品种。
鲁林博士提出了一种机器学习算法,这种算法包含两个数据集。一个数据集含有 805 个丝状噬菌体科基因序列,另一个则含有大约 2000 个来自细菌和其他病毒的基因序列,让算法能发现区别的方法。
接着,鲁林博士把庞大的总体基因体数据集提供给模型。计算机找到了超过 10000 个丝状噬菌体科基因体,并将其聚集成不同物种的集群。鲁林博士表示,其中一些集群之间的遗传变异非常大,所以丝状噬菌体科可能是很多家族组成的。
发现提升堆肥处理效率的新病毒
在另一项研究中,巴西圣保罗大学(University of São Paulo)的生物信息学家戴维·阿姆加藤博士( Deyvid Amgarten),利用机器学习在城市动物园寻找堆肥中的病毒。他撰写算法来搜寻病毒基因体的一些显著特征,例如特定长度的 DNA 链上的基因密度。
阿姆加藤博士表示,经过训练后,计算机找到了几个似乎是新的基因体。最后一步是了解这些病毒产生的蛋白质,看看其中一些蛋白质能否加快有机物质的分解速度,并希望能提升堆肥处理的效率。
发现病患身上的新病毒
阿姆加藤博士从任杰团队开发的机器学习工具 VirFinder 得到线索。VirFinder 可寻找 DNA 链上的碱基配对,例如 AT 或 CG。任杰博士将这种算法
应用在健康者和肝硬化患者粪便的总体基因体样本上。计算机对样本中的病毒进行分类之后,研究团队注意到,与肝硬化患者相比,正常人的某些特定类型基因体更多或更少,这表示某些病毒可能导致这种疾病。
任杰博士的研究相当引人注目。长久以来,医学生物研究人员一直希望了解,病毒是否会导致一些难以发现病因的疾病,例如慢性疲劳症候群(又称肌痛性脑脊髓炎)和发炎性肠道疾病。杰克森实验室(Jackson Laboratory)免疫学家尤努马兹教授(Derya Unutmaz)推测,病毒可能会引发破坏性发炎反应,或者可能会改变人类微生物群系(microbiome)中细菌的行为,进而破坏新陈代谢和免疫系统。
尤努马兹教授表示,透过机器学习,研究人员可能会发现隐藏在病患身上的病毒。此外,由于机器学习可在庞大的数据集中找出规律,这种方法可以将病毒数据与细菌进行关联,并将病症数据与蛋白质变化进行关联。尤努马兹教授表示:「机器学习可以发现我们从未想到的知识。」