当完全完成足足三十亿字母长度的人类染色体组测序后,我们也就势不可挡地进入了生物研究中的「组学」纪元。科学家现在正争相测定所有染色组(包含全部的基因组),不同器官的的蛋白质组,并正在处理着这些过程中的海量数据。
举个例子,科学家可以利用「组学」中的工具,比如DNA序列,剔出被流感病毒所影响的人类基因。但是因为人类的染色体总数至少有25000个基因组,即使在在上述最简单的情况下,改变的基因组也可以千位来计数。
尽管测序与识别基因和蛋白质可以给它们名字和相应的位置,但无法告诉我们它们到底有何用处。我们需要去了解这些基因、蛋白质,以及不同生物作用过程中的一切。
今天,即使最基本的实验也会产生大量的数据,最大的挑战来自于将相关的结果从混杂的实验背景中分离开来。计算机正在帮助我们克服数据过大的问题,它们甚至可以做到更多,帮我们做出科学假设,解释新的生物作用。数据科学从基本上支撑起了前沿的生物研究。
计算机的作用
计算机之所以能够成为大数据最完美的处理者,是因为它们可以自动跟踪所有重要分析必要的前提。
虽然人为编程使得它们有着人类的一些缺点,但是计算机能够有效处理大量数据,并且不会像人类研究员一样容易趋向于熟悉区域。
计算机还可以经过指导后自动寻找实验数据里的特殊模式——即机器学习,在1950年代首先提出,并由数学家阿兰·图灵而闻名。它是一种指导计算机从数据库中熟悉模式,并在遇到新的数据式可作出预测的算法。
自从我们可以利用大数据并让计算机帮助理解未知生物学,机器学习就已经在生物研究中引起了变革。
通过模拟大脑作用训练计算机去「思考」
我们曾经在实验室里用过一种有趣的机器学习类型,叫做人工神经网络(ANN)。大脑由复杂的神经网络组成,通过在神经网络中传导电脉冲进行交流。相似的,计算机神经网络可以回应其他的神经信号打开并关闭,进行模拟。
通过采用模拟真实神经的算法,我们可以让网络学习解决多种问题。比如谷歌就利用了一个强力的ANN进行著名的Deep Dream 项目,计算机可以分类甚至创造图像。
而我们的目标在于免疫系统,希望能够找出癌症的新疗法。我们利用ANN计算模型来研究人类的免疫细胞用以决定是否阻击人体内外来物的短表面蛋白质组代码。如果我们知道了更多免疫细胞(例如T细胞)与正常/自细胞和异常/异细胞的区别,我们就可以设计出更有效的疫苗与疗法。
我们在公开的资料中搜罗了前人们识别的上千个蛋白质代码的分类,并将这个巨大的数据库分为两组:健康细胞的正常自蛋白代码,以及病毒、癌症和病菌的异常蛋白质代码。接着,我们便交给了实验室研发的神经网络。
一旦我们给ANN足够的蛋白质代码数据,算法就可以识别正常与异常蛋白质代码的基本区别。对于人类来说,跟踪这些生物现象过于艰难,因为起码有上千个蛋白质代码需要去分析,一个机器才能够应付这些问题,并确定新的生物学。
机器学习所做出的预测
机器学习在生物学中最重要的应用便是它可以基于大数据作出预测。计算机的预测可以让这些大量的数据有所作用,检测假设并节省了珍贵的时间与资源。
例如,在T细胞的领域,知道哪些病毒的蛋白质代码为目标,对于研发疫苗与疗法是非常关键的。但是每一个病毒有着太多不同的蛋白质代码,要去针对每一个都做实验是非常艰巨且昂贵的。
反之,我们训练人工神经网络来帮助机器学习正常与异常的蛋白质代码的重要生物化学特征。接着我们可以让模型来预测哪些病毒蛋白质代码与「异常」分类中的代码相似,可以被T细胞与免疫系统所识别。我们对不同的未曾研究过的病毒蛋白质进行了ANN模型的测试。
当然,就像一个迫切地想要取悦老师的勤奋学生,神经网络能够精确地在病毒中识别能够引起T细胞活跃的蛋白质。我们还实验性地测试了计算机所标识的蛋白质代码以验证其预测的精确度。利用这种神经网络模型,科学家可以此迅速地预测有害病毒中所有重要的短蛋白质代码,进行测试以研发疗效与疫苗,而不是仅仅猜测,并一个一个进行试验。
完善机器学习
由于不断地进步,大数据科学与机器学习正在逐渐成为所有科学研究无可取代的一部分。在生物学中利用计算机进行训练与预测已经成为了可能。从找出那些生物标记物的组合可以更好地检测疾病,到知晓为何某些特殊的癌症治疗方法只适合于某些病人,利用计算机挖掘大数据已经成为了研究中最有效的手段。
不过,它也有局限性。大数据科学的最大问题就是数据本身。如果组学研究所获得的数据开始就是错误的,或者基于不可靠的科学,利用这些数据所进行的计算机训练也就是错误的,并导致错误的预测。正所谓上梁不正下梁歪。
因为计算机(现在)还无法感知,即使在还不存在的情况下,它们也必须需要一个模型来进行思考,并因此又给了劣质数据与不可重复科学以可趁之机。
一些研究员也在担忧着计算机变成数据的黑匣子,科学家无法理解计算机代表人类所进行的的操作与机制。
尽管有着许多问题,大数据依然有着许多好处,并能够维持着它们研究好伙伴的角色。因此只要意识到这些危险,我们就可以理解生物学能够通过机器眼睛所看到的未来。