你可能以为人类关于自然科学的研究已经很深入了,你可能以为人类关注世界的认知已经很丰富了,但是实际上,却有数以万计,甚至是数以亿计的物种正在各国的自然历史博物馆中沉睡,它们还有待于人类的发掘,有待于人类的研究。他们中的绝大多数从未被认真的研究过。虽然他们中的许多都值得科学家细心观察,但事实是他们大多都静静地待在自己的小箱子里。
因此,将自然历史藏品数据化是全世界博物馆的一大目标。有了大量生物学家,策展人,志愿者和公民科学家的帮助,这样的一个项目已经生成了大量的数据组,并带来了前所未有的洞见。
目前,一篇由生物多样性数据期刊发表的研究论文显示,近期数字化和机器学习的发展已经可以帮助博物馆策展人了解并合理调动庞大的世界资源。
著名的史密森尼博物馆的一队研究者近期和英伟达(NVIDIA)合作,成功策划了一个先行项目,利用深度学习深挖了已经被数字化的植物标本。
这一研究,反映了近期利用深度学习来提高科研工作者对于数字化藏品理解的潮流。这个项目也首次展现了深度卷积神经网络如何以将近百分之百的正确率帮助科学家分别相似植物。
在记录此项目的论文中,科学家描述了两个不同的神经网络如何被他们训练,并成功完成对于美国国家植物标本馆中馆藏的数字化藏品的种种操作。
整个团队先训练一个神经网络自动辨认染上了水银晶体的植物标本(过去收藏家大多会使用水银来保护标本免受昆虫损害)。而另一个神经网络则是被训练来区别两种有着众多相似特征的植物。
受过训练的两个网络分别有着 90% 和 96% 的正确性(除去那些最有挑战性的例子则成功率可达 94% 和 99% ),这也表明了深度学习是一项对于未来进一步研究数字化馆藏标本非常有用的技术。
“研究成果可以被用来策划更有意义的展览,也可以帮助拓宽新的研究领域。”科学家总结道。
“这一份研究论文完美的证明了许多概念。我们现在知道了我们可以利用机器学习来数字化自然历史样本,然后解决策展和识别相关的问题。未来,我们将会继续使用这些工具,通过巨型共享数据组来验证植物动物进化和分布的基础假设。” Dr. Laurence J. Dorr,史密森尼博物馆植物系的主任,也是此项研究的主导人之一这么说道。