10分钟能做什么?充其量只能用来看几条新闻的时间,对于Watson而言却能诊断一名病人。Watson的认知计算能力已经为我们所熟悉,而它也在医学领域不断发力。日前,东京大学医学研究院利用Watson判断一位女性患有罕见的白血病,而这只用了10分钟的时间。患者为一名60岁的女性,最初根据诊断结果,显示她患了急髓白血病。
但在经历各种疗法后,效果并不明显。 根据东大医学院研究人员Arinobu Tojo的说法,他们利用Watson系统来对此病人进行诊断。系统通过比对2000万份癌症研究论文,在10分钟得出了诊断结果:患者得了一种罕见白血病。
该研究主要由美国的IBM研究所,纽约基因组中心及东大医学研究所联合完成。
10分钟诊断是如何实现的?
东京系统与软件开发研究所Watson Health Cloud的软件工程师林雪婷向雷锋网(搜索“雷锋网”公众号关注)表示,目前医疗方面的项目难点其实比较统一。
首先,你要有可以对照的数据,在这个项目里是和纽约基因中心进行合作。
其次数据使用时,第三方只能根据HIPPA协议使用个人数据的统计信息。
再者,可能就是怎么把数据导出来作为这个研究的样本了,这个也很麻烦,因为基因数据很大。
而做人工智能诊断智能图谱的康夫子CEO,前百度自然语言处理部资深研发工程师、文本知识挖掘方向负责人张超也列举了这一研究的主要难点。“数据抽取是个非常有门槛的技术”,主要体现在四个方面:
1. 相比较结构化或者半结构化抽取,无结构化抽取面临更多的挑战,比如:抽取模板学习更为复杂,抽取过程的语义转移,另外还有不少歧义、边界问题需要处理;
2. 无结构化抽取的面对的数据源更为繁杂,如:网页、论文、书籍、问答数据等等,不同数据源带来的数据清洗工作也不尽相同;
3. 在医学
应用
场景下,要求抽取工作的准确率、召回率都需要很高,这也是抽取任务的一大挑战;
4. 无结构化文本抽取的过程也伴随着大量的计算,对计算性能也有较高的要求。
而新闻中提到的“10分钟”,在林雪婷看来,“应该是不包括把数据导出来的时间的”。
张超也对这一点表示肯定。“这个10分钟,应该是用在匹配搜索上的。”
也就是说,这一过程首先要对结构化的知识进行构建,肯定是在离线状态下完成的。在这个案例中,将基因中心的相关数据导在一个数据池中,并进行内容管理,而Watson在10分钟内所做的,就是在已经做了筛选的数据中进行对比,找寻相似项。“所以文中说的2000万论文,应该是离线抽取后使用的;还有一种可能是,利用这2000万篇论文去调参原来的模型。”
Watson的医疗蓝图
2011年2月,Watson在智力节目《危险边缘》打败了人类对手,用自然语言实现深度问答,展示了其强大的学习能力。而Watson在医疗机构的合作,同样也帮助医学研究人员在认知计算应用上不断推进。
Watson Health成立于2015年4月,吹响了Watson进军医疗行业的号角。
去年7月,Watson和美国第二大连锁药店CVS进行合作,对用户行为和指标分析,并预测其健康状况。在第一阶段的合作中,CVS主要向Watson开放用户的行为信息、临床数据、购药数据及保险信息等。
8月份,IBM还收购了医学影像公司Merge,结合Watson的认知学习能力,能够将医学影像、诊断和用药方案三者贯通起来,而对医学影像的深度解读,就成为了Watson的核心力量。除外,IBM还与苹果、美敦力等公司建立了合作关系。
Watson在医学研究上的应用其实不只局限于诊断领域,在读病例、读论文、寻找治疗疾病的配药方面,都已经有了成果。此前IBM和美国癌症基因会(AACR)建立过合作,据推测这一举措可能是为了获得患者的统计数据,但Watson在治疗上的成功应该是首例。
张超对IBM Watson的信心相对比较充足,他认为只要有足够的数据,就可以在肿瘤领域大规模应用。
“在记忆维度,机器要比人厉害;只要灌输给机器足够多的知识,机器可以代替人们来搜索各种可能,最后辅助医生。”
而根据林雪婷向雷锋网的表述,Watson Health Cloud将把这个案例作为成功应用放在医疗云上,这也就意味着可能成为大范围的应用。
“但我估计真正落实到云端可以用的,也就是说医院可以直接应用于诊断领域的方法要两三年,在这之前都是研究成果而已。”
而林雪婷也指出,目前所有的项目,所引用的数据都源于美国,日本暂时还没有相关的第三方使用医疗数据的法规,“据说(日本)明年会重新提案立法。”虽然目前我们已经看到了IBM在医疗领域上的成功,但要真正走进我们的日常诊断中,不仅需要技术的不断优化,在法律上同样也需要迎头赶上啊。