爱吧机器人网 » 专题 > 观点 > 正文

中科院专家张钹:过了2018,人工智能要飞了!

当前,人工智能是全球关注的焦点,我国政府也非常重视人工智能的发展。人工智能采用的是知识驱动和数据驱动两种方法,特别是大数据推动了人工智能的快速发展。未来人工智能要进一步产业化,一方面要选择合适的应用场景,另一方面还需加强基础研究带来技术突破。

本文摘选自交通运输部《智慧城市导刊》,作者张钹,中国科学院院院士、清华大学人工智能研究院院长。张钹院士是著名的计算机科学与技术专家,CCF终身成就奖获得者,并任俄罗斯自然科学院外籍院士,被业界视为我国人工智能泰斗。

当前,人工智能是全球关注的焦点。我国政府也非常重视人工智能的发展。10月31日中共中央政治局就人工智能发展现状和趋势举行第九次集体学习。习近平总书记在主持学习时强调,人工智能是新一轮科技革命和产业变革的重要驱动力量。

加快发展新一代人工智能,是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。要深刻认识加快发展新一代人工智能的重大意义,加强领导,做好规划,明确任务,夯实基础,促进其同经济社会发展深度融合,推动我国新一代人工智能健康发展。


大数据推动了人工智能的发展

大家都知道,从本世纪开始,人工智能又重新掀起高潮,这中间很重要的原因就是大数据带动了人工智能的发展。

其中,有5个标志性事件,充分反映了大数据对人工智能的影响,即:1997年5月,IBM“深蓝”打败国际象棋世界冠军卡斯帕诺夫;2011年2月, IBM “沃森”在“危险边缘”智力竞赛中打败全美前冠军Ken Jennings 和Brad Rutter;2015年12月17日,在ImageNet 图像库上,微软图像识别系统的误识率低于人类。人类是5.1%, 而机器只有4.94%;2015年12月20日,百度宣布Deep Speech中文语音单句的误识率低于人类。人类是4.0%, 机器是3.7% ;2016年3月,AlphaGo打败世界围棋冠军李世石。

人工智能采用的第一种办法是知识驱动方法。

在人工智能发展的早期,这方面的工作做得并不好。为什么到了20世纪以后,能够做得更好呢?其中一个重要的原因就是互联网的发展。我们可以从互联网上获得大量的大众知识,“沃森”之所以战胜人类,原因就在于此。“沃森”以压倒性优势取胜,主要是基于它获得的大量知识,共2亿页知识,4TB 级存储,包括词典、百科全书、主题词表、新闻专线文章、文学作品,以及全部WIKI百科的内容,它可以整合不同数据源的信息。这说明,在限定的环境和范围下,在人机对话上,机器可以战胜人类。

第二种办法是数据驱动方法。

就是现在常常说的深度学习或者人工神经网络,一般用来处理图像和语音。因为图像和语音很难用语言表达,所以我们用的办法,就是用样本对机器进行训练。比如图像识别,在给定的图像和给定的状况下,机器的识别率可以超过人类;语音也是同样的办法,如果我们给出足够的语音库,在所给的语音库下,机器可以在单句的识别率方面超过人类。也就是说,用这种机器学习的方法,如果我们掌握了充分的样本,机器就可以做得像人一样好,甚至可以超过人类。

用一个例子说明数据的重要性:在2015年之前,人类做出的围棋程序最高只能达到业余五段,但是国际象棋程序在1997年就打败了人类世界冠军。围棋为什么晚于国际象棋?一个重要的原因就在于,下国际象棋是人类理性分析的行为,下的每一步,国际象棋大师都可以说出它的道理,过去做国际象棋程序的时候,是用理性分析的模型来做的。但当我们想用理性分析的模型做围棋程序时,都没有成功。由此可见,下围棋是模式识别的过程,讲不出道理来,讲究的是棋感,是直觉。理解了这一点后,这个问题就迎刃而解了。

开始做AlphaGo的时候,机器还会学习人类历史上下过的围棋,一共约有3000万个棋局,这样的数据量对于计算机来讲也太容易了。它把这3000万个棋局学习完,同时AlphaGo自己又和自己下过3000万个棋局,这样加起来是6000万个棋局,而围棋大师李世石和柯洁一生中最多不过几百万个棋局,于是它就被人工智能完全打败了。

后来到AlphaZero的时候,它已经根本不用学习人类下过的棋局了,就自己跟自己下下几亿个棋局。所以,人类完全不是人工智能的对手。这个问题非常简单,就是由机器自身来产生数据。业界普遍认为,在2015-2030年的15年间,人工智能将主要应用于以下10大领域:交通、家庭/服务机器人、健康、教育、低资源群体、安全、雇员与工作场所、娱乐,以及金融和智能制造。前8个领域是国外提出的应用,金融和智能制造是中国提出的应用。


未来人工智能的产业化应用

关于人工智能的应用,我举一个我任首席科学家的深醒科技公司的例子。

深醒科技开发了一种人脸识别技术,它的应用场景首先定位在抓捕逃犯。据公安部统计,目前全国的逃犯约有25万人,按照过去的方法很难抓到。深醒科技首先在贵阳市的机场、火车站和长途汽车站装了13路摄像头,在2016年12月-2017年5月上旬的半年时间里,抓获各类犯罪人员150人,其中全国逃犯21人。而在没装“摄像头”之前,2016年全年贵阳市公安局只抓到1个全国逃犯。

又比如,当前对视频信息的机器识别需求非常大。

现在我们获得的视频信息非常多,以北京市为例,全市各个路段共装了近90万个摄像头,上海市装的更多,约120万个。由此得到的视频信息量太大,通常存储一个月后就必须删掉,否则新的信息就没办法存进来了。如此大量的视频信息靠人来看是不可能完成的。

还有,医学影像识别。

诚如我们所知,各种癌症的早期诊断非常重要,大家都投入很大的力量做这件事情,如果能够早期发现癌症,就可以挽救大量的人的生命,中国对此也非常重视,在这方面全世界最有名的是数据科学杯比赛,2017年就是由我的3个博士生获得了冠军。此外,有了网络以后,在远程登录或移动登录的时候,身份验证变成了非常重要的问题,涉及安全。现在我们做的身份验证,早期用密码,后来用人脸、指纹识别等,但可惜的是,这些身份鉴别方法,如果你是在远程登录或移动登录的时候都可以做假。

幸运的是,现在语音还没有办法做假。

清华大学经过三十多年的努力,解决了用语音在远程登录或移动登录过程中防止造假的问题,这主要是要区分录音和真人说话,即使是双胞胎说话都能区别出来,目前,很多银行都在使用这一技术。

当然,人工智能技术也存在局限性。

现在人工智能所能解决的问题需要5个条件限制:拥有丰富的数据或(和)知识、完全信息、确定性、静态(按确定的规则演化)、有限领域与单任务。只有满足这5个条件,人工智能才能做的很好,甚至超过人类;不满足这5个条件中的任何一条,人工智能发展就会很困难。如果是不完全信息,人工智能是无法超过人类的,这是数据和数量与质量的问题。

大数据非常强调数量,但不是有了巨大的数量就可以做好人工智能,还必须要保证数据的质量。往往有用的信息只有一点,而大量的信息是无用的,并且很多信息还具有欺骗性。

这些无用或欺骗性信息对计算机的性能有很大的影响。如果用好的、质量高的图片训练人工智能,识别率可以达到80%,但是用质量差的信息训练,识别率只能达到百分之十以上。

目前,用大数据建立的系统还有很多问题。

其中,网络数据质量不高,就是利用大数据面临的重要挑战。网络上有用的数据通常只占40%,大部分是垃圾、没用的、造谣的数据,而网络数据有标注的仅有7%,经过分析的仅有1%,也就是说,有用、好用的数据不到
10%。所以在使用网络数据时,数据质量是必须要注意的问题。基于网络数据这样质量不高的大数据所训练出来的系统,性能难以避免地存在很多毛病,不可能训练出一个具有智能化的系统。

另外,在人工智能做医疗诊断方面,目前都遇到这样一个问题:人工智能对癌症的识别率甚至可以超过人,但医生却不敢用。为什么?因为不可解释。人工智能诊断有癌症,但医生解释不出来原因,这是现在使用大数据做出的人工智能系统存在的一个最大的问题。系统尽管做得非常好,但是医生不敢用,所以必须要解决这个真实性的问题。

除了真实性的问题,还有鲁棒性的问题。

比如,一个炮兵阵地的图片,当我们只是加入一点点噪声,在人类看来,图片没有太大的变化,但是,计算机识别,它就变成了一个海滩,这就是鲁棒性,这一点正说明了人工智能带来的危险性。现在的人工智能系统,特别是用大数据建立的人工智能系统,非常容易被攻击,这就是美国人提出的所谓“算法战争”,以后打仗不一定用真刀真枪,就是用算法把系统搞垮。所以,网络攻防、智能化的攻防变成非常大的课题,全世界都在研究。

自动驾驶也是如此。

我们过去花很长的时间在这个领域,对图像进行实时分割和识别。经过多年努力,很多公司做到了这一点,现在基本上通过大数据学习,能够建立实时的建模,明确哪个地方是车辆、哪个地方是道路、哪个地方是行人。研究人员曾经认为,这个问题解决了,自动驾驶就解决了。但实际上并非如此,这样的自动驾驶只能在特殊的情况下使用,比如在专用道上。问题出在哪里?一个系统一旦有人类参与,就变得非常复杂,对机器而言就不好解决。

就目前而言,人工智能要进行产业化。

一方面要选择合适的应用场景:一是拥有丰富的数据或(和)知识,二是完全信息,三是确定性,四是静态(按确定的规则演化),五是限领域与单任务。另一方面还需加强基础研究,带来技术突破。


上一篇:机器翻译会取代人类独立工作吗?
下一篇:金山葛珂:明年是AI落地元年 自然语言处理将体现价值
精选推荐
受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来使消费者受益
改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来

[2018-12-08]  市场研究公司IHS Markit预测,到2020年,专业无人机市场将通过农业,能源和建筑等行业利用测量,制图,规划等技术实现77 1%的复合年增长率(CAGR)。与此同时,消费者无人......

深度神经网络揭示了大脑喜欢看什么
深度神经网络揭示了大脑喜欢看什么

[2019-11-06]  爱吧机器人网编者按:近日,《自然-神经科学》发表了一篇论文,研究人员创建了一种深度人工神经网络,能够准确预测生物大脑对视觉刺激所产 ...

比利时研发出可以自我愈合伤口的软体机器人
比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03]  软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用,而不会杀死他们,并拿起像西红柿这样柔软的物体。” 从长远来看,布鲁塞尔大学队伍正在努力创建一个类似的材......

机器人从工业走向家庭  库卡KUKA目标是引领中国市场
机器人从工业走向家庭 库卡KUKA目标是引领中国市场

[2017-12-08]  机器人正在改变着人们的生活方式,而库卡KUKA想要在中国这个大蛋糕中占有一块大份额,库卡公司正在引领市场...

搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站
搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站

[2019-12-09]  12月5日,搭载人工智能的太空机器人西蒙2号(CIMON 2)乘坐SpaceX火箭Dragon货运舱,从佛罗里达州卡纳维拉尔角空军基地升空,前往国际空间 ...

[2017-03-21]  虽然有很多关于机器人取代工人的担心,但哈佛经济学家James Bessen的论文指出,在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

麻省理工正研究植物机器人 让植物自主控制机器人
麻省理工正研究植物机器人 让植物自主控制机器人

[2018-12-08]  控制论通常指人类用机器人部件增强自己。我们听说过动物机器人或昆虫机器人,但我们很少听说植物机器人对吧?一个机器人其实是对植物有很大益处的,因为一般植物根本无法移动......

本周栏目热点

2020年中国AI基础数据服务行业发展报告

[2020-04-03]  核心摘要:目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地,解决行业具体痛点, 需要大量经过标注处理的相关 ...

[1970-01-01]    从首尔清潭洞SM娱乐公司大楼代表办公室的落地窗可以清晰地眺望对面的汉江。李秀满会长介绍拥有代表办公室和录音室的建筑物是工作室中心 ...

[1970-01-01]    虽然我国经济增速下降,通缩若隐若现,但由于我国劳动力人口在2012年已经达到顶峰,之后总量呈逐年下降之势,所以即使近几年产业工人工 ...

腾讯思享会:探讨智能社会与人类未来

[1970-01-01]    人类在享受开车的过程时,在不久的将来可能让机器开车,人类如不是理性的控制机器人,又将一场持久的大战。  以智能社会与人类未来为 ...

[1970-01-01]    机器人发展到今天到了重新定义的时候,机器人拥有人类的感知和思维、应用到更多领域,成为现代机器人产业发展的新方向,由此看出中国机 ...