感谢“两界”高峰论坛的邀请,让我有机会跟大家交流最近我的一些想法。我们先来看一段话,这是从英文翻译过来的,大意是:“我不想吓唬各位,但是简单地总结一下:这世界上已经有了能思考、学习和创造的机器。而且它们做这些事的能力正在飞速地增长,在可见的未来,它们解决问题的能力会与人类旗鼓相当。”
这是谁说的呢?他是一位诺贝尔奖获得者,也是一位图灵奖获得者,他的名字叫赫伯特·西蒙。他是人工智能技术之父,是一个很著名的跨领域的天才。这段话是他在1957年说的,那时候人工智能刚刚发端,人工智能给人带来了很多乐观的情绪。然而60多年过去了,我们看到赫伯特·西蒙当时很多的预计和设想并没有成为现实。
近年来,深度学习的进展又让我们看到了在不远的未来又能实现这些事情了,这样乐观的情绪在人工智能领域发展史中出现过很多次。我们乐观,我们被现实打败;我们继续乐观,我们又被现实打败。但是,这一次热潮不仅局限在计算机界,工业界、政府、学术界、教育界都在非常热烈地讨论人工智能的未来。历史会重演吗?这个我不敢说,也许是既会又不会。我们都希望这次人工智能技术进步是一次不同于往常的进步。
一、对于人工智能的认知
现在,工业界人工智能的领军人物是吴恩达,他把人工智能称作“新电力”。所谓新电力,是说它能像电力一样驱动很多已有行业或产业发生巨大变革和升级。大众对什么是“电”、它能做什么、有什么危险了解很多,但对于人工智能技术及其风险可能了解得很少。我们看到的人工智能产品是扫地机器人、自动驾驶车、对话助手等。人工智能本身究竟指的是什么?不同受众,不仅是大众,而且各个行业包括工业界、投资界、政府、哲学家、自然科学家和社会科学家,可能对人工智能技术及其发展的阶段都会有非常不一样的认知。事实上,如果我们能够推动大众对于人工智能技术及其风险的认知,很多事情做起来可能会更容易一些。
什么是人工智能?大众对于人工智能可能听到最多的是
机器学习或者更具体的深度学习。事实上,我们去看权威的人工智能教科书,比如2011年出版的《人工智能:一种现代方法(第3版)》,一共有1095页,其中介绍深度神经网络核心算法只有10页。人工智能是一个非常大的领域,包含了各种各样的技术和问题的不同的搜索求解、知识表示与推理、自动规划、机器学习、感知觉与运动、自然语言处理等,但大众看到最多的可能是在人工智能领域机器学习中基于神经网的所谓深度学习的一小块的工作。
二、人工智能发展的现状
由于大量数据的获取、硬件上的升级、算法也有很多的想法,机器学习的效果确实有了极大的进步。同时,大量的资金和大量的聪明人涌入,当然会做出更多更好的东西来。事实上,很多学术界的成果,到目前为止还没有完全转化到工业界。工业界的
应用主要还是以传统的、基于神经网所谓的监督学习为主。当然,搜索算法、贝叶斯网、知识图谱、逻辑推理等也在发挥作用,但是还没有出现通用
人工智能的真正理论突破,因为欠缺可解释性、可迁移性与小样本的学习能力,未来可能属于符号主义与联结主义的融合互补。
三、人工智能发展的远虑与近忧
在人工智能发展中,远虑是指技术如果达到强人工智能或者类似于那种程度,会有很多威胁人类生存的问题。中期的忧虑是指由于自主决策的人工智能系统分担责任,人类可能面临失业问题。事实上,根据吴院士的说法,更多的是产业重组和旧工作的淘汰、新工作的出现。对于大众来说,更关心的是人工智能带来的近忧,也就是与切身利益相关的安全问题,用英文表达是safety和security。safety指是否能够安全地实现系统的目的,security更多地是指在外来恶意入侵或者破坏的情况下如何保证系统的安全性。我们要引导和提高全社会的安全意识,这是人文学者、技术专家、立法者共同面对的急切问题。
主要的机器学习的算法需要大量的人工数据,这些数据的采集和使用、保护是和我们每个人的生活息息相关的。最近大家都听说过剑桥分析公司在facebook上非法收集数据做了一些不好的事情,这是一件非常糟糕的事情。
在中国呢?有人说“中国人不介意用隐私交换方便”。当然,你得看这句话的前因后果。现实中,你生个孩子就立刻收到母婴产品的广告,你转了一笔帐就有人打电话问你要不要投资,你在网上发了一封电子邮件就收到很多在线广告,这些都是隐私的泄露。事实上,中国人在多数情况下还是很介意隐私的。最近我发现一个现象,我收到很多学生的来信都是没有署名的。当然,你可能觉得这是个礼貌问题,事实上很多学生跟我说,有时候就想问一个问题,但不想让老师知道是我问的。在互联网上,名字也是一种隐私,因为知道名字就可以搜索到关于这个人的各种各样的信息。
现在,中国人越来越有意识地去保护信息,比如在身份证复印件上加备注。前段时间发生了一件比较糟糕的事情,支付宝在帮助大家晒年度账单的时候,在很小的地方有一个默认勾选《芝麻服务协议》,当你在朋友圈高兴地分享年度账单的时候,同时也接受了《芝麻服务协议》把你的数据分享给相应的机构。
现实中,很多时候我们是没有选择的。大家在下载各种各样的APP时,它总会问你是不是接受那些条款。我想问大家,哪些朋友们真的去阅读了那些条款?大家是不是也都选了同意?为什么?一个是服务协议太长看不懂,另外就是你有别的选择吗?不提供身份证号、不提供个人信息,这个APP你就没法使用。
对于人工智能的很多事情,为什么看上去是我们在用隐私交换方便?是因为我们不知道隐私交出去之后会有什么样的糟糕后果。
四、对数据的规范不仅是限制更是保护
2018年5月26日,欧盟推出的《通用数据保护条例》(简称GDPR)正式生效。这是一个非常具有前瞻性的数据保护条例,它会限制企业如何去使用数据、如何去收集数据。新法规的管辖范围之广、处罚力度之大较为罕见。无论企业在欧盟境内是否设立分支机构,只要存储、处理、交换任何欧盟个人的数据,都受该条例管辖。如果企业违规,最高可能受到2000万欧元或全球营业额4%(以较高者为准)的罚款。
从哲学层面,我们来看新法规中对应的东西,比如知情权、访问权、反对权、可携带权、纠正权、被遗忘权等数据主体的权利,特别是被遗忘权,就是你做过的事情可以在特定时间之外被遗忘。还有,你的数据可以从公司拿过来带走,即使之前同意了你的数据被这个公司分享,也可以在结束服务之后要求把你的数据删除。
个人数据处理也有一些基本原则,比如合法正当透明原则、专门目的原则、最少原则、确保准确原则、非必须不存储原则和保护安全原则等。所谓专门目的原则,是指可以要求你的数据只能用来做特定的事情。而且,所有的数据使用都应该遵循最少原则,你不能过多地去收集大家的数据,不能过长时间地去存储大家的数据。此外,合法处理数据的基本原则有:主体同意原则、必要性(合同、法定义务、保护利益等)原则、敏感个人数据(民族、宗教、性取向等)一般禁止收集处理原则、区分科学研究与工业应用原则,等等。
对数据的规范不仅是限制,更是保护。比如欧盟推出《通用数据保护条例》,不仅是限制企业、保护消费者,同时也是保护企业合法权益,为企业公平竞争营造良好的市场环境,提高企业整体素质和综合竞争力。人工智能公司最核心的竞争力来源于它的数据,规范之后,虽然企业合规成本会增加,会面临很多的技术挑战,还要考虑隐私的设计、数据存在云端还是本地,等等,但是,规范会让真正有担当的、有社会责任感的公司得到更多用户的信任,从而得到更好更高质量的数据。
今天我就说这么多,希望和大家一起共同推动“新电力”良性发展。
(根据宣讲家网报告整理编辑,未经许可,不得印刷、出版,违者追究法律责任)