AI 科技评论按:人工智能领域的最新进展是什么?我们可以期待 2019 年出现什么新技术?会有新的人工智能法规吗?NeurIPS(前称 NIPS)或许可以对这些问题作出解答。近日,计算机网络安全公司 zvelo 的人工智能架构师 Daniel DeMillard 将其在参加 NeurIPS 2018 时收集到的一些针对人工智能领域的见解、观点以及 2019 年的趋势预测汇总成文。AI 科技评论编译如下。
NeurIPS 汇聚了人工智能和深层学习领域的杰出人才,近年来随着名气的上升,门票一度比 Taylor Swift 的演唱会还难买(更多内容回看《听说 NIPS 2018 门票十分钟卖光,
机器学习圈子炸了锅》)。该会议主要聚焦于深度学习领域。深度学习是使用多层互联的人工神经网络对高维数据进行建模的过程,其对于图像分类、语音识别、自动驾驶汽车、面部识别,甚至手机的拼写自动纠正功能等方面的突破具有关键作用。由于深度学习已经成为近来人工智能进展的核心部分,NeurIPS 可以被视作更大的人工智能生态系统的标志性会议。
NeurIPS 由 100 多家公司和 Google、英伟达、微软、Facebook、IBM、亚马逊等人工智能领域的巨头赞助,它们都有展位,并在大会上展示最新技术进展。NeurIPS 为期 6 天,每年举办会议的地点各不相同——2018 是在蒙特利尔,其大会内容和论坛主要是偏技术性的。研究人员要花费数天的时间来深入研究最新课题、发表学术论文以及最终展示新技术。由于大会的三个主题(神经科学、机器学习理论和应用机器学习)的议程同时进行,一位研究者(指的是人类)不可能将所有的议程都参加和体验一遍。这篇文章汇总了我在 NeurIPS 2018 上收集到的一些见解和
观点,以及 一些令人振奋的 2019 年趋势预测,大家可以进行参考。
AI 话题 & 启发
今年,人工智能领域取得了许多突破,包括生成网络、无监督学习和小样本学习、元学习和自动机器学习、增强学习,以及一些深度学习成果的理论解释等方面的改进。
图像、文本和语音的生成模型
生成模型对整个概率分布进行估计,从而可以生成图像、文本或语音等新内容。预测模型在给定输出的情况下,学习一些分类器来预测输出标签的概率。例如,当给定 Donald Trump 的原始像素——pr(Trump | pixels),预测模型可以预测图像为 Trump 的概率。
不同的是,生成模型针对某些期望的输出——pr (pixels | Trump),来学习输入上的整个概率分布,从而能够根据需求生成全新的 Donald Trump 图像。递归神经网络用来生成文本已经有一段时间了,但是最近才在深度学习领域取得进展,改进得足以用来生成图像。
在过去的几年里,能够产生真实感图像的模型发展得很快,它们现在可以产生一些真正令人印象深刻的图像。看看下方的几张图片,你能分辨出哪些是真实的,哪些是由神经网络生成的吗?
你能猜出哪些图像是由神经网络生成的吗?
其实这是一个故意误导的问题,因为它们都是算法生成的图像(https://arxiv.org/pdf/1807.03039.pdf)——这些人并不真实地存在。
这里的许多演讲都有助于推动这个领域的发展,其中就包括实现仅仅使用基于文本的描述来修改图像(https://arxiv.org/pdf/1810.11919.pdf)。现在,根据一个简单的需求,就可以立即编辑鸟类和花的照片。
生成模型让我们使用基于文本的描述就能修改图像
这项技术非常厉害且令人兴奋。然而,这些生成模型还没有被真正投入使用,由于还没有人真的知道用它们来干什么... 不过,英伟达在本次会议上展示的 Demo 可能已经开始填补这一缺口了。他们展示了一个用户对街道场景进行导航的虚拟仿真,该街道场景不是由图形或视频游戏设计师生成的,而是完全由从现场拍摄、然后拼接到一个连贯的 3D 场景中的图像生成的。
2019 年趋势预测
公司将使用生成模型来为购房者、博物馆参观自动生成数字化演示,甚至为电子游戏生成内容。
以更少的标签学习(以及完全不使用标签学习)
无监督学习是人工智能的长远目标。我们往往拥有大量的数据,然而这些数据都是没有经过标记的。这意味着,除了基本的数据勘探和异常检测场景,这些数据基本无法使用。遗憾的是,这个问题在 2018 年仍然没有得到解决,并且在近期内无法解决。不过,这一领域至少在使用未标记的数据来改进(标记数据)监督学习过程方面已经取得了许多进展。
最近一篇题为《无监督神经机器翻译》(Unsupervised Neural Machine Translation,https://arxiv.org/abs/1710.11041)的论文表明,无监督学习有助于机器翻译。给定语言中拥有丰富的文本,所有书籍、博客和信件都可以以你喜欢的任何语言存在,问题是你需要使用平行的句子来展示,深度学习算法如何将原文本(例如法语)的词语直接标记为目标语言(例如英语)。对于一些特定的语言对,例如斯瓦希里语—老挝语,这些数据太过缺乏且难以获得。这篇论文展示了,通过在单语料库上训练编码器和解码器间的共同嵌入空间,可以学习一种弱形式的无监督翻译。尽管直接的无监督翻译表现不是很好,但是学习到的共同嵌入可以大大加快监督模型的训练,从而用更少的标记的句子和更少的训练就可以提高精度。
会议上的许多演讲和论文,都在继续使用这种思路:以数量更少的标记样本来获得最高精确度。其中几个案例包括:使用少量的音频记录来将转移学习用于克隆语音,以及使用更少得多的样本来实现每一类别的目标检测。
2019 年趋势预测
虽然使用无监督学习直接学习新信息这一方面没有取得建设性的突破,但是无监督预训练、迁移学习以及少量学习都加速了在新领域的训练,也有助于控制学习精确的分类器所需要的训练时间和样本数量。
自动机器学习和元学习
当今的趋势是「解放双手」,而这一趋势的点点滴滴都涉及到深度学习,如神经网络架构和超参数调优。元学习致力于「学会如何学习」,然后将学习能力迁移到其尚未涉足的新领域。虽然元学习仍然是一项正在发展中的工作,但是自动机器学习正被有效地
应用于快速地完成比穷举网格搜索(brute-force grid search)更高效的超参数搜索,以及自动学习特别的联结主义架构。甚至最近为自动机器学习发布的常用的 scikit-learn(https://scikit-learn.org/stable/)中也拥有了一个可直接使用的插件。
2019 年趋势预测
机器学习研究者花在用不同的超参数反复试验的时间会变少,而是使用自动机器学习所提供的工具去运行单个的实验。这将加速研究周期,从而让研究者可以探索更多的课题。
深度学习理论
深度学习模型往往会被喻为「黑盒子」,这是由于深度学习模型现在包含了万亿个以复杂方式关联的参数。即使是创建了这个模型的研究者,也难以对正在发生的事情进行全面的理解。深度学习其中的一个吸引力就是研究者不一定要手动创建特征,甚至不需要完全了解他们正在应用算法的领域。我们能非常真切地感受到,比起研究者们,深度学习模型其实更了解正在被解决的问题。
这展示了研究者们对于自动驾驶汽车、医疗影像以及金融交易等关键任务系统的关注。
如果我们不知道机器是如何进行工作的,我们能真正说它是安全的吗?这就是为什么要在深层学习背后的理论上取得进展如此重要的原因。本次会议上的许多演讲和论文就聚焦在了这一领域。
《关于神经元容量》(On neuronal capacity)是一场非常有趣的演讲,它从数学上表明了不同尺寸的前馈神经网络可以存储多少位。这些知识可以用于了解抽象和在神经网络中产生的记忆的各自的水平。例如,20000 张彩色像素为 256×256 的图像,拥有约为 10 亿(20000X256X256X3)条信息。如果这个值与网络的神经容量相当,那么这个模型就太大了,仅通过简单记忆数据就会使这些数据过度拟合,并且该模型也很难适用于样本外测试集。研究者在选择其网络的大小时可以利用这些信息。
此外,《关于词嵌入的维度》这场演讲为在深度学习社区异常大的嵌入大小给出了理论解释。这些解释有助于正确地选择嵌入大小等超参数,而无需高成本的经验搜索。
我们甚至有一个神经科学解释,解释反向传播是如何在大脑中发生的。长期以来,人们一直批评深层学习神经网络不能真正模拟大脑中的连接,这是由于使用了反向传播,这是一种通过网络的权重将分类器中的错误传递回去的方法。然而,最近一篇关于神经科学的论文概述了一个模型,该模型可以解释反向传播类过程是如何在大脑中发生的。这可能为那些相信他们的算法的智能类似于人类智能的
人工智能研究人员提供一些抚慰。
强化学习
强化学习(RL)是用于解决游戏、金融市场和机器人技术中常见的顺序决策问题的方法。今年,许多关于强化学习的演讲都集中在数据效率这个方面。应用于国际象棋、围棋、 atari 以及最近的 Dota 等游戏中的「策略网络」,已经取得了惊人的突破。然而,这些方法都需要大量的资源来模拟游戏的数百万次迭代。
对于强化学习领导者 Google 旗下的 DeepMind 等发表的诸多论文,一般的 AI 研究者都无法对其复制,因为他们无法使用 DeepMind 所拥有的成百上千的云端 GPU。这就是为什么研究者致力于开发不仅能玩好游戏,而且可复制、可循环利用以及稳健的强化学习算法。对此,模型必须进行简化并且变得更加的「数据高效」,这就意味着要求使用更少的仿真迭代(更少的数据),最终得到准确的模型。
2019 年趋势预测
通过自对弈的方式(无真实世界的例子)自主学习以超人类的水平下围棋、象棋以及 Shogi 的 DeepMind 算法——AlphaGo Zero,将会被研究社区复制,并且研究者们可以在单个的消费级 GPU 上训练该算法的某个版本。强化学习算法将开始在星际争霸(Starcraft)和 多塔(Dota)等更为复杂的现代竞技游戏中打败人类。
对话式聊天机器人 VS 目标导向的虚拟助手
我参加了「第二届会话式人工智能论坛:今天的实践和明天的潜力」(The 2nd Conversational AI Workshop: today's practice and tomorrow』s potential)。这个论坛对「对话式聊天机器人」和「目标导向的虚拟助手」进行了清晰的描述。对话式聊天机器人包括社交机器人,它们可以就各种领域进行对话,除了可以让用户始终参与之外往往没有目标。一个对话聊天机器人的例子是微软的 twitterbot Tay 及其第二代 Zo。然而,目标导向的虚拟助手则是聚焦于完成一些预先设定的任务,这类助手包括亚马逊的 Alexa、苹果的 Siri、微软的 Cortana 以及自动化的帮助中心机器人。
对话式聊天机器一直以来都更难创建得多,因为响应的类型是多种多样的,并且取决于上下语境,甚至与其对话的用户。这个论坛展示了对话式机器人和虚拟助手的最新进展。
二者遵循与上述技术相似的发展路线。无监督学习、强化学习和记忆网络的改进减少了重复,增强了信息检索和对语境的理解能力。
2019 年趋势预测
2019 年,我们还无法成功研发对话式聊天机器人(你可以这类聊天机器人交谈任何事情,它的声音听起来像人类一样),不过会有更多水平高的虚拟助手出现,它们可以在人类进行网上购物、车辆预定、与商场导购互动以及参与支援呼叫中心等活动时提供帮助。越来越多的应用设备将会采用语音控制,我们仅用声音就可以控制烤箱或者大门(而不需要将其连接到 Alexa 上)。
担忧
今年,大家也对 AI 提出了许多担忧,包括防护、安全、歧视性偏见以及 AI 研究者缺乏包容性和多样性等。如果企业无法进行自我监管,这些担忧可能导致监管反弹。
图像分类器的对抗性攻击
我数了一下,有将近 12 篇论文是关于深度学习模式的「对抗性攻击」的。对于它们不熟悉的图像,这些攻击倾向于集中在图像分类算法上,并试图通过向图像的像素值添加小扰动,来欺骗分类器。
例如,将适量的噪声添加到「猪」的图像后,该图像会发生改变,从而误导深度学习模型将其归类为「飞机」。
乍一看,这似乎是一种无害的科学怪癖。然而,想到面部识别正成为智能手机登录等安全授权的越来越重要的部分。研究者已经表明,通过简单地更改图像周围的像素,分类器可以将你认作其他人。当然,人类可以马上判断出某些事情是错的,但是欺骗自动系统就像戴上某款时髦的数字眼镜一样简单。
或者想一下这对于自动驾驶汽车来说意味着什么。让自动驾驶汽车变得可行的许多突破,都来自于深度学习图像分类器,它能够准确地读取路标、检测行人以及解译信号。研究已经表明,通过简单地将黑色带和白色带适当地贴在路标上,可以让这些分类器被「打扰」,从而进行错误的分类。
创建不受此类攻击影响的模型,对于保障人们的安全和防护至关重要。幸运的是,现在已经有许多方法可以构建这些能够进行自我防卫的模型,例如正则化、数据增强、对数据来源进行警惕(详细见含毒数据https://arxiv.org/abs/1804.00792)、向模型添加可解释性、收集更多数据以及构建新型检测器等。构建不受攻击的模型的结果是,泛化也得到了改进,这就意味着模型将对与初始训练集不同的数据进行处理,同时总体的准确性也得到提高。遗憾的是,尽管在创建不受攻击的模型方面已经取得了许多进展,但并不是每个人按照这一最佳实践来创建 AI 模型。
2019 年趋势预测
对于生物识别安全,人脸识别将变得越来越重要。例如,我们会用面部识别来登录银行帐户。今年,公司将无法采用适当的预防措施来使其网络不受「对抗性攻击」的影响,并且有人将会成为这种欺骗活动的受害者。
机器学习中的固有偏见和歧视
今年,人工智能所经历的另一反弹来自于模型,这些模型显示出了种族和性别歧视。在无法充分代表少数群体以及数据无法提供准确快照等有偏见的数据集上训练过的模型,已经证实会犯明显的错误,并且不利于针对一个群体。这个问题是双重的:第一个问题是,当算法正在进行应该批准谁贷款、应该选择谁来参加面试、甚至确定犯罪活动等关键决策时,可解释性和透明性往往是必要的;第二个问题是,由于缺乏公平性和责任制,不平衡和不完整的数据集最终会把某一些群体孤立起来。
有了庞大的人脸数据库和不完美的分类器,很容易为与犯罪完全无关的人的肖像找到匹配。美国地区的人脸识别,由于数据集以白人目标为主要特征,具有严重的偏见,其对非洲裔美国人的识别表现更差,并且对亚洲人的识别要比白种人更差。同样地,亚洲分类器的这种偏见是相反的,由于它们在其数据集中具有相反的偏见。
AI 研究者不是伦理学家,也不应该是公平、对或错的最终决定者,他们应该做的是努力将责任制、透明性以及可解释性增加到模型中。遗憾的是,这是正是黑盒深度学习模型最大的弱点之一。它们都是能够完成表现非常惊人的分类的非常强大的算法,不过在很大程度上仍然难以捉摸。
现在有一些方法可以解决这个问题,例如给因素重要性分析增加特定的特征,执行消融学习(ablation studies)以及对歧视性偏见进行显性测试(例如对黑种人和白种人的人脸测试集进行 A/B 测试)。然而,这个问题仍然是一个挑战,并且至今还没有一个简单的解决方案。如果 AI 公司无法对这一问题进行自我监督,那么随着公民权受到侵犯,会出现监管反弹。
2019 年 趋势预测
未来,投诉机器学习模式具有歧视性以及违反了反歧视法律的诉讼数量将会增多。深度学习模型很大程度上仍将保持难以捉摸的特点,但监管压力、安全性担忧以及理论进展,会促使研究者将会花更多的时间和资金来提高深度学习模型的可解释性和透明性。
提要 & 总结
人工智能领域在 2018 年取得了许多惊人的突破;到 2019 年,既有机遇,也面临的许多挑战。毫无疑问,未来还会有更多的惊喜,但我希望我们能够继续以谨慎和肩负社会责任感的方式,推动技术的发展。
via zvelo.com,AI 科技评论编译