机器人也会造假、有偏见？原因在这-机器学习-技术-爱吧机器人网

机器人也会造假、有偏见？原因在这

2016-09-04 镁客网韩璐浏览量：

　　前段时间，Facebook将人类编辑解雇，并让人工智能担任热门榜单的编辑。然而，在上任之后，该机器学习算法连续几天将几条不实新闻以及不雅视频推上热门榜单，其中包括宣称福克斯新闻炒掉了知名主持人Megyn Kelly并称其为“叛徒”，没过多久此则新闻就得到了当事人及相关人员辟谣。

　　此外，在今年3月23日，微软悄悄的推出了一款聊天机器人Tay。Tay最初是以一个清新可爱的少女形象出现，但是由于她的算法设定是通过学习网友的对话来丰富自己的语料库，很快她被网友充斥着激烈偏见的话语“带坏”，变成了一个彻底的仇视少数族裔、仇视女性、没有任何同情心的种族主义者。

　　种种现象看来，机器学习也不是那么的完美，这到底是如何造成的？而且，在智能汽车领域，研究人员意图将机器学习运用到人工智能车载系统上，并让其学会车主的驾驶习惯。但是，在看了上面的例子之后，为了打造更好的机器学习算法，我们应该做些什么？

　　为何机器学习总是出错？

　　简单来说，机器学习的原理就是用大量的数据对算法进行训练，从而达到理解人、学习人的目的。从中我们可以知道，这其中最重要的就属算法的“学习”过程。

　　以Tay的偏见为例，关于这个，在一个月前，谷歌的一个数据库貌似给出了答案。

　　两年前，谷歌的几个研究员启动了一个神经网络项目，目标是找出单词相邻组合的各种模式，而所要使用的语料库来自谷歌新闻文本中的300万个单词。虽然结果很复杂，但团队人员发现可以用向量空间图来展示这些模式，其中大约有300个维度。

　　在向量空间中，具有相似意义的单词会占据同一块位置，而单词间的关系，可以通过简单的向量代数来捕捉。例如，“男人与国王就相当于女人与王后”，可以使用符号表示为“男人：国王：：女人：王后”。相似的例子有，“姐妹：女人：：兄弟：男人”等等。这种单词之间的关系被称为“单词嵌入”。

　　最后，蕴含了诸多单词嵌入的数据库被称为Word2vec。之后的几年内，大量研究人员开始使用它帮助自己的工作，比如机器翻译和智能网页搜索。

　　但是有一天，波士顿大学的Tolga Bolukbasi的和几位来自微软研究院的人员发现，这个数据库存在一个很大的问题：性别歧视。

　　比如说，你在数据库里询问“巴黎：法国：：东京：x”时，系统给你的答案是x=日本。但是，如果问题变为“父亲：医生：：母亲：x”时，给出的答案是x=护士；再比如问题“男人：程序员：：女人：x”，答案为 x=主妇。

　　这种答案在一定程度上已经算是一种性别歧视了。而据分析，个中原因是Word2vec语料库里的文本本身带有性别偏见，之后的向量空间图随之也受到影响。

　　由此我们可以看出，机器学习之所以会出错，某种程度上还是归于“学习资料”的“不太正经”，以及算法那种什么都学的性质。

　　这种错误是否可以避免？

　　讲真，以当前的技术来讲，这种现象是很难杜绝的。如果要杜绝这种情况的出现，那不仅涉及到技术层面，还有社会道德层面。

　　先看社会道德层面。机器学习算法的数据来源于人们的语言、行为习惯等，以软银计划打造的人工智能汽车为例。7月份，软银与本田达成合作，联手打造一辆能够阅读驾驶员情绪并与之交流的汽车，在行驶过程中，系统中的机器学习算法可以学习驾驶员的驾驶习惯，从而在无人驾驶模式开启时，能够给予驾驶者最舒服、毫无违和感的的驾驶体验。但是，如果该驾驶员有不良驾驶习惯，那将会对算法的学习提供错误的示范。

　　这仅仅是驾驶习惯，而在语言方面，其中可能包括暴力、侮辱等等字眼，相比于驾驶习惯，这些更难以约束。因而，在学习对象都不能“正经”的情况下，又怎么将机器学习算法调教完美？

　　再看技术层面，这也得从数据方面下手。如果想要好好的训练算法，研究人员就得剔除数据中的不良信息和隐藏的逻辑，再让算法分别识别。但从这里我们就可以了解到，这是对于研究人员而言，将是一项极其繁重、极具难度的工作。而且，抠字眼还是比较简单的了，最难搞的还是字里行间的逻辑关系，一不小心就是一个大坑。不管是人类，还是机器，对于这种识别都是一个难以跨越的坎儿。

　　以此种种来看，机器学习固有它的好处，但我们还是不能过于依赖，尤其是涉及到一些复杂的工作，比如开车、聊天等情形。不过，虽然当前这个问题很难解决，但随着人工智能技术的发展，说不定哪天研究人员就能想到一个法子，从而彻底解决这个问题。

精选推荐

Crossbar将电阻式RAM推入嵌入式AI

[2018-05-17] 电阻RAM技术开发商Crossbar表示，它已与航空航天芯片制造商Microsemi达成协议，允许后者在未来的芯片中嵌入Crossbar的非易失性存储器。此举是在先进制造业节点的领先代工厂选......

Waymo：人性和行为心理学才是无人驾驶最大的挑战

[2019-11-03] 自动驾驶汽车作为AI领域内最大的挑战之一，谷歌致力于其研发已有十余载，现在他们逐渐意识到，最困难的是如何让人们享受驾驶的乐趣。这是一 ...

瑞士研发出微型机器人集群可像蚂蚁一样互相交流并协同工作

[2019-07-12] EPFL（瑞士联邦理工学院）的研究人员受到了蚂蚁的启发，开发了一款仅有10克重的小型机器人：他们可以相互交流，分配角色并完成复杂的任务。 ...

2022年全球工业机器人市场将达到790亿美元

[2017-09-04] 预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

担心机器换人？自1950年以来只有一个职业被机器彻底取代

[2017-03-21] 虽然有很多关于机器人取代工人的担心，但哈佛经济学家James Bessen的论文指出，在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

麻省理工最新机器人“装配工”未来可建造太空基地

[2019-10-17] 两个机器人原型把一系列小单元组装成大结构体麻省理工学院科研人员最近提出一种新型机器人技术，即一种小型机器人系统，能够自主地用统一规 ...

人工智能民主化能否实现取决于科技巨头

[2017-12-29] 我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词，民主化。但这些公司如何界定“民主化”还不清楚，像AI本身一样，它似乎有点炒作的味道...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08] 随着无人机及其组件越来越小，效率越来越高，功能越来越强大，我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中，而不依赖于外部定位。宾夕法尼亚大学在......

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01] 　　人工智能（AI）研究现正迅速发展，如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法（BP）原理推导及代码实现

[2017-12-19] 分析了手写字数据集分类的原理，利用神经网络模型，编写了SGD算法的代码，分多个epochs，每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中，非常重要的一个步骤，......

如何在机器学习项目中使用统计方法的示例

[2018-07-23] 事实上，机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中，我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

模拟退火算法（SAA）

[2017-08-28] 模拟退火（Simulated Annealing，简称SA）是一种通用概率算法，用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理：将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31] 今天我们来讲解的内容是感知器分类算法，本文的结构如下：什么是感知器分类算法，在Python中实现感知器学习算法，在iris（鸢尾花）数据集上训练一个感知器模型，自适应线性神......