(译者 | 开源中国 Ley, snake_007, 西直门交警, xubing0x00, 无若)
我们倾向于认为机器是没有血肉,没有个人思想,但能提供精准计算的东西,尤其是智能机器。我们相信自驾汽车没有私心,在判断司机和路人生命孰重孰轻时不会有偏袒。
我们相信智能评估系统在进行评估时,会抛开所以主观因素,做出客观的判断,如收入和 FICO 值。我们也相信学习系统会基于事实给出客观结论,因为驱动它们工作的是无偏差算法。
有些人认为,不包含人类情感的机器存在 bug:它们应该有人类一样的思维模式。而另一些人认为:机器就是机器,不应带有人类的主观思想。还有一种折中的观点认为,它们可以有主观的思想,但应做出客观的判断。
而现实情况是,很少有智能系统可以做到毫无误差,而且误差的来源有很多途径,如,训练系统的数据导致的误差,交互误差,突发情况引起的误差,相似性误差和目标冲突导致的误差等。
这些误差通常难以被人察觉,但在我们构建和部署智能系统,需要对它们有一定的认识,这样才可以在设计时有意识的避免可能引起的问题。
数据驱动偏差
对于任何学习系统,输入的数据决定了输出。这并不是一个新的观点,但当看到系统被数以百万的示例数据驱动时,我们往往会忘了这个观点。人们往往会想:海量的数据可以将人类造成的误差碾压成渣渣。但是如果训练集本身就有偏斜的话,结果也可想而知。
最近,这种偏差已经在深度学习的图像识别系统中初露端倪。尼康的“亚洲面孔困惑”和惠普的肤色问题似乎都是偏斜示例集的产物。虽然两者都是无意识产生并且都是可修复的,但这也表明了:如果我们不注意数据源偏差的问题的话,这种问题就会出现。
除了面部识别领域,更有其他对现实世界造成影响的情况。
机器学习系统会用于建立一些用于预测被假释人员的再犯罪概率,犯罪模式,或者预测潜力雇员的规则集。
这样在这些领域会有潜在的负面的影响。当我们用有偏差的数据源训练系统时,如果数据源是和谐的但系统的决策算法有偏斜,也会使偏差延续下去。
交互引入的误差
在某些系统通过大量的全集例子来学习的同时,另外一些系统通过交互来学习。因此,由于交互中的用户本身带有偏见或者局限性,机器学习就可能在此基础上产生误差/偏见。
这种误差的一个非常典型的例子就是微软的 Tay。Tay 是一个 Twitter 的聊天机器人,被设计为通过和用户交互来学习。然而 Tay 受到某一社区影响,会产生种族歧视和女性歧视的言论。
事实上,这个用户社区不断地向 Tay 发出带有侵犯性的言论,从而使得 Tay 的系统以这些言论为材料做出回复。
Tay 仅仅存在了 24 个小时就因上述情况被微软关闭了。虽然 Tay 发出的种族歧视言论只被限制在 Twitter 范围内,但它指示了世界的真实现实。当我们构建通过和人类伙伴交互而做决定并且学习的智能系统时,同样糟糕的训练问题也会出现在更多的情况之下。
考虑到我们对于机器做决定的不信任,试想如果我们给智能系统配备一个长期指导导师会发生什么?从 Tay 的事件中,我们知道了这些系统会从它们周围的环境和人那里学习到“偏见”,不管好坏,都反映出了训练它们的人类的
观点.
新生成的误差
有时,系统为个性化而做的决策将会导致误差“泡沫”的产生。我们可以从 Facebook 当前的状态中看到这种误差。在最顶层,Facebook 用户可以看到他们朋友的博文,并和他们共享信息。
不幸的是,任何分析输入数据流并提供其他内容的算法将会给用户提供已经看到过的内容。这一效果在用户打开、喜欢和分享内容的情况下进一步被放大。结果导致信息流更加倾向于用户已有的兴趣集。
虽然这么做体现了个性化,也能让人放心,但不是我们认为的新闻的样子。信息泡沫是“确定性误差”的算法版本。用户无需再过滤那些与自己信仰相冲突的信息,因为系统已经自动将其过滤。
这些信息误差在新闻界造成的影响给人带来许多困扰。但在企业中,我们把社交媒体的模型用于支持决策制定,支持产生信息泡沫的系统更能影响我们的认知。知识份子仅从与他观点相似的人那里得到信息,将无法看到对立的观点,会忽略和否认其他的观点,导致体现问题不全面。
相似性偏差
有时偏差仅仅是系统在完成设计初衷的产物。比如,Google News,设计初衷是通过使用相关故事集匹配用户查询来提供故事。这明显是它设计的目的,而且它完成的非常好。当然,返回的结果是一些相互直接有关联的相似故事集合。也就是说,它们定义了与 Facebook 个性化类似的信息泡沫。
这种模式突出显示了新闻的作用及其传播的问题——最明显的是信息的平衡方法。“编辑控制”的缺失影响范围巨大。虽然相似性是信息世界里一个强大的衡量标准,但它不是唯一的。
不同的观点为决策提供了有力的支持。如果信息系统仅依靠“类似于”查询或现有文档提供查询结果,就容易产生“信息泡沫”。
相似性偏差更倾向于被接收,而对立、反向和冲突的概念提倡的是创造与革新,这种概念在企业中尤为重要。
冲突的目标偏差
有时系统设计是有非常具体的商业目的的,而真实的偏差完全是在意料之外。
比如,一个旨在为潜在候选人提供职位描述的系统。当用户点击职位描述时,系统就会生成薪资。所以自然地,算法的目标是提供获得最高点击数的职位描述。
事实证明,人们倾向于点击那些能满足自我期望的职位,通过简单地介绍,可以加强人们对这一职位的刻板印象 [注:刻板印象主要是指人们对某个事物或物体形成的一种概括固定的看法,并把这种观看法推而广之,认为这个事物或者整体都具有该特征,而忽视个体差异。]。
举例来说,女性倾向点击的工作标签是“护理”,而不是“医疗技术人员”。这并不是因为“护理”工作比较好,而是因为刻板印象,使得这一工作与她们的决定匹配起来。
刻板印象在行为上的影响体现在:一个人刻板印象(例如:性别,人种,族群)与工作选择相关联。因此,大多数网站基于点击行为的学习组件都会利用刻板印象带来的影响。
机器误差由人工导致
理想状态下,智能系统及其算法是客观的。但这些系统是由人工建立的,所以我们的误差会导致机器的误差。 通过对误差本身及问题的根源进行了解,有利于我们避免误差的产生。
我们没法创建完全没有误差的工具,但我们能尽量缩小误差的范围。