人工智能系统中不可预料的偏差来源

程序员文章站 2022-12-05 11:23:34

我们一般都把机器，尤其是智能机器，看成是冰冷的，计算能力强的，而且是无偏差的。我们相信，自主驾驶汽车对于驾驶员和随便一个行人之间的生死抉择没有偏颇。我们相信，智能系统在进行信用评估时，除了考虑真正有影...

人工智能系统中不可预料的偏差来源

我们一般都把机器，尤其是智能机器，看成是冰冷的，计算能力强的，而且是无偏差的。我们相信，自主驾驶汽车对于驾驶员和随便一个行人之间的生死抉择没有偏颇。我们相信，智能系统在进行信用评估时，除了考虑真正有影响力的指标，如收入和FICO值，会忽略其他一切干扰。我们也知道，学习系统受非偏颇算法的驱动，将总向ground truth收敛。

对于我们中的一些人来说，这是一个错误：机器不应该在它们公正不阿的视角之外加入感情。对于其他人来说，这是一个特征：它们应该不受人类偏差的影响。但是在这两者之间，有一种观点是它们应该是客观的。

当然，任何一种观点都没有真相来的震撼。真相是，不仅极少有智能系统可以做到无偏差计算，而且有很多因素会导致偏差。因素包括我们训练系统所用的数据，我们与它们产生的交互，突发性偏差，相似性偏差以及冲突目标所造成的偏差。大部分的偏差来源是不容易发现的。但是既然我们要开发部署智能系统，就应该要理解偏差，从而有意识地去设计，尽可能避免潜在偏差的发生。

数据造成的偏差

对于任何一个学习系统来说，它们的输出都依赖于输入。这不是一个新的概念，只是当我们面对那些接收数以百万计的输入进行学习的系统时，会将这个概念忽略。我们得想法是，单单就例子的数量来说，就可以弥补人类造成的偏差影响。但是如果训练集本身选得不好，那么训练的结果也会不尽人意。

最近，这种计算偏差在基于深度学习的图像识别上很常见。Nikon在亚洲面孔识别上的错误和HP在肤色识别上的偏差，问题似乎都出在训练集本身选取不当上。虽然上述问题都是可以解决的，但是它们也反映出当我们不对数据集做及时调整的话，检测偏差可能会加剧。

除了面部识别，还有很多其他的偏差也与现实世界的影响有关。假释犯的再犯率预测，犯罪模型预测以及潜在员工预测等这些应用在负面影响领域的学习系统，当他们使用有偏差的数据进行训练时，或者数据是正常的，但系统在决策时有偏差时，它们会在学习过程中继续扩大这个偏差。

交互中的偏差

除了一些从数据集中学习的系统之外，还有一些系统从交互中学习。而它们遇到的偏差就来源于与用户的交互。一个很有代表性的例子是微软的Tay，这是一款基于聊天机器人的推特，聊天机器人就是要在与用户交互中进行学习。不幸的是，Tay收到了一群具有种族歧视以及女性歧视的人的影响。这群人不停地将具有攻击性的言语发布到Tay上，然后Tay系统就会将这些言语作为后续响应的输入依据。

在Tay变成一个相当激进的种族歧视者的24小时内，微软就将其关闭了。尽管在推特范围内，Tay中的种族歧视者影响是有限的，但是这也反映出现实世界对智能系统的潜在影响。当我们开发的是基于人机交互的智能系统时，类似的训练偏差会随着外界环境的复杂而变得更糟。

换个角度，如果我们只将这些系统交给那些会带来正向影响的人呢？不然我们无法相信系统关于谁可以贷款或谁将获得假释的抉择。Tay给我们的教训是学习系统的偏差可以来源于周围人和环境的反馈，因为无论好坏，系统都会将训练它们的人类观点反映出来。

突发性偏差

有时，做个性化决定的系统可能会创造偏差“泡沫”。我们就看近期facebook的状态，就可以看到这种偏见的身影。在应用层，Facebook的用户可以看到他们朋友的状态，并与朋友分享信息。

不幸的是，任何一种使用消息馈送分析的算法，都会根据用户的浏览历史定向推送内容。当用户点开，收藏或分享内容时，这种定向推送的效果会进一步扩大。结果是，系统会呈现出一波与用户现有的兴趣很符合的信息，然而这可能是由偏差的。

尽管这些定向推出都是个性化的，而且常常是令人满意的，但是这种推送已经不能称之为新闻了。这是一种泡沫信息现象，是一种算法版本的“确认偏见”。用户不需要屏蔽那些与他们自身兴趣相悖的信息，因为系统会自动做到这一点。

这种关于新闻的信息推送偏差会带来很大问题。但是当我们把社交媒体软件的推送信息作为事业决策的支撑时，这些有信息泡沫的系统有可能会带跑我们的思维。一个只接受与他有类似观点或意见的知识分子，是不会从其他角度看问题的，而且会忽略其他声音。

相似性偏差

有时，偏差会在系统做规定动作时出现。比如，谷歌新闻，它会根据用户的请求，提供一组符合要求的故事。它的执行目标非常明确，而且完成度也很高。当然，它得到得结果是一组可以互相印证的故事。也就是说，谷歌新闻得到了一个与Facebook个性化泡沫类似得信息泡沫。

确实会出现一些与新闻角色相关的问题，而新闻的传播又进一步突出了这个问题-最明显的就是信息的平衡方法。“编辑控制”的缺失涉及到的情况十分广泛。尽管相似性在信息界是一种强有力的度量标准，但它也不是唯一的度量标准。一个决策应该由很多不同的观点支撑。那些只提供与请求或现有文档具有相似性的结果的信息系统会给自身造成信息泡沫。

尽管相反的，相对的，甚至冲突的观点对于企业的创新和发展很有利，但这种相似性偏差很容易被人接受。

冲突目标偏差

有时，为特定商业目的开发的系统会导致偏差，但是这种偏差是完全不可预见的。

设想一个系统，它可以用来为潜在的候选人提供职位描述。当用户点击职位描述时，系统会记录点击量。所以，很自然的想法就是，算法的目标应该是提供那些点击率最高的职位给候选人。

然而结果是，人们倾向于点击适合自身的工作，而这种现象可以通过固有的思维模式得以呈现。比如，标签为“护理”而不是“医疗技术人员”的工作呈现给妇女的可能性较大。不是因为这份工作最适合她们，而是因为她们被限制在这种工作类型中不去突破。

固定模式的影响体现在一个人更倾向于点击那些与他们自身知识模式相符的工作岗位(知识模式包括性别，种族，信仰)。结果是，任何一个通过点击量进行学习的系统最终只会按照固定的模式给人们提供工作机会。

机器偏差就是人类偏差

在理想情况下，智能系统和它们的算法都应该是公正客观的。然而，这些系统由我们开发，因此，会反映出我们的偏差。通过了解偏差以及了解偏差的来源，我们可以主动地设计可以规避变差的系统。

也许我们永远不会设计出绝对客观的系统，但至少，系统的偏差会比我们自身的偏差要少。继而，也许选举不会再误导我们，货币不会再通货膨找或紧缩，我们也会突破我们的个性化新闻屏障，看到更精彩的世界。