让机器给出合理解释，GDRR为何这么牛？

2018年5月25日，“通用数据保护条例”（GDPR）在整个欧盟范围内生效，要求对组织如何处理个人数据进行彻底改变。若违反GDPR条例的限制，相关组织必须支付高达2000万欧元或其全球收入4％的罚款（以较高者为准），对威慑大多数违规行为具有很重要的意义。

由于不久前的剑桥分析丑闻闹得人心惶惶，许多人希望GDPR将成为全球数据隐私新标准的典范。目前一些行业领导者正在呼吁Facebook将GDPR标准应用于其在非欧盟国家的业务。

但隐私只是围关于数据驱动系统之争的一个方面，实际上机器学习支持系统的日益普及引发了一系列相关问题，包括一个对社会产生很大影响且无法量化的问题：偏见。

在我们的生活中，许多重要决策都是由某种系统做出的，很多系统都存在明显的偏见，无论这系统是人、机器还是二者的组合。机器学习在决策制度中的作用越来越大，这为我们提供了一个建立更少偏见的系统的机会，当然也面临着加剧这一问题的风险。

我们通常认为计算机比人类更客观、更公正。然而过去的几年里，许多机器学习系统产生了带有偏见或歧视的结果，人们对此也有着很多争议。2016年时ProPublica曾报道，美国法院用来衡量被告再次犯罪可能性的机器学习算法，在对比背景相似的黑人与白人被告时会认为黑人的“风险更高”，即使系统没有提供有关被告种族的任何数据也依然如此。

雷锋网 (公众号：雷锋网) 不久前一篇名为《关于模型可解释性的深入思考：从哪里来，到哪里去？》的文章中，曾详细介绍了学习出一个通用智能行动者的潜力和局限性，算法公平方面细微的以及可以被真正规范化的挑战。人们使用机器学习系统的目的是希望世界更公平、更有效率，而不是进一步放大人类的偏见。

这就是为什么GDPR允许用户可以要求解释机器任何“合法或类似重要”的决策，希望解释的权利能够使“算法歧视”的受害者诉诸人权，从而减轻这种偏见的影响。

但是生成这些类型的解释——即创造可解释的人工智能——是非常复杂的，而且即便系统对决策做出了解释，也有一些评论家认为“无法分辨它们是真的反对偏见，还是仅仅是掩饰偏见。”

可解释的人工智能以及GDPR是否会使技术更公平？如果不是，随着机器学习的使用变得更加普遍，我们还有什么替代方法可以防范偏见？

机器学习中的偏见

关于偏见的讨论常常被过分简化为诸如“种族主义算法”这样的词语，但其实问题不在于算法本身，而是数据研究团队提供给机器的数据。

例如，收集以往的数据是数据科学项目的一个共同起点，但“历史数据往往偏向于我们不希望转移到未来的方式，”加州大学伯克利分校电子工程与计算机科学学院助理教授、加州大学伯克利分校崛起实验室的创始人之一Joey Gonzalez说。

假设某公司建立了一个筛选求职者的机器学习模型，并基于公司过去筛选类似职位求职者的数据集对模型进行培训。如果该公司的HR曾多次拒绝过那些试图重返职场的前全职父母，则培训的结果很有可能会让模型也将这些存在长期就业缺口的人排除在外。

如果更进一步，这将导致模型过多的拒绝女性求职者（全职父母多为女性）从而造成性别比例失调，即使性别并不是模型培训数据集中的特征。因此在这一领域中，使用机器学习将进一步放大人类的偏见。

而这就是可解释的人工智能的用武之地。如果操作人员能够检查“推理”算法，就有可能在算法产生严重偏差之前进行纠正。