人工智能监管来临

过去十年间，公众对数字技术的担忧主要集中在对个人信息的滥用问题上。人们对企业追踪个人网络足迹的方式感到不适，包括搜集信用卡号、地址等关键信息。用户因随意搜索点开广告链接，之后就被企业追踪网络足迹，这让他们感到恐怖，担心身份盗取和网络欺诈。这种忧虑让欧美开始研究相关法规，希望能保证互联网用户对个人信息和影像拥有一定控制权。最著名的成果是2018年颁布的《欧盟通用数据保护条例》（GDPR）。

针对企业使用个人信息的讨论自然并不会因这些举措而终止。一些人认为，相较于对数据使用监管较宽松的国家，这种限制会影响欧美国家的经济表现。另有人指出，众多证据表明更严格的监管令欧洲小企业和谷歌、亚马逊等财力雄厚的美国竞争对手相比处于严重劣势。

但是讨论进入了新阶段。随着企业逐步在产品、服务、流程和决策过程中加入人工智能，公众注意力转移到应当如何在软件中使用数据，特别是可能用于诊断癌症、自动驾驶或审核贷款等复杂且不断进化的算法。欧盟再次走在世界前列（2020年发布“人工智能白皮书——欧洲迈向卓越及互信的方式”以及2021年的人工智能法律框架提案），认为监管是发展公众可信任的人工智能工具的必备条件。这一切对企业来说意味着什么？我们一直在研究如何监管人工智能算法、如何基于监管框架提案的关键原则部署人工智能系统，一直在帮助各行业发起并推进人工智能驱动项目规模化。我们将在下文中结合这方面的研究所得和其他人的研究成果，探索企业领导者在决策过程和流程中整合人工智能（下称“AI”）时，为确保安全并获得客户信任，面临的三大关键挑战。我们也提出了指导高管完成这些任务的框架，部分利用了战略风险管理中使用的概念。

不公平的结果：使用AI的风险

媒体报道过AI系统会产生带有偏见的结果。著名的例子是苹果手机的信用卡算法被指控歧视女性，并引发纽约金融服务部门的调查。但问题隐藏在很多其他表象下：例如无处不在的网络广告算法中，商家按种族、宗教、性别寻找受众；亚马逊的简历筛选器会筛掉大部分女性候选人。《科学》杂志近期的一篇研究论文表明，每年影响美国数百万人的医疗风险预测工具体现出极大的种族歧视。另一项发表在《普通内科杂志》的研究表明，大医院用于安排肾脏移植手术优先级名单的软件歧视黑人。

多数情况下，问题源于AI使用的训练数据。如果数据有偏见，AI会延续甚至放大这种偏见。例如，微软用推文训练聊天机器人和Twitter用户互动，却不得不在产品上线第二天就撤下来，因为聊天机器人大量使用煽动性的种族言论。但不能简单地将种族或性别等人口统计信息从训练数据中剔除，因为一些情况下需要这部分数据来纠正偏见。

理论上讲，我们能够做到在软件编程时加入某种公平的概念，要求所有结果符合一定条件。亚马逊公司做过实验，加入一种公平指标，名为“有条件的人口统计差异”，其他公司也在开发类似指标。但一大障碍是公平没有统一定义，决定公平结果的一般条件也不绝对。而且各种不同条件下的利益相关者对公平内涵的理解都截然不同。最终任何试图在软件设计中加入公平的尝试都有隐患。

监管者大多数依赖标准化的反歧视法规来解决有偏见的算法结果。如果出了问题可以追溯到责任人，这种做法是可行的。但随着AI应用的增加，个体问责遭到破坏。更糟糕的是AI增加了偏见潜在的影响力：任何缺陷都能影响数百万人，企业可能面临的集体诉讼数量打破历史纪录，遭遇声誉危机。高管该如何避免这类问题？首先，做出任何决定之前，应该考察四个因素，加深对利害关系的理解：

结果的影响。一些算法影响的决定会给人们的生活带来直接且严重的后果。例如通过算法进行医疗诊断、筛选求职者信息、审批购房贷款或给出量刑建议。这种情况下明智的做法是避免使用AI，或只用AI作为人类判断的辅助。

但后一种方式仍然需要仔细斟酌。假设一位法官不顾AI建议，批准提前释放一名罪犯，之后此人又犯下暴力案件。法官会被迫解释当初忽略AI建议的原因。所以使用AI增加了人类决策者的问责，可能导致人类更多地遵从算法。

但这并不意味着不能在影响力很大的情况下使用AI。依赖人类决策者的组织仍然需要控制人类下意识的偏见，AI可以帮助揭示这类偏见。亚马逊最终决定不再使用AI进行招聘，而是用AI检测目前招聘方式中的缺陷。结论就是在选择是否使用AI时，需要考虑算法相对人类决策者的公平性。

决策的范围和本质。研究表明，人类对AI的信任程度随着不同的决策类型而变化。如果是被认为相对机械化且有边界的任务，例如优化时间表或作图像分析，软件和人类受信任程度相同甚至更高。

但如果是主观决策或有变量（如量刑问题中，罪犯情况可能不尽相同），则人类判断更受信任，部分原因是人类有共情能力。这意味着企业需要非常小心地对外阐述应用AI做决策的本质和范围，以及为什么在这些情况下AI比人类的判断更适用。这里的区别很直观，不受决策后果严重与否影响。例如，运用AI处理医学扫描，人们很容易接受软件的优势：人类只能处理几千个数据点，但训练机器软件的数据库是数十亿。

而精神健康诊断可能就不适合应用AI，因为精神健康方面的因素是行为上的，难以定义且有具体情景影响。人们很难接受用机器处理依赖具体情景的情况。即便准确定义了关键变量，机器也不能完全理解其在不同人群中的变化——这也引出了下一个因素。

运营复杂性和规模化限制。一种算法在不同地区和市场中不一定都公平。例如，决定哪些消费者获得折扣的算法在全美人口中也许是公平的，但如果用在某地，比如曼哈顿地区，如果这个地方的消费者行为和态度不符合全国平均水平，且没有在训练算法时体现出来，算法就带有歧视性。平均数据会掩盖不同地区或不同人群中的歧视，避免歧视需要给每个子集定制算法。鉴于此，任何旨在降低地方性和小组人群偏见的监管都可能降低AI的规模化优势，而规模化优势正是使用AI的初衷。

调整市场变量会让算法更复杂，研发成本随之增加。为特定市场定制产品和服务同样极大增加了生产和监控成本。一切变量都会增加组织复杂性和运营费用。如果成本过高，企业也许会放弃部分市场。例如，因为GDPR，Gravity Interactive（作品有《仙境传说》和《梦幻龙族》）等开发商选择了短期内停止向欧盟出售产品。尽管多数企业会找到符合监管规定的方式（《梦幻龙族》去年5月重新在欧洲发行），但所需成本和丢失的机会是很重要的。

合规和治理能力。为遵守即将来临的（至少在欧美）更严格的AI监管，企业需要新的流程和工具：系统审计、文件记录和数据协议（用于可追溯性）。AI监控和多元化培训。一些企业已经针对不同利益相关者测试了每种新的AI算法，评估输出结果是否符合公司价值观、会不会招致监管问题。

谷歌、微软、宝马和德国电信公司正在制定正式的AI政策，在安全、公平、多样性和隐私方面做出承诺。联邦住房贷款抵押公司（Freddie Mac）等企业甚至任命了首席伦理官负责监督此类政策的制定和执行，在很多情况下由伦理治理董事会支持。

透明度：解释问题出在哪里

AI和人类判断一样并不全然可靠。算法不可避免地会做出一些不公平甚至不安全的决定。人类犯错时往往会被问责，决策者可能要承担法律责任。这有助于组织或社区理解并纠正错误决定，和利益相关者建立信任。那么我们应该要求甚至期待AI对自己的决定做出解释吗？监管者已向这个方向迈进。GDPR中提到“有权……得到（算法）决策达成过程的解释”，欧盟也在白皮书中和AI监管提案中将可解释性作为增加AI信任的关键因素。但是我们对因果关系的理解往往不够全面，机器决策的解释到底是怎样的东西？亚里士多德曾指出，这种情况下，比起解释如何得出结论的能力，更重要的是复制结果并以经验验证准确度的能力——企业可以通过对比AI预测和结果做到这点。考虑应用AI的企业领导者还需要思考两个因素：

需要解释到什么程度。AI算法的解释大致可分为两类，适用于不同情况。

全局解释是针对某个流程所有结果的完整解释，需要说明输入变量间的关系规则或公式。流程的公平性至关重要时，需要此类解释，例如针对资源分配的决定，利益相关者需要提前知道决策模型背后的逻辑。

针对算法给出全局解释看似直截了当：只需要共享公式。但是多数人缺乏理解这些公式所需的数学或计算机高级知识，更不用说判断公式中的变量关系是否合适。在机器学习里，AI软件的算法会对训练数据中不同变量间明显的关系进行描述——缺陷或偏见存在于数据，而不是算法之中，也许这是所有问题的根本原因。

此外，企业可能缺乏对自身算法工作原理的理解，面对监管部门对可解释性的要求，企业不仅需要查看数据和IT部门，还需要外部专家。比如甲骨文、SAP和salesforce等大型软件即服务提供商的产品往往整合了多个第三方供应商的AI部件。客户有时择优挑选并整合AI解决方案。但所有终端产品组成以及整合互连的原理都需要可解释。

本地解释要对某个具体结果背后的基本原理做出解释，例如为什么某个申请者（或者一类申请者）的贷款申请被拒绝，而另一类却获批。通常由可解释AI算法完成，这种算法能够向输出结果的接收方解释算法背后的依据。当个人需要知道针对自身决策背后的原因，但不能或无法看到其他人的相关决定时，就可以用这种方法。

本地解释可以采用回答问题的陈述形式。客户关键特征是什么？如果特征有所不同，决策或结果是否会变化？例如，如果两个申请人的唯一区别是一个24岁，一个25岁，那么解释就是第一个申请人如果超过24岁，贷款就会获批。问题在于这里的特征本身也许隐含有偏见。例如，申请人的住所邮编是关键，来自黑人居住区的合格申请人会因此被拒。

权衡利弊。最强大的算法必然不透明。比如中国阿里巴巴公司旗下的蚂蚁金服推出的MYbank网商银行，审批小额商业贷款AI只需三分钟，无需人工介入。该服务整合了包括电子商务平台销售信息在内的阿里生态系统的所有数据，通过机器学习预测违约风险，保持实时信用评级。

由于蚂蚁金服软件采用3000多种数据建模，几乎不可能清晰阐明得出具体评估结果的过程（更不用说做出全局解释）。很多最令人兴奋的AI应用都需要类似规模的算法输入。对AI解释性的严格要求可能会妨碍很多企业创新或增长的能力，包括但不限于B2B市场的定制付费条款、保险承保和自动驾驶汽车等领域。

企业在推出类似蚂蚁金服这样消费者和监管者都高度重视个体权利的服务时会面临挑战，特别是在欧美。企业想要使用这样的AI，需要解释清楚算法如何定义不同顾客的相似性，两个候选人之间的区别为何会导致不同的决策结果，为什么相似的顾客会获得来自AI的不同解释。

地理位置不同，对解释的期待也不同，这也会给全球化企业带来挑战。这些企业可以简单地在全球范围内统一采用最严格的解释性要求，但这样做明显会让它们在部分市场相比本土企业处于劣势。遵循欧盟规定的银行在预测借贷者违约几率方面，很难拥有蚂蚁金服那样准确的算法，结果可能在信贷要求方面更严苛。另一方面，采用不同的解释性标准可能会更复杂昂贵，因为本质上企业在为不同市场创造不同算法，可能需要增加更多AI来确保互动性。

但机会仍然存在。解释性方面的要求可以成为差异化来源。研发AI算法并拥有更强解释能力的企业会更容易赢得消费者和监管者的信任。这点具有战略性意义。例如，如果花旗银行可以提供和蚂蚁金服一样强大的审批小额贷款的可解释AI，必然会统治欧盟和美国市场，甚至有可能在蚂蚁金服占领的市场拥有一席之地。能否向大众解释服务和产品决策背后的公平性和透明度，对科技企业来说也是潜在的差异化优势。IBM研发出了帮助企业实现这点的产品：沃森OpenScale——AI赋能的企业数据分析平台。

说到底，尽管要求AI对其决策提供解释也许是增强公平性和提升利益相关者信任度的好方式，但代价高昂，有时并不值得。这种情况下唯一的选择是要么放弃使用AI，要么在冒险获得部分不公平的结果和整体获得更准确的结果间取得平衡。

学习并进化：形势不断变化

AI的独特性之一是学习能力；用越多的标出奶牛和斑马的图片训练算法的图像识别能力，算法识别奶牛或斑马的可能性越高。但持续学习也有缺点：虽然准确度可以随时间提高，但同样的输入每天产生的结果可能不同，因为算法在这段时间内接收的数据变了。要想弄清如何管理不断进化的算法以及是否在最初就允许持续性学习，企业需要关注三个因素：

风险和奖励。消费者对进化型AI的态度很大程度上取决于自己的风险回报计算。例如在保险定价中，学习型算法很可能为顾客提供比人工更符合其需求的结果，消费者可能对这类AI的宽容度更高。另一种情况下AI学习也许无人在意，例如推荐电影或书籍的AI会随消费者购买数据和评价选择的数据增多，安全地悄然进化。

但是，如果AI不公平或负面的决策结果会给人类带来很大的风险和影响，人类就没那么容易接受进化型AI了。比如说医疗设备，如果在没有监管的情况下发生变化，可能会给用户带来伤害。因此，一些监管者特别是美国食品药品监管局仅授权这些产品使用“锁定”算法，即不会随产品使用而不断进化的算法，因此相对稳定。对于这类产品，企业会针对同样的算法采用两个平行版本：一套不断学习但仅用于研发，另一套监管者审批通过的锁定版本用于商业用途。监管者审批通过后，持续进化的研发版会定期替代商用版。监管者担心持续学习会导致算法用极隐蔽的新方式产生歧视或变得危险。如果产品或服务的不公平会带来严重问题，其进化性会更受监管者关注。

复杂性及成本。广泛使用学习型AI会提高运营成本。首先，企业也许发现自己在不同地区、市场或环境下采用不同算法，每种都针对本地数据和环境设计。组织或许需要设置新的哨兵职位和流程，确保所有算法在监管风险范围内合规运营。首席风险官的工作范围也许要扩大到对自主AI流程的监管，以及评估企业愿意为进化型AI承担的法律、财务、名誉和自然风险。

企业必须在提升AI学习速率的标准实践和去中心化间找到平衡。能否打造并维护全球数据支柱，赋能企业数字化和AI解决方案？自身系统是否准备好去中心化存储和数据处理？是否准备好应对网络安全威胁？生产是否需要向终端顾客靠拢，这样做是否会让运营暴露在新风险中？能否在本土市场吸引足够的AI人才担任合适的领导职位？这些问题都要详细回答。

人力投入。人也会因为新数据或环境变化而调整自己的决策甚至改变思维模式。例如，如果竞争同一职位的面试者能力发生变化，或者招聘经理第二次面试时身体疲惫，都可能导致面对同样的应聘者两次做出不同决定。既然监管不会阻止人类的这类行为，那么AI因为新数据而进化也应该是被允许的，但是需要说服人们接受这一观点。

人们更容易接受的也许是让人类决策巧妙地辅助AI。2020年《哈佛商业评论》文章《部署AI的正确方式》（赛奥佐罗斯·沃金尼奥是作者之一）提出，AI系统可以作为“教练”使用，为员工（如资产管理公司的金融安全交易员）提供反馈和输入。但这不是单方面的：协作的大部分价值来自人类给算法的反馈。实际上Facebook已经通过Dynabench平台采用有趣的方式监控并加速AI学习过程——人类专家使用“动态对抗数据集”等方式欺骗AI，使其产生错误或不公平的结果。

人类积极提升AI能力，可以很快地发掘价值。最近一期TED演讲中，波士顿咨询公司的西尔万·迪朗东（Sylvain Duranton）讲述了某服装零售商如何通过将人类买手的专业知识输入AI预测服装趋势，从而一年省下1亿美元的故事。

由于企业对AI，特别是机器学习的依赖性不断增长，显著增加了企业面临的战略风险。企业需要积极为算法撰写规则手册。人类逐渐在审批贷款、给罪犯量刑等决策中使用人工智能分析，隐藏的偏见比例也逐步攀升。机器学习之下的复杂编程本质上是不透明的，这点令人沮丧。人们越来越担心为一群人开发的AI赋能工具是否可以针对其他群体做出安全决策。除非所有企业，包括没有直接涉及AI研发的公司能早日应对这些挑战，否则人类对AI赋能产品的信任会受到损害，引发不必要的限制性监管，后者不仅会破坏商业利润，还会破坏AI为消费者及社会提供的潜在价值。

弗朗索瓦·坎德龙是波士顿咨询公司董事总经理及高级合伙人，BCG亨德森研究所全球总监。鲁道夫·查尔梅·帝卡洛是波士顿咨询公司巴黎办公室合伙人。迈达斯·德波特是波士顿咨询公司布鲁塞尔办公室项目主管。赛奥佐罗斯·沃金尼奥是欧洲工商管理学院教授。

弗朗索瓦·坎德龙（François Candelon）

鲁道夫·查尔梅·帝卡洛（Rodolphe Charme di Carlo）

迈达斯·德波特（Midas de Bondt）

赛奥佐罗斯·沃金尼奥（Theodoros Evgeniou）| 文

牛文静 | 译蒋荟蓉 | 校时青靖 | 编辑

216.73.216.63