ChatGPT自2022年11月发布至今,热度始终不减,但与此同时,它也给企业管理者带来了新的挑战。一方面,企业领导者深知,绝不能忽视生成式AI大语言模型(LLM)的潜力;另一方面,各方对于其中的偏见、缺乏准确性和安全漏洞等问题也日益担忧,对这些模型难以充分信任。
在这样的背景下,负责任地使用大语言模型对于安全部署生成式AI至关重要。人们正在建立共识,认为人类必须参与到AI的工作过程中,这被称作“人在回路”(human-in-the- loop),即人类必须发挥监督和干预作用,算法则相当于正在见习的学徒。除此之外,我们必须制定负责任的AI原则,帮助用户正确理解AI模型及其局限性,识别AI生成的内容中,哪些需要经过人工筛选、事实检查,甚至彻底审核。
为此,埃森哲与麻省理工学院合作进行了一项研究,利用埃森哲The Dock创新中心开发的工具,识别大语言模型内容中的潜在错误,并且检测增加“信息摩擦”可以在多大程度上产生预期效果,即增强人类参与和干预的益处。实验结果表明,有意识地在审核大语言模型生成内容的过程中增加摩擦,可以提高准确性,但不会显著拉长完成任务所需的时间。这对企业更负责任地部署生成式AI应用程序具有积极意义。
摩擦实验,探索“人在回路”效率
在数字化客户体验领域,“摩擦”无疑是一个负面概念。所谓“ 摩擦”,是指信息在传递、获取或处理过程中由于各种因素导致的延迟、误解或失真现象。企业都在努力消除摩擦,以满足用户需求。但埃森哲研究显示,企业应当接纳有益摩擦,以此完善AI内容产出的过程。有益摩擦是指在工作流程或系统中有意引入的、轻微的阻碍或干预措施,目的是促使用户更加审慎地思考或检查他们的操作和决策。这种“摩擦”可以在许多情况下帮助提升工作质量和准确性。
我们的实验探究了这一假设。我们在大语言模型的输出内容中故意添加错误信息,然后衡量此举对于效率和准确性的影响。我们测试了对自动化AI应用程序有意识地嵌入结构性阻力,看看是否会减慢使用过程,并使用户更容易注意到潜在错误。我们认为,这将鼓励参与者使用逻辑思维,面对AI产出内容时更有意识、更为谨慎地评估内容准确性。
埃森哲和麻省理工学院合作探索,当大语言模型整合到商业研究专业人员熟悉的任务当中时,如果在大语言模型的输出内容中添加错误信息,是否会影响效率和准确性。具体研究方法是利用埃森哲开发的工具,模拟真实的工作条件,搜索和参考任何可用的信息来源,协助埃森哲研究人员在70小时内提交两份公司资料的内容概要(分别称为任务1和任务2)。最终,研究参与者得到了ChatGPT输出的文本,以及相应的提示词,他们可以根据自己的意愿决定使用其中多少内容。
研究中,我们增加了“有益摩擦”,即提供给参与者的ChatGPT输出内容和提示词以不同的颜色突出显示,各种颜色传达不同的含义⸺文本如果以紫色突出显示,则其与提示词中的表述,以及内部数据库和公开信息来源中的表述相匹配;以橙色突出显示的文字可能属于不真实的陈述,应考虑删除或替换;以蓝色突出显示的文字表示提示词中出现,但在输出时被省略的文本;那些经过甄别不属于上述类型的文本则不会突出显示。
参与者被告知埃森哲开发的这一工具带有这种突出显示功能,理想情况下,该工具将结合自然语言处理(NLP)技术和AI模型,根据预定义的事实来源核对所有输出内容,进而显示潜在的错误或遗漏。但出于本次实验的目标,我们特意加入了一些未突出显示的错误,以衡量在何种情况下增加摩擦会使参与者发现更多错误并提高准确性。
参与者被随机分配到以下三种情境:
• 在无摩擦的情境中(对照组),大语言模型生成的内容完全不含突出显示,与目前的生成式AI用户体验一致。
• 在中等摩擦情境中,大语言模型生成的内容包含两种基于提示词的突出显示,分别表示输出内容中可能存在错误和遗漏。
• 在完全摩擦情境中,大语言模型生成的内容包含三种基于提示词的突出显示,分别表明信息可能是正确、不正确,或输出内容有缺失。
我们的发现表明,引入摩擦可以促使用户更仔细地检查大语言模型生成的文本,帮助他们捕捉到不准确和遗漏之处。与任何一种带有摩擦的情境相比,无摩擦情境下(对照组)的参与者遗漏了更多的错误,任务1中高出31%,任务2中高出10%。此外,捕捉到遗漏的比例在无摩擦情境中为17%,而在完全摩擦情境中为48%,在中等摩擦情境中达到了54%。
正如预期的那样,引入摩擦确实付出了一定代价。与对照组相比,完全摩擦情境的参与者完成任务所需时间显著增加(任务1和任务2分别平均延长了 43%和61%)。不过,在中等摩擦情境下,与对照组相比,平均所用时长并未出现具有统计意义的显著差异。考虑到在没有生成式AI协助的情况下,每项任务通常平均需要一至两个小时,我们认为这种时间付出是可接受的。因此,引入中等强度摩擦的第二种情境,得以在优化精度和保持效率之间取得平衡。
三项行动建议
实验结果表明企业可以采取如下行动,帮助员工更有效地将生成式AI工具融入他们的工作,并且更充分地识别潜在错误与偏见。
一、精心设计提示词
我们发现,参与者最终提交内容与大语言模型生成的内容非常相似,以自然语言处理相似度分析衡量,相同内容达60%~80%。这表明,即使被要求仅将 AI输出内容作为写作素材之一,AI输出内容还是成为了参与者们的创作基础。这凸显了仔细考虑大语言模型提示词的重要性,因为其输出信息会为内容的最终版本设定基本框架,即使该信息可能与决策无关或不准确。最近的研究指出,这种锚定效应在某些情况下或许能够产生益处,但前提是生成式AI输出高质量的内容,并且可以对容易出错的部分起到补充作用。不过,考虑到大语言模型生成的文本和人类参与者的最终提交内容之间存在高度相似性,锚定效应也可能将用户引入歧途。
二、谨记:过度自信有害无益
突出显示错误的确能够引起参与者的注意,进而通过纠错提高准确性。然而,在面对后续调查题目“我比他人更清楚地知晓使用生成式AI时要寻找的错误类型”时,三种摩擦情境下参与者的回复几乎没有差异。由此可见,使用者很可能高估了自身识别 AI错误的能力,我们有必要对此保持谨慎。利用使潜在错误更加明显的摩擦增强工具,可以减少用户的过度自信,帮助他们校准对于生成式AI内容的信任程度。此外,我们还发现,突出显示错误并未显著影响参与者心目中对大语言模型工具的信任度,以及他们的使用意愿。
三、实验,再实验,反复实验
企业在部署AI工具和模型之前,必须测试员工会如何与之互动,及其如何影响准确性、速度和信任。正如上文所述,我们观察到了参与者的自我认知和实际错误检测结果的显著落差。我们强烈呼吁企业通过实验,充分了解怎样最有效地提升员工在“人在回路”系统中的作用,并测量此举对员工理解力、行为模式及偏见的影响。
大语言模型的易用性和广泛可用性,使得其在许多企业中迅速普及,尽管其准确性问题尚未解决。我们必须想方设法来增强人工监督和介入,在处理AI生成的输出内容时提高准确性和效率。我们的研究证明,位于“人在回路”中的员工可以对AI系统发挥重要的干预作用,而有益的摩擦能够推动用户切实履行责任,确保内容质量。