Press "Enter" to skip to content

做出正确决策: AI咨询、决策工具和LLMs的承诺

探索使用LLMs进行决策的新时代

来自Robert Ruggiero在Unsplash上的照片

介绍

人工智能的民主化导致了人工智能系统在各个领域的采用。最近的一波生成模型,如预训练的大型语言模型 (LLMs),已经广泛应用于日常生活中的各种活动,从通过帮助撰写电子邮件来增加生产力,到帮助解决新手和专业作家的“空白页面”难题。由于对LLMs在决策过程中的依赖越来越多,本文综合了人类决策和人工智能决策的发展,并反思了LLMs在决策任务辅助方面提供的机会以及对LLMs在决策中依赖的威胁。

人类决策

在一个几乎每个日常生活中都面临不断增加的选择范围的世界中(例如,要购买的食物或穿的衣服,要阅读的书籍,要听的音乐,要观看的电影,从生活方式选择到旅行目的地),决策质量引起了人们的关注。巴里·施瓦尔茨在公元千禧年之交的技术进步推动下,揭示了这种决策困难的“选择悖论” [12]。施瓦尔茨通过一个医生给患者提供多种治疗方案的例子,说明了高风险决策的负担从专家医生转移到了非专业患者身上。选择过多往往会妨碍有效的人类决策。

从进化心理学到认知科学和神经科学等不同的研究领域,都探索了人类决策的性质和影响决策过程的各种因素 [2,10]。众所周知,人类决策受到认知偏见的困扰,并带有非理性的色彩。这在诺贝尔奖获得者丹尼尔·卡尼曼在《思考, 快与慢》一书中最为著名地得到了记录 [6]。

来自Robynne Hu在Unsplash上的照片

人工智能决策

技术的出现推动了决策支持系统的增长,这些系统可以帮助人们克服决策过程中的障碍。决策支持系统在更广泛的社会技术环境中以各种形式存在,从驱动用户交互的算法到辅助用户进行预测和预测的复杂机器学习模型。例如,推荐系统可以通过向用户提供最满足其需求的内容或产品来帮助用户。其他算法系统可以通过大量数据挖掘来为用户在众多决策任务中提供建议。

所有人工智能与人类决策搭配的核心目标是通过将人类智能与算法系统的计算能力相结合,提高决策的效果。然而,在实际世界中,许多人工智能与人类决策过程并没有如此顺利。人类在决策任务中未能适当地依赖人工智能系统,导致了团队绩效的不佳。适当的依赖被概念化为当人工智能系统正确时,人类依赖其建议;当人工智能系统错误时,人类依赖自身决策 [11]。影响这种结果的因素有很多——人类因素(例如,领域知识,对技术交互的好感,先前经验);系统因素(例如,人工智能系统的准确性或置信度);任务因素(例如,任务复杂性,任务的不确定性,利害关系)。

针对各种背景下的人工智能与人类决策的经验性探索,包括贷款申请决策和医疗诊断,已经表明,人类要么对人工智能建议过于依赖而失去改善决策结果的机会,要么对人工智能建议不够依赖而获得亚优结果。为了解决过度依赖和不足依赖的问题,促进对人工智能建议的适当依赖,先前的研究提出了使用解释 [13],认知强制功能(即在决策过程中强制进行临床考虑和反思的干预措施)[4],传达人工智能系统优缺点的教程或培训课程以及增加广大人口的人工智能素养的倡议。最近的研究提出了一个名为“评价AI”的替代框架,以促进对人工智能建议的适当依赖。该框架提出决策支持工具应提供支持或反对人们所做决策的证据,而不是提供接受或拒绝的建议 [7]。

认知偏见也影响了人类-人工智能的决策[1, 3]。Rastogi等人认为[9],我们对决策任务的普遍观念和理解可能被认知偏见,如确认偏见、锚定偏见和可用性偏见所扭曲。他们探讨了锚定偏见的作用,并提出了减轻其对协作决策绩效的负面影响的方法。He等人[22]表明,决策偏差效应是一种元认知偏见,可以影响人们对人工智能系统建议的依赖程度。他们揭示了自我高估能力或绩效的用户倾向于在决策任务中对人工智能系统的依赖度不足,从而阻碍了团队的最佳绩效。其他因素,如算法厌恶和欣赏,也被证明对人工智能决策具有影响力[17]。

尽管在人类-人工智能协作的广泛领域有着持续的研究工作,但在决策任务中培养对人工智能系统的适当依赖仍然是一个尚未解决的问题。人工智能、机器学习和人机交互交叉领域的不同研究社区正积极努力推进我们对这一领域的理解,并开发可以帮助我们从人工智能协作的潜力中受益的方法、工具和框架。

目前,大型语言模型(LLMs)已在各个领域得到广泛应用和采用。在本文的剩余部分,我们将探讨LLMs在辅助人类决策以及与潜在益处交织在一起方面提供的机会。

用于决策任务的LLMs

尽管LLMs显示出偏见并有可能造成伤害,但它们在各种社会技术系统中的应用越来越多。话虽如此,它们也展示了在规模上产生积极影响的潜力 – 例如,通过由生成LLM驱动的审计工具所示,Rostagi等人[8]证明了它们在支持审计过程方面的作用。作者们提出利用人类和生成模型之间的互补优势,在商业语言模型的协作审计中使用LLMs。Wu等人[14]提出了AutoGen,一个能够使用多代理对话完成复杂LLM工作流的框架。AutoGen能够支持游戏或网络交互等在线决策任务。

一方面,有证据表明像GPT-3这样的LLMs表现出极其类似人类直觉的行为,和由此带来的认知错误[16]。最近的研究强调了使用ChatGPT进行放射学决策的可行性,可能改善临床工作流程和负责任使用放射学服务[18]。为了增强决策过程中的人工智能安全性,Jin等人[15]致力于复制和赋予LLMs在破解规则时的能力,尤其是在新颖或异常情况下。另一方面,LLMs可能无意中对边缘化群体持有刻板印象[20],并涉及种族、性别、宗教和政治取向等偏见。类似于在决策支持系统中培养适当的信任和依赖的挑战,如果人类要依赖LLMs进行决策,我们需要更好地理解这种互动的益处和 pitfalls 。LLM驱动的互动任务中一个特别突出的风险是交流互动的表面易观察性。先前的研究已经揭示了在决策任务中使用解释所创造的幻象深度的作用,在人工智能系统上过度依赖。如果将人类与决策支持系统的互动变得更加无缝(例如,通过交互式或对话界面),我们可以预期会发现更多不适当依赖的情况。

通过架构和超参数的角度来研究LLMs变得越来越困难。在这一时刻,有充分的证据表明生成型人工智能能够产生可应用于善意或被滥用以造成伤害的高质量书面和视觉内容。波茨坦曼等人[19]认为,对LLMs输出所负的信用-责任不对称性引发了伦理和政策方面与LLMs相关的问题。

下一步需要做什么?

显然,还需要更多研究和实证工作,以确保在决策任务中安全而可靠地使用LLMs。特别是考虑到目前在多模态和多语言LLMs方面存在的限制。以下是一些关键问题的汇编,确定我们可以通过将LLMs与日常决策结合起来从中获得一致的益处的程度:

  • 我们如何促进对LLMs或融入LLMs的系统的适当依赖,以实现有效的决策?
  • 我们如何提高LLM融入决策支持系统的健壮性、可靠性和值得信赖性?
  • 我们如何在多模态和多语言的决策环境中培养对LLMs的适当信任和依赖?
  • 在决策任务中,如何通过LLMs平等地支持具有不同能力、个人特征、先前知识、教育和资格以及其他人口统计学的人?

因此,如果您的指尖有一个LLM,请不要着急依赖它作为黑匣子决策辅助工具!

Dr. ir. Ujwal Gadiraju是荷兰第尔夫特理工大学的终身助理教授。他共同主导第尔夫特“Design@Scale” AI实验室,并共同领导了人类中心的AI和众包计算研究领域。他是ACM的杰出演讲者,也是CHI荷兰的董事会成员。Ujwal部分时间在Toloka AI与他们的AI、数据和研究团队一起工作,并担任增长中的MLOps公司Deeploy的顾问委员会成员。

参考资料

  1. Bertrand, A., Belloum, R., Eagan, J. R., & Maxwell, W. (2022年7月). 认知偏见如何影响XAI辅助决策:系统回顾。在2022年AAAI/ACM AI、伦理和社会会议的论文集中(pp. 78–91)。
  2. Bossaerts, P., & Murawski, C. (2017年). 计算复杂性与人类决策。 认知科学趋势, 21(12), 917–929。
  3. Boonprakong, N., He, G., Gadiraju, U., van Berkel, N., Wang, D., Chen, S., Liu, J., Tag, B., Goncalves, J. 和 Dingler, T. (2023年). 理解和减轻人工智能与人类协作中的认知偏见研讨会。
  4. Buçinca, Z., Malaya, M. B., & Gajos, K. Z. (2021年). 相信还是思考:认知强制功能可以减少在AI辅助决策中对AI的过度依赖。 ACM人机交互会议论文集, 5(CSCW1), 1–21。
  5. Haupt, C. E., & Marks, M. (2023年). AI生成的医学建议——GPT及更多。Jama杂志, 329(16), 1349–1350。
  6. Kahneman, D. (2011年). 快与慢的思考。麦克米兰。
  7. Miller, T. (2023年6月). 可解释的AI已死,长命可解释的AI!基于假设的决策支持使用评估AI。在2023年公平性、问责性和透明性ACM会议的论文集中(pp. 333–342)。
  8. Rastogi, C., Tulio Ribeiro, M., King, N., Nori, H., & Amershi, S. (2023年8月). 在审计LLM并与LLM合作方面支持人工智能协作。在2023年AAAI/ACM AI、伦理和社会会议论文集中(pp. 913–926)。
  9. Rastogi, C., Zhang, Y., Wei, D., Varshney, K. R., Dhurandhar, A., & Tomsett, R. (2022年). 快速和慢速的决策:认知偏见在AI辅助决策中的作用。ACM人机交互会议论文集, 6(CSCW1), 1–22。
  10. Santos, L. R., & Rosati, A. G. (2015年). 人类决策的进化根源。心理学年度评论, 66, 321–347。
  11. Schemmer, M., Hemmer, P., Kühl, N., Benz, C., & Satzger, G. (2022年). 我应该遵循基于AI的建议吗?测量人工智能决策中适当的依赖性。arXiv预打印arXiv:2204.06916。
  12. Schwartz, B. (2004年). 选择的悖论:为什么越多越少。纽约。
  13. Vasconcelos, H., Jörke, M., Grunde-McLaughlin, M., Gerstenberg, T., Bernstein, M. S., & Krishna, R. (2023年). 解释可以减少在决策过程中对AI系统的过度依赖。ACM人机交互会议论文集, 7(CSCW1), 1–38。
  14. Wu, Qingyun, Gagan Bansal, Jieyu Zhang, Yiran Wu, Shaokun Zhang, Erkang Zhu, Beibin Li, Li Jiang, Xiaoyun Zhang, and Chi Wang. AutoGen:通过多代理对话框架实现下一代LLM应用程序。arXiv预打印arXiv:2308.08155 (2023)。
  15. Jin, Z., Levine, S., Gonzalez Adauto, F., Kamal, O., Sap, M., Sachan, M., Mihalcea, R., Tenenbaum, J.和Schölkopf, B. (2022年). 什么时候可以有例外:探索语言模型作为人类道德判断的解释。神经信息处理系统进展, 35, pp.28458–28473。
  16. Hagendorff, T., Fabi, S., & Kosinski, M. (2022年). 机器直觉:揭示GPT-3.5中类似人类直觉决策。arXiv预打印arXiv:2212.05206。
  17. Erlei, A., Das, R., Meub, L., Anand, A., & Gadiraju, U. (2022年4月). 为了什么而值得:人类可以改写经济自利来避免与AI系统谈判。在2022年CHI人机交互会议的论文集中(pp. 1–18)。
  18. Rao, A., Kim, J., Kamineni, M., Pang, M., Lie, W., & Succi, M. D. (2023年). 以ChatGPT作为放射学决策辅助的评估。medRxiv, 2023–02。
  19. Porsdam Mann, S., Earp, B. D., Nyholm, S., Danaher, J., Møller, N., Bowman-Smart, H., … & Savulescu, J. (2023年). 创造性AI涉及信任-责备的不对称性。自然机器智能, 1–4。
  20. Dhingra, H., Jayashanker, P., Moghe, S., & Strubell, E. (2023年). 同志首先是人:解构海量语言模型中的性别身份刻板印象。arXiv预打印arXiv:2307.00101。
  21. He, G., Kuiper, L., & Gadiraju, U. (2023年4月). 了解“了解”:人类能力幻觉可能妨碍对AI系统的适当依赖。在2023年CHI人机交互会议的论文集中(pp. 1–18)。
Leave a Reply

Your email address will not be published. Required fields are marked *