数据小时：将ChatGPT幻象减少80%

介绍

自然语言处理（NLP）模型在近年来变得越来越受欢迎，应用范围从聊天机器人到语言翻译。然而，在NLP中最大的挑战之一是减少ChatGPT模型生成的虚假或错误的回答。在本文中，我们将讨论减少NLP模型中幻觉的技术和挑战。

数据小时：将ChatGPT幻象减少80% 四海第1张

可观察性、调整和测试

减少幻觉的第一步是提高模型的可观察性。这涉及建立反馈循环，以捕获用户反馈和模型在生产中的表现。调整包括通过添加更多数据、纠正检索问题或更改提示来改进不良回答。测试是必要的，以确保改变改善结果并且不会导致回归。在可观察性方面面临的挑战包括客户发送糟糕回复的截图，导致用户沮丧。为了解决这个问题，可以使用数据摄取和秘密代码每天监控日志。

调试和调整语言模型

调试和调整语言模型的过程涉及理解模型的输入和输出。为了调试，需要记录以识别原始提示并将其过滤为特定的部分或参考。日志需要对任何人来说都是可操作和易于理解的。调整涉及确定应该输入模型的文档数量。默认的数量并不总是准确的，相似性搜索可能无法得到正确的答案。目标是找出出了什么问题以及如何修复。

优化OpenAI嵌入

数据小时：将ChatGPT幻象减少80% 四海第2张

一个向量数据库查询应用程序的开发者面临了优化应用中使用的OpenAI嵌入性能的挑战。第一个挑战是确定传递给模型的最佳文档数量，通过控制分块策略和引入可控的超参数来解决这个问题。第二个挑战是提示的变化，通过使用一个名为Better Prompt的开源库来解决，该库根据困惑度评估不同版本的提示性能。第三个挑战是改进OpenAI嵌入的结果，在多语言场景中，OpenAI嵌入性能比句子转换器更好。

AI开发中的技术

本文讨论了AI开发中使用的三种不同技术。第一种技术是困惑度，用于评估给定任务上提示的性能。第二种技术是构建一个允许用户轻松测试不同提示策略的软件包。第三种技术是运行索引，当有遗漏或不理想的情况时，更新索引以进行更动态的问题处理。

使用GPT-3 API计算困惑度

数据小时：将ChatGPT幻象减少80% 四海第3张

演讲者讨论了他们使用GPT-3 API根据查询计算困惑度的经验。他们解释了通过API运行提示并返回最佳下一个标记的对数概率的过程。他们还提到了将大型语言模型微调以模仿特定写作风格而不是嵌入新信息的可能性。

评估对多个问题的回答

文章讨论了评估一次50多个问题的回答的挑战。手动评分每个回答需要很多时间，因此公司考虑使用自动评估器。然而，简单的是/否决策框架是不够的，因为回答不正确可能有多个原因。公司将评估分解为不同的组件，但发现单次运行自动评估器不稳定和不一致。为了解决这个问题，他们对每个问题运行了多次测试，并将回答分类为完美、几乎完美、不正确但包含一些正确信息或完全不正确。

减少NLP模型中的幻觉

演讲者讨论了他们减少自然语言处理模型中幻觉的过程。他们将决策过程分为四个类别，并为50多个类别使用了自动功能。他们还将评估过程推广到核心产品中，允许运行和导出到CSB的评估。演讲者提到了一个GitHub存储库，以获取有关该项目的更多信息。然后，他们讨论了他们采取的减少幻觉的步骤，包括可观察性、调整和测试。他们能够将幻觉率从40%降低到低于5%。

结论

减少NLP模型中ChatGPT的幻觉是一个复杂的过程，涉及到可观察性、调整和测试。开发人员还必须考虑提示的变化，优化嵌入和评估对多个问题的回答。在AI开发中，诸如困惑度、构建测试提示策略的包和运行索引等技术也非常有用。AI开发的未来在于小型、私有或任务特定的元素。

主要要点

减少NLP模型中ChatGPT的幻觉涉及到可观察性、调整和测试。
开发人员必须考虑提示的变化，优化嵌入和评估对多个问题的回答。
在AI开发中，诸如困惑度、构建测试提示策略的包和运行索引等技术也非常有用。
AI开发的未来在于小型、私有或任务特定的元素。