“ChatGPT等大型语言模型自解释在情感分析中的效果如何？对性能、成本和可解释性进行深入剖析”

像GPT-3这样的语言模型被设计为中立的，它们根据它们在数据中学习到的模式生成文本。它们没有固有的情绪或情感。如果用于训练的数据存在偏见，这些偏见可能会反映在模型的输出中。然而，它们的输出可以根据上下文和输入的情况解释为正面的、负面的或中性的。文本的上下文对于确定情感至关重要。一句话在孤立情况下可能是负面的，但在更广泛的文本上下文中可能是正面的。大型语言模型考虑了周围的文本，但理解上下文可能是具有挑战性的。

对于存在歧义、讽刺或混合情感的文本，情感分析可能会很困难。大型语言模型可能无法正确解释这些细微差别。错误分类或误用情感分析可能会产生现实世界的后果。我们需要考虑这些影响并负责任地使用人工智能。加州圣克鲁兹分校的研究人员分析了ChatGPT和GPT-4等各种模型的情感行为。他们评估了LLM生成功能归属的能力。

在评估中，他们研究了两种生成方式。他们比较了在预测之前生成解释和在预测之后生成解释的方式。在这两种方法中，他们要求模型开发一个完整的特征归属解释列表，其中包含每个单词的重要性得分，并要求模型返回前k个最重要的单词。他们将它们与可解释性方法如遮挡和局部可解释的模型无关的解释相比较。这两种技术用于解释和说明复杂模型的预测，在机器学习和深度学习中使用。

还需要根据输入特征评估这些模型。人们必须评估模型对输入特征值微小扰动的响应，使用梯度显著性、平滑梯度和综合梯度等代表性方法。研究人员采用一种称为遮挡显著性的新方法，他们评估了模型对删除各种特征的各种输入的响应。为了捕捉非线性相互作用，他们同时删除多个特征，将特征的重要性定义为线性回归系数，并对其进行评估。

根据忠实度评估，他们的结果表明，没有一个自动生成的解释在其他解释上具有明显的优势。根据协议评估，它们之间差异很大。因此，一些解释可能比当前的解释好得多，可能需要新的技术来揭示它们。

这种思维链生成可以被认为是模型的解释。它通常有助于最终答案的准确性，尤其是在复杂的推理任务上，比如解决数学问题。因此，团队的未来工作包括评估GPT-4、巴德和克劳德等LLMs。他们将开展一项比较研究，以了解这些模型如何理解自身。他们还希望进行关于反事实解释和基于概念的解释的研究。