阿里巴巴的研究人员提出了INSTAG：一种利用像ChatGPT这样的现代聊天机器人的指令跟随能力的开放集细粒度标记器

阿里巴巴的研究人员提出了INSTAG：一种利用像ChatGPT这样的现代聊天机器人的指令跟随能力的开放集细粒度标记器四海第1张

你有没有考虑过像ChatGPT这样的大型语言模型如何获得遵循指令的能力？各种基础语言模型通过监督微调（SFT）来获得这种能力。SFT的成功关键因素是数据集的多样性和复杂性。它们的定性分析和定义需要更加清晰。

阿里巴巴达摩院的研究人员提出了一种名为“InsTag”的开放集合细粒度标记器，根据语义和意图对SFT数据集中的样本进行标记，以定义任务的指令多样性和复杂性。他们声称，随着数据的复杂性和多样性增加，模型的能力也会增长。

研究人员还提出了一种基于InsTag的数据选择器，从开源数据集中选择6K个多样性和复杂性样本，并在InsTag选择的数据上进行模型微调。他们声称，包含各种语义和特点的大范围训练数据对于与人类预期完全一致的良好对齐LLM具有重要意义，可以准确识别人类意图并以自然语言形式适当地规范回应。

InsTag是一种由高性能聊天机器人ChatGPT赋能的自动指令标记方法。它是一个框架，自动提示ChatGPT为查询分配标签。ChatGPT使用系统化的标签规范技术来解释每个分配的标签。当InsTag应用于现有的开源数据集时，它构建了开放集合、经过精细训练的标签，并进一步详细分析以获得基于复杂性和多样性的分布。使用InsTag选择器选中的数据进行LLM微调在MIT-Benchmark上表现更好。

在尝试使用ChatGPT生成意图标签时，研究人员确定了三种类型的噪音。由于ChatGPT在遵循输出格式指令方面的不稳定性，会产生词法噪音。过于具体的标签会创建不受控制的细粒度，导致噪音。由于ChatGPT的偏见，一些标签经常同时出现，导致虚假相关性。

为了解决这些问题，他们使用格式、语义和关联等各个方面对开放集合的标记结果进行规范化。他们首先过滤掉出现次数少于特定集合参数（称为超参数，与数据集的规模相关）的长尾标签。所有标签都转换为小写字符，以避免大写字母的影响。最后，对每个标签应用词干提取技术，词干提取是一种通过去除词缀来提取单词的基本形式的技术。

研究人员选择了13B版本的LLaMA进行微调，同时还进行了其他类似的LLM比较。他们的结果显示，他们的模型在MIT-Bench上取得了6.44的平均分，优于所有开源对齐的LLM。

总之，研究人员表示，他们提出的InsTag为更深入理解LLM对齐中的查询分布提供了一种新的视角。它具有广泛的潜力，可扩展到更多应用领域，如全面评估和基于标签的自我指导。