来自南加州大学和微软的研究人员提出了UniversalNER：一种新的AI模型，通过有针对性的蒸馏训练，可以识别13000多种实体类型，并在43个数据集上以9%的F1值超过ChatGPT的NER准确性

I had trouble accessing your link so I’m going to try to continue without it.

来自南加州大学和微软的研究人员提出了UniversalNER：一种新的AI模型，通过有针对性的蒸馏训练，可以识别13000多种实体类型，并在43个数据集上以9%的F1值超过ChatGPT的NER准确性四海第1张

ChatGPT和其他大型语言模型（LLM）展示了令人印象深刻的泛化能力，但它们的训练和推理成本通常是不可承受的。此外，对模型权重和推理概率的白盒访问在诸如医疗保健等关键任务应用中经常至关重要，以实现可解释性和信心。因此，指导调整作为一种将LLM压缩为更经济实惠和透明的学生模型的方法已经变得越来越受欢迎。这些学生模型已经展示出模仿ChatGPT的令人信服的能力，就像Alpaca和Vicuna一样。仔细观察发现，它们仍然需要赶上理想的LLM，特别是在特定目标应用中。

由于计算资源有限，通用蒸馏只能在所有可想象的应用中创建原始LLM的表面近似。相反，他们在这项研究中研究了有针对性的蒸馏，通过面向任务的指导调整来训练学生模型，用于开放信息提取等多样化的应用类别。他们证明了在保持其跨语义类型和领域的泛化能力的同时，这可以最大程度地复制LLM在指定应用类别中的能力。由于命名实体识别（NER）是自然语言处理中最基本的问题之一，他们选择了它作为案例研究。最近的研究表明，当有许多注释实例时，LLM仍然需要赶上最先进的监督系统的实体类型。

然而，对于大多数对象类型来说，大多数对象类型都很难进行注释。开发注释示例的成本高昂且耗时，特别是在需要专业知识的生物学等高价值领域。新的实体类型不断涌现。由于受过预先指定的实体类型和领域的训练，监督NER模型在新领域和实体类型上的泛化能力也较差。他们概述了LLM有针对性蒸馏的通用过程，并展示了开放域NER如何使用它。来自南加州大学和微软研究院的研究人员展示了如何利用ChatGPT从大量未标记的在线文本中创建NER的指导调整数据，并使用LLaMA创建UniversalNER模型（简称UniNER）。

他们提出了迄今为止最大、最多样化的NER基准（UniversalNER基准），包括来自9个不同学科的43个数据集，包括医学、编程、社交媒体、法律和金融。LLaMA和Alpaca在这个基准测试中表现不佳（约为0 F1）在零-shot NER上。相比之下，Vicuna在平均F1上表现明显更好，但仍然比ChatGPT落后20个绝对点以上。与此相反，UniversalNER在平均F1上超过Vicuna超过30个绝对点，并在UniversalNER基准测试中实现了最先进的NER准确性，涵盖了数以万计的实体类型。除了复制ChatGPT识别任何实体的能力（7-13亿个参数），UniversalNER在平均F1上还超过了其NER准确性7-9个绝对点。

令人惊讶的是，UniversalNER明显超过了使用监督NER实例的最先进的多任务指导调整系统，如InstructUIE。他们还进行了广泛的消融测试，以评估不同蒸馏组件（如指导提示和负采样）的影响。他们将提供他们的蒸馏配方、数据和UniversalNER模型，并提供一个交互式演示，以帮助进一步研究有针对性的蒸馏。