探索荷兰新闻数据集中的命名实体的使用

在荷兰公共广播基金会NOS,我们的编辑团队每天撰写数百篇新闻文章。这些文章不仅向荷兰公民提供新闻信息,而且从自然语言处理的角度来看,也构成了一个有趣且高质量的数据集。作为NOS的数据科学家,我在这篇博客中报告了我们在荷兰新闻文章数据集上应用命名实体识别(NER)进行的几个实验,并提出了关于如何在新闻背景下应用NER的几个想法。
什么是命名实体?
命名实体(NE)是一种特殊类型的单词,它指代具有特定名称的现实世界对象,例如人物、地点或组织。存在自动识别这些类型单词的模型,称为命名实体识别(NER)模型。下图右侧显示了将这种NER模型应用于我们文章摘录的示例,其中命名实体被突出显示并用命名实体类型进行注释。
在荷兰语中,有一些预训练模型可用,如spaCy [1]、Flair [2]或NTLK [3]。我们对这三个模型进行了定性评估,通过将它们应用于我们文章的随机样本,并手动检查结果。基于此,我们决定在后续实验中使用spaCy。下图左侧是该模型可能识别的所有NE类型的概述。

使用spaCy的预训练模型,我们将NER应用于数据集的几个子集。我们首先收集了一个月(2023年2月)的所有文章,将数据分为新闻和体育两类(分别为1,030篇和596篇文章),然后应用NER以获得每种NE类型的总频次计数。新闻和体育的结果如图2所示,立刻展示了NE在新闻中的重要性。可以看到,在仅仅一个月的文章中,数以万计的NE被提及。为了对比,一篇文章平均包含404个单词,约有10%的单词是NE。如下图所示,新闻和体育中最常提到的NE类型不同。对于新闻来说,大部分NE类型是国家,其次是组织和个人。而对于体育来说,最常见的NE类型是个人,其次是国家和数字。这可能可以解释体育中提到分数(基数词)和个人运动员(人名),而新闻报道的事件通常需要提到位置(地名)。

NER为我们的数据提供了新的视角
我们进行了一个案例研究,使用了2022年世界杯足球的所有文章,总共482篇文章。我们对数据集应用了NER来检测所有类型为“人”的命名实体。找到了2,171个独特的命名实体,其中有1,296个仅被提及一次。在图3A中,我们呈现了在此事件中被提及最频繁的人的概览。此外,针对被提及最频繁的人,我们创建了一个流图,展示了提及频率随时间的变化,如图3B所示。例如,这显示了范·哈尔(van Gaal)在整个比赛中经常被提及,而其他人则主要在特定的日子被提及。这种图表可以为我们的编辑团队提供新的见解,因为它们是NOS所写内容的定量反映。这些见解通过NER的高效能力得以实现。目前,我们只针对了2022年世界杯,但可以想象出许多不同的环境,这些图表可能会很有趣。例如,考虑在选举期间提到的政治家或政党,或者更一般地说,更长时间范围内国家、城市、组织等的提及频率。

关于[你的命名实体在这里]的一切
我们进一步进行了对2022年世界杯的所有文章的案例研究,并提出了一个问题:“我们可以使用NER为命名实体生成摘要吗?”我们首先开发了一个模块,用于收集提及给定命名实体的所有文章,这可以作为对特别关注该命名实体的用户提供的所有可用信息的集合。但更有趣的是,该模块收集了该集合中提及该命名实体的所有句子,从而生成了该集合的摘要。例如,我们将该模块应用于安德里斯·诺普特(Andries Noppert),荷兰国家队的守门员。从图3中可以看出,诺普特在比赛期间被频繁提及。对诺普特应用该模块的结果是生成了一个相当完整地概述了我们守门员的引人注目的故事的摘要,如下所示,已从荷兰语翻译:
-------------------------------------------------- -------------------------------------------------- --------------------2022-11-11 - 诺普特是作为点球杀手加入的吗?-------------------------------------------------- -------------------------------------------------- --------------------2022-11-16 - sc Heerenveen的守门员安德里斯·诺普特是卡塔尔的第十九位顶级联赛球员。-------------------------------------------------- -------------------------------------------------- --------------------2022-11-20 - “不要担心卡塔尔和厄瓜多尔”和“在球门上失败是一种赌博”分析师Leonne Stentler和Pierre van Hooijdonk一致认同。 - 范·哈尔(van Gaal)没有对诺普特的基本位置发表任何言论,但暗示Gakpo在10号位置。据多家媒体报道,28岁的安德里斯·诺普特(Andries Noppert)效力于sc Heerenveen,在周一对阵塞内加尔的橙色队中将首次亮相。
一种面向命名实体的推荐系统
到目前为止,我们已经看到新闻文章中存在大量的命名实体,并且应用命名实体识别可以提供一些有趣的见解。在这篇博客中,我们还有一个实验想要分享,与研究问题“我们能否使用命名实体识别来改进我们的基于内容的推荐系统?”相关。我们之前开发了一个基于内容的推荐系统,最近已经集成到我们的新闻应用中。通过在线和离线测试,我们比较了各种模型和优化方法,现在我们观察到我们应用中的点击率有所增加。这是个好消息,但我们始终在寻找进一步改进我们的推荐系统的方法。我们收到了编辑团队的反馈,称推荐器对包含荷兰语中常见单词的人名或地名的文章感到困惑。在下一节中,我们将报告一项使用命名实体识别的实验,以尝试解决这种模糊性。
实验
我们当前的推荐系统基于使用TF-IDF进行文本向量化的余弦相似度。这基本上意味着它主要依靠单词重叠来识别相似的文章,但会对罕见单词赋予更高的相关性。可以想象,当单词具有多个含义时,这种方法无法胜任,而这可能是命名实体的情况。举个例子,考虑一篇关于高尔夫球手老虎伍兹的文章:一个基本的推荐系统可能会找到提到动物老虎或关于树木的相关文章。这些显然不是有用的推荐。我们假设通过在文本中注释命名实体类型,引入命名实体意识到我们的推荐器中,可以解决这个问题。在这种情况下,标记不再重叠,如图5所示。

我们使用人名、地名、组织名和所有这些类型的组合来实现命名实体感知。我们使用由我们的编辑团队手动注释的测试集来评估各种模型,并包含有关相关文章的信息。该测试集包含14,541篇独特的文章,平均每篇文章链接到约2篇其他文章。作为评估指标,我们计算了在排序推荐中策划的链接文章的平均排名。
图6显示了我们基本模型和各种命名实体感知模型的结果。可以看到实际上我们的基本模型胜过所有类型的命名实体感知模型。理论上,引入命名实体感知会改进推荐器,但实际上我们看到它引入了更多的模糊性而不是解决问题。我们详细研究了各种模型的输出,并发现我们受到命名实体识别模型性能的限制。spaCy的命名实体识别模型在他们自己的测试集上的F1得分为0.77,但在应用于其他数据集时,该得分可能会降低,因此可以预期该模型偶尔会不准确。通过对一些命名实体感知模型输出的推荐进行手动检查,我们发现与TF-IDF结合使用时,错误检测到的命名实体的影响相当大。对于错误检测到的命名实体的文章,输出的推荐经常包含相同错误分类的命名实体。例如,我们看到一篇包含“hindsight”一词的文章被分类为“人名”类型的命名实体,导致推荐结果中包含了相同错误分类的“hindsight”命名实体。虽然在这种情况下命名实体识别是错误的,但推荐结果是有意义的,因为TF-IDF会将像“hindsight_Person”这样的标记赋予更高的相关性,因为它们在语料库中非常罕见。我们的结论是,预训练的荷兰语命名实体识别模型在这一点上的准确性还不足以纳入我们的推荐系统。

在未来,我们可能会从微调预训练模型中受益。目前,我们探索了另一种解决命名实体歧义的方法,通过使用类别和关键词等元数据作为无噪音但与命名实体关系较弱的度量,这在很大程度上改善了我们的推荐系统。
结论
在这篇博客中,我们探讨了在应用于荷兰新闻数据集时,命名实体识别可以做些什么。我们发现,当应用于推导关于数据集的一般见解,例如构建命名实体频率图和流图时,它的效果很好。然而,当应用于我们的推荐系统时,我们发现模型的准确性不够高。尽管引入命名实体感知解决了一些命名实体的歧义问题,但同时也引入了新的歧义形式,即命名实体检测错误。在未来,我们可能会尝试微调预训练模型或从头训练自己的模型,或者如果您有任何建议,请在评论中告诉我们!
除非另有说明,所有图片均为作者所拍摄。
参考资料[1] spaCy NER模型:https://spacy.io/models/nl#nl_core_news_lg[2] Flair NER模型:https://huggingface.co/flair/ner-dutch-large[3] NLTK NER模型:https://www.nltk.org/book/ch07.html
关于NOSNOS是荷兰的独立公共媒体机构,通过电视、广播、网站和移动应用等平台报道新闻和体育资讯。我们有专业团队为多个品牌创建数字服务。本博客中描述的研究是作为NOS数据团队的一员进行的,该团队负责探索将新颖的数据科学和人工智能技术应用于新闻环境。