Press "Enter" to skip to content

5 search results for "抽取式"

改革文本摘要:探索GPT-2和XLNet Transformers

介绍 我们没有足够的时间阅读和理解所有内容。这就是文本摘要的用武之地。它通过缩短文本帮助我们理解整个内容。就像在不阅读全部细节的情况下获取关键信息一样。文本摘要在许多情况下非常有帮助。想象一下,如果你是一名学生,明天有一场考试,但是还没有开始阅读。你必须为考试学习三章,并且只有今天来学习。别担心。使用文本摘要器。它将帮助你通过明天的考试。很令人兴奋,对吧?本文将探讨使用GPT-2和XLNet变压器模型进行文本摘要。 学习目标 在本文中,我们将学习: 关于文本摘要及其类型 变压器模型的出现及其架构如何工作 关于变压器摘要器,如GPT-2和XLNet 最后,使用它们的不同变体进行实现 本文作为数据科学博文的一部分发表。 什么是文本摘要? 您是否曾经遇到过需要阅读一本书的几页,但由于懒惰而无法完成的情况?即使这本书很有趣,有时我们也无法翻阅页面。感谢文本摘要。使用它,我们可以了解整个文本的摘要,而无需实际阅读所有行和所有页面。 文本摘要是将长文本转换为短文本,同时保留重要信息。它就像创建文本摘要一样。文本摘要是自然语言处理(NLP)中一个引人入胜的领域。它保留原始文本的主要思想和基本信息。简单来说,文本摘要的目标是捕捉原始文本的关键要点,并使读者能够快速掌握文本的内容,而无需实际阅读。 来源:Microsoft 摘要的类型 文本摘要方法主要有两种类型,它们是: 抽取式 生成式 让我们详细了解它们。 抽取式摘要 它涉及从原始文本中选择和组合重要的句子来形成摘要。这种类型的摘要旨在提取最相关和信息丰富的句子。这些句子应该代表原始文本的主要思想和上下文。所选句子直接形成摘要,不进行任何修改。抽取式摘要中使用的一些标准技术包括: 句子评分:这是一种基于评分的方法。该系统根据词频、句子位置和关键字的重要性选择摘要句子。它将选择得分较高的句子用于摘要。通过这种方式,所有得分较高的句子形成了整个原始文本的摘要。 基于图的:在基于图的方法中,我们使用图来表示句子之间的关系。这里的所有句子都是节点,边表示句子之间的相似性或相关性。使用一些图算法,识别出关键句子,所有重要的句子将形成摘要。 来源:SpringerLink 统计方法:这些技术使用统计工具和算法来评估文本中各个句子的重要性和相关性。这些方法旨在通过分配分数和权重或利用优化技术来确定最相关和信息丰富的句子。所有重要的句子又形成了文本的摘要。 生成式摘要…

Leave a Comment

使用Kili和HuggingFace AutoTrain进行意见分类

介绍 了解用户需求对于任何与用户相关的业务来说都是至关重要的。但这也需要大量的辛勤工作和分析,而这是非常昂贵的。为什么不利用机器学习呢?通过使用Auto ML,可以减少编码量。 在本文中,我们将利用HuggingFace AutoTrain和Kili构建一个用于文本分类的主动学习流水线。Kili是一个通过质量训练数据创建的数据中心方法来赋能机器学习的平台。它提供了协作数据标注工具和API,使可靠的数据集构建和模型训练之间的快速迭代成为可能。主动学习是一个过程,其中您将标记的数据添加到数据集中,然后进行迭代地重新训练模型。因此,它是无限的,并且需要人类来标记数据。 作为本文的一个具体示例用例,我们将使用来自Google Play Store的VoAGI用户评论来构建我们的流水线。然后,我们将使用我们构建的流水线对评论进行分类。最后,我们将对分类的评论应用情感分析。然后我们将分析结果,更容易理解用户的需求和满意度。 使用HuggingFace进行自动训练 自动化机器学习是指自动化机器学习流程的一个术语。它还包括数据清洗、模型选择和超参数优化。我们可以使用🤗 transformers进行自动化的超参数搜索。超参数优化是一个困难且耗时的过程。 虽然我们可以通过使用transformers和其他强大的API自己构建我们的流水线,但也可以使用AutoTrain进行完全自动化。AutoTrain是建立在许多强大的API(如transformers、datasets和inference-api)之上的。 数据清洗、模型选择和超参数优化步骤在AutoTrain中都是完全自动化的。可以充分利用这个框架为特定任务构建可供生产使用的SOTA转换器模型。目前,AutoTrain支持二分类和多标签文本分类、标记分类、抽取式问答、文本摘要和文本评分。它还支持英语、德语、法语、西班牙语、芬兰语、瑞典语、印地语、荷兰语等许多语言。如果您的语言在AutoTrain中不受支持,也可以使用自定义模型和自定义分词器。 Kili Kili是一个面向数据中心业务的端到端AI训练平台。Kili提供了优化的标注功能和质量管理工具来管理您的数据。您可以快速注释图像、视频、文本、pdf和语音数据,同时控制数据集的质量。它还具有用于GraphQL和Python的强大API,极大地简化了数据管理。 它可在线或本地使用,并且可以在计算机视觉、自然语言处理和OCR上实现现代机器学习技术。它支持文本分类、命名实体识别(NER)、关系抽取等NLP/OCR任务。它还支持计算机视觉任务,如目标检测、图像转录、视频分类、语义分割等等! Kili是一种商业工具,但您也可以创建一个免费的开发者帐户来尝试Kili的工具。您可以从定价页面了解更多信息。 项目 我们将以评论分类和情感分析为例,来了解一个移动应用程序的见解。 我们从Google Play Store中提取了大约4万条VoAGI的评论。我们将逐步对此数据集中的评论文本进行标注。然后我们将构建一个评论分类的流水线。在建模过程中,第一个模型将使用AutoTrain准备。然后我们还将构建一个不使用AutoTrain的模型。 项目的所有代码和数据集都可以在GitHub存储库中找到。 数据集 让我们首先看一下原始数据集,…

Leave a Comment

Can't find what you're looking for? Try refining your search: