谷歌AI推出视觉丰富的文档理解（VRDU）：用于更好地追踪文档理解任务进展的数据集

谷歌AI推出视觉丰富的文档理解（VRDU）：用于更好地追踪文档理解任务进展的数据集四海第1张

越来越多的企业在当今数字时代创建和存储文件。尽管这些文件可能包含有用的信息，但有时很难阅读和理解。发票、表格和合同等视觉复杂的文件则更加困难。这些出版物中的布局、表格和图形可能使有用的信息难以解析。

为了填补这一知识差距并改进文件理解任务的进展跟踪，谷歌研究人员宣布推出了全新的视觉丰富文档理解（VRDU）数据集。基于文档理解模型通常处理的现实世界文档类型，他们提出了五个有效基准的标准。论文详细介绍了研究界中最常用的数据集在至少一个方面存在不足，而VRDU在每个方面都表现出色。谷歌的研究人员很高兴地宣布，VRDU数据集和评估代码现已根据创意共享许可协议对公众开放。

研究部门视觉丰富文档理解（VRDU）的目标是找到自动理解此类材料的方法。使用VRDU模型可以从文档中提取姓名、地址、日期和总数等结构化信息。发票处理、CRM和欺诈检测只是企业可能利用这些信息的几个例子。

VRDU面临许多障碍。各种文档类型的广泛存在是一个障碍。由于它们复杂的图案和排列，视觉丰富的文件提出了进一步的困难。VRDU模型必须能够处理打字错误和数据中的空白等不完善的输入。

尽管存在障碍，VRDU是一个有前途且快速发展的领域。VRDU模型可以帮助企业降低成本、提高效率，并提高操作的精度。

在过去的几年里，已经开发出了复杂的自动化系统，用于处理和转换复杂的业务文件为结构化对象。手动数据输入是耗时的；一个可以自动从收据、保险报价和财务报表等文档中提取数据的系统可能通过消除这一步骤大大提高企业的效率。基于Transformer框架构建的新模型显示出显着的准确性改进。这些业务流程还在借助像PaLM 2这样的更大型模型进行优化。然而，实际应用案例中观察到的困难在学术出版物中使用的数据集中没有得到反映。这意味着虽然模型在学术标准上表现良好，但在更复杂的实际应用环境中表现不佳。

测量标准

首先，研究人员将学术基准（如FUNSD、CORD、SROIE）与实际用例中的最新模型准确性（如与FormNet和LayoutLMv2相比）进行了对比。研究人员发现最新的模型在实践中的准确性明显低于学术基准。然后，他们将常见数据集与文档理解模型与学术基准进行比较，并制定了五个条件，以准确反映数据集在实际应用中的复杂性。

在他们的研究中，科学家遇到了各种用于结构化提取的丰富模式。数字、文本、日期和时间信息只是许多类型的实体数据中可能需要的一些，这些数据可能是必需的、可选的、重复的，甚至是嵌套的。实践中的典型问题应该在对简单的平面模式（标题、问题、答案）执行的提取操作中得到反映。

文档应该包含各种不同类型的复杂布局元素。当文档包含表格、键值对、单列和双列布局、不同部分的变量字体大小、带标题的图像和脚注时，问题就会出现。相比之下，关于长输入的经典自然语言处理研究通常关注大多数论文以句子、段落和章节与部分标题排列的数据集。

有用的基准应包含具有不同结构的模板。高容量模型可以快速记住给定模板的结构，使得从中提取数据变得轻松。基准的训练-测试拆分应该评估这种广义到新模板/布局的能力，因为这在实践中非常重要。

光学字符识别（OCR）结果应对所有提交的文档具有高质量。这个基准旨在消除不同OCR引擎对VRDU性能的影响。

文档应包含可以映射回匹配输入文本的地面实况注释，以便可以将各个标记作为其各自实体的一部分进行注释。这与传递实体值的文本的标准做法形成对比，以进行解析。这对于生成无噪声的训练数据至关重要，使得研究人员可以专注于其工作的其他方面，而无需对所提供的值进行意外匹配。如果税额为零，则收据上的“税前总计”字段可能与“总计”字段具有相同的值。通过在标记级别进行注释，可以避免训练数据中将匹配值的两个出现都指定为“总计”字段的地面实况，从而产生噪声示例。

VRDU中的数据集和任务

VRDU收集包括两个独立的公共数据集——注册表单数据集和广告购买表单数据集。这些数据集提供了适用于现实场景并满足上述五个标准的实例。

广告购买表单数据集中的641个文件描述了政治广告的各个方面。一个电视台和一个倡导组织分别签署了发票或收据。产品名称、播出日期、总费用和发布时间只是记录在文件的表格、多列和键值对中的一些细节。

注册表单数据集中有1915个文件，详细描述了在美国政府注册的外国代理人的背景和活动。每个文件中记录了必须公开的外国代理人从事的活动的重要细节。注册人的姓名、关联机构地址、注册的活动以及其他信息。

VRDU的最新发展

近年来，VRDU取得了许多进展。大规模语言模型（LLMs）就是其中之一。大规模表示相似度测量（LLMs）是在大规模文本和代码数据集上训练的，可以用来表示图文丰富文本的文本和布局。

“少样本学习技术”的创建是另一个重要的成就。借助少样本学习方法，VRDU模型可以快速学习从新颖文档类型中提取信息。这一点很重要，因为它扩展了VRDU模型可以应用的文本类型。

Google Research已经向研究界提供了VRDU基准。发票和表单是VRDU标准中包含的两个视觉丰富文档的示例。发票数据集中有10,000个发票，表单数据集中有10,000个表单。VRDU基准还提供了一套经过深思熟虑的工具，用于评估性能。

VRDU领域的研究人员将会发现这个基准是一个宝贵的工具。研究人员现在可以评估各种VRDU模型在相同文本语料库上的表现如何。VRDU基准不仅对发现问题有用，还可以帮助直接进行未来的研究。

使用VRDU模型可以从文档中提取结构化数据。
姓名、地址、日期、金额、产品、服务、条件和要求。
使用VRDU模型可以自动化一些有用的业务流程，包括：
处理发票、与现有客户进行营销和管理、检测欺诈合规性、向当局报告。
通过减少系统中手工输入的信息量，VRDU模型可以提高公司运营的精确性。
通过自动化文档处理工作流程，VRDU模型可以帮助企业节省时间和金钱。
组织可以使用VRDU模型通过加快和完善服务来提高客户满意度。

VRDU的未来

VRDU的前景是乐观的。LLMs和少样本学习方法的发展将会使未来的VRDU模型更加强大和灵活。因此，VRDU模型可以用于自动化更多的业务流程，并处理更多类型的文档。

在企业界用于文档处理和理解时，VRDU可能会产生深远的影响。虚拟现实文档理解（VRDU）可以通过自动化文档理解过程来节省企业的时间和金钱，还可以提高业务运营的准确性。

Google研究人员提出的实验进一步展示了VRDU任务的难度以及与文献中通常使用的数据集相比，现代模型的显著改进机会，其中F1得分通常为0.90+。VRDU数据集和评估代码将公开提供，希望能够促进研究团队在文档理解领域的最新技术进展。