Press "Enter" to skip to content

遇见TableGPT:一种统一的精细调整框架,使LLMs能够使用外部功能命令理解和操作表格

遇见TableGPT:一种统一的精细调整框架,使LLMs能够使用外部功能命令理解和操作表格 四海 第1张遇见TableGPT:一种统一的精细调整框架,使LLMs能够使用外部功能命令理解和操作表格 四海 第2张

表格经常被用于表示庞大而复杂的数据世界,并作为各种情境下数据驱动决策的基础,包括财务分析、供应链管理和医疗保健分析。利益相关者可以使用它来分析趋势、模式和关联,从而帮助他们做出明智的商业选择并优化流程和资源。数据科学家长期以来一直在使用复杂的Excel公式或自定义程序处理表格。因此,对于表格数据的更有效理解和解释需求迫切。大型语言模型 (LLM) 或生成预训练转换器 (GPT) 已经在自然语言处理中的语言数据挖掘范式上进行了革命性变革。

与这些研究保持一致,研究人员还探讨了语音和视觉等多种模态的广泛模型。它们生成类似于人类语音的文本的能力为处理表格数据开辟了新的途径。然而,由于两个原因,很难在表格领域使用标准的ChatGPT模型:(一)全局表格理解:众所周知,GPT具有令牌长度限制,使其难以扫描庞大的表格并理解其包含的信息;(二)它们的训练过程是为自然语言设计的,因此在处理表格数据时缺乏普适性。已经有几项工作用于包括自然语言的表格数据分析。

自然语言转SQL (NL2SQL) 是一个成熟的研究领域,它将自然语言转化为控制关系型数据库的SQL指令。为了使用各种电子表格软件功能,SheetCopilot最近研究了控制VBA (Visual Basic for Applications,一种嵌入式脚本语言,用于Microsoft Excel)的语言。然而,他们发现这两种选择都没有令人满意的表现。他们认为这些固有的非结构化计算机代码类型增加了复杂性,几乎不可能进行自动化后处理。浙江大学的研究人员在这项研究中创建了TableGPT,推动了使用LLM方法分析数据时可行性的极限。这是在使数据更易于访问和理解的过程中的重大进展。他们的TableGPT系统将表格、口头指令和普通语言结合为一个统一的GPT模型,提高了数据解释的用户友好性和直观性。

他们通过重新设想表格、口头语言和指令之间的交互方式,将许多关键元素融合到TableGPT中:

• 全局表格表示:他们首次尝试创建表格的全局表示的学习范式,将整个表格编码为一个向量。他们使表格编码器能够通过同时对大量文本和表格数据进行LLM和编码器的训练,有效捕捉输入表格的全局信息。因此,由于LLM能够更好地看到和理解表格数据,提供了更全面和改进的对表格的理解。

• 指令链:他们使用这个概念来强调有组织、层次化任务执行的重要性。TableGPT遵循相同的指令顺序,将复杂的任务分解为简单的任务,并逐步执行,就像一个协调良好的组织,其中每个指令从更高级别级联到较低级别的相应指令。此外,它鼓励拒绝不明确或不合适的指令的能力,就像真正的数据科学家一样,而不是盲目地遵循任何可能不正确的指令,从而增强了人与LLM系统在数据科学环境中的交流。他们建议的指令集更易于使用,并减少了使用传统技术处理表格数据时常常出现的歧义。

• 领域感知微调:为了提高模型对特定领域表格数据的理解能力,领域感知微调包括调整训练,使模型生成包含给定领域中的类似风格和逻辑元素的文本。这促进了适应不同领域的表格和相应的文本材料的能力。还创建了一个数据处理流水线,使这种策略变得实用和可扩展。由NL2SQL生成的非结构化代码在实际生产环境中进行预先检查和错误修复带来了重大困难。因此,他们支持使用结构化的指令序列,使后处理更加容易。

Data-Copilot也采用了这种基于指令的方法,但它对本地LLM的依赖,用于直接理解表格数据的处理和分析逻辑,存在一些缺点。他们认为一个成功的解决方案应该专门为表格数据而设计,同时保持对更大规模下游活动的广泛适用性,这是由于表格数据的固有不可预测性和任务特定性。这种信念强调了为表格数据实施特别预训练的LLM的重要性。总之,本研究提出了一个具有开创性的TableGPT框架,这是一个全面、综合和自然语言驱动的解决方案,实现了有效的表格数据处理、分析和可视化。

他们列举了TableGPT的几个重要优点:

• 以语言驱动的探索性数据分析(EDA):通过使用简洁的语言,TableGPT分析用户意图,细分所需行动,并在表格上执行外部命令。然后,将处理后的结果以表格和书面解释的形式提供给用户。由于这种创新技术,探索性数据分析(EDA)变得直观,使用户更容易与表格数据进行交互。

• 统一的跨模态框架:他们创造性地开发了一个全局表格编码器来理解整个表格。由于TableGPT完全理解用户查询、元知识和整个表格数据,表格操作执行命令更加可靠。

• 泛化和隐私:由于具有域感知的微调功能,他们的TableGPT能够更好地处理表格中的数据异构性,并推广到许多领域。此外,他们的系统允许私有部署,并提供强大的数据隐私保护。在当今数据隐私和保护至关重要的时代,这一特性非常关键。

Leave a Reply

Your email address will not be published. Required fields are marked *