Press "Enter" to skip to content

Author: 四海吧

威斯康辛大学的一项新研究探讨了如何利用随机初始化训练的小型Transformer有效地学习算术运算,其中使用了下一个标记预测目标

对于包括语言和代码翻译、组合思维和基本算术运算在内的各种下游任务,像GPT-3/4、PaLM和LaMDA这样的大型语言模型展示了通用功能,有时还会出现新的技能。也许令人惊讶的是,模型的训练目标通常是基于下一个标记的预测的自回归损失,它并没有直接编码这些目标。这些技能在早期的研究中已经深入探讨过,同时还探讨了它们在训练计算规模、数据类型和模型大小变化时的变化。然而,鉴于数据的复杂性和评估的工作范围,仍然很难分离这些因素。他们出于好奇,想要确定加速这些能力出现的主要因素,因为他们对于促使这些能力在下一个标记预测者中出现的因素感到好奇。 这些因素包括数据的格式和大小、模型的大小、预训练的存在以及提示的风格。他们的工作是在受控环境中进行的,以便更全面地分析这些参数。他们着重教授数学给小型Transformer模型,包括NanoGPT和GPT-2,在从随机初始状态进行训练时。他们使用常见的自回归下一个标记预测损失,从具有1060万参数的模型缩放到具有1.24亿参数的模型。来自UW Madison的研究人员旨在理解这些模型如何有效地学习加法、减法、乘法、平方根和正弦等基本数学运算,从而让我们对于如何引发新出现的才能有更深入的了解。他们在下面概述了他们的结论。 样本大小和数据格式都很重要。 首先,他们指出使用典型的加法样本(例如“A3A2A1 + B3B1B1 = C3C2C1”)来教授模型加法并不理想,因为它强迫模型首先评估结果的最高位C3,而这取决于两个加数的所有位数的集体。通过训练模型使用结果反转的样本(例如“A3A2A1 + B3B1B1 = C1C2C3”),可以让模型学习一个更简单的函数,这大大增加了样本的复杂性。进一步增强学习的是许多“变体”的样本,这些样本依赖于涉及的位数和进位。即使在这种简单的情况下,他们观察到训练数据量的增加会导致从0%到100%的准确性突变。出乎意料的是,他们指出完成低秩矩阵与从随机样本学习n位加法映射相似。由于这种联系,他们可以对这种阶段性变化提供逻辑上的解释。 认知流动数据的培训。 基于这些发现,他们研究了在培训过程中使用思维链数据的可能优势。这种格式使模型能够学习困难任务的不同元素,因为它包括逐步操作和中间输出。这种结构直接源自相关文献,例如。根据CoT微调文献,他们发现CoT类型的训练数据在样本复杂性和准确性方面显著提高了学习效果,即使在没有语言预训练的情况下,他们的发现仍然成立。他们假设这是因为模型可以通过将需要实现的复合函数分解为单个组件来学习一个更高维度但更简单的函数映射。他们在他们的研究中给出了他们研究的四种数据格式技术的样本,如图1所示。 文本和数学混合训练。 由于LLM模型是在从互联网下载的大量数据上进行训练的,其中很难清洗各种形式的数据,因此他们还研究了文本和数值数据在训练过程中的交互方式。他们跟踪文本与算术输入的比例对模型的困惑度和准确性的影响。他们发现了先前处理的算术操作可以分别增强每个任务的性能,并且从零-shot提示到一-shot提示的切换显著增加了准确性。然而,当提供更多的示例时,准确性的提高不太明显。模型大小和预训练的重要性。 预训练和模型规模的作用。 此外,他们研究了通过微调像GPT-2和GPT-3这样的模型来研究预训练的作用,并发现虽然零-shot性能在算术操作上表现不佳,但预训练期间开发的先前“技能”使得在一些基本算术任务上能够达到可接受的性能,即使只有有限数量的微调样本。然而,当模型在标准格式的操作上进行预训练时,微调非标准格式(如反向格式)可能会干扰模型性能并降低准确性。最后,他们研究了规模对算术性能的影响,并发现虽然规模确实有助于学习算术运算,但并不是必要条件。 长度和组成的泛化。 人们可能会想知道他们训练的模型是否对数学有深入的理解。他们的研究给出了一个复杂的答案。他们发现将长度推广到训练数字长度之外是具有挑战性的。例如,如果模型在所有n位数长度上进行训练,但排除了某个特定长度,那么它会发现很难调整并正确计算这个缺失的数字长度。因此,模型在训练数字长度范围内表现良好,但在范围之外的地方表现要差得多。这表明模型更多地将算术视为一种映射函数,而不是一种灵活的过程。这超出了死记硬背,但不足以对数学进行彻底的“理解”。 创新与以前的努力。 他们并不声称他们的方法在所利用的训练数据类型方面是原创的,而是强调它在以前的研究中利用教育性数据来提高模型性能的工作上。关于随机初始化模型的主要强调,以及对各种采样/数据格式和模型规模设置进行深入的消融研究,以分离导致算术能力快速形成的变量,这使他们的工作与该领域的其他研究有所区别。此外,他们在研究中发现的一些现象有一些简单但可能具有启发性的理论解释。 图1:本研究中所检验的四种数据格式化技术如图所示。普通:普通的加法格式;反转:输出被反转;简化草稿本:逐位求和和进位;以及全面草稿本:全面的中间加法阶段。使用经过这些不同加法格式化技术处理过的数据,我们从头开始训练微型变压器模型。结果(显示在右侧)显示了数据格式化对性能和样本效果的重要性。随着数据格式中信息量的增加,普通永远无法达到100%的准确性,而其他技术学习完全加法的样本复杂度逐渐降低。

Leave a Comment

这篇人工智能论文评估了语言模型的适应能力,以应对现有任务的新变体

语言模型(LMs)的出色性能表明,大规模的下一个单词预测可以将文本语料库中的知识有效地蒸馏成交互式代理。LMs在各种自然语言处理基准测试中取得了令人印象深刻的成果,超过了最先进的方法,甚至在需要复杂推理的任务中超过了人类。然而,至关重要的是确定它们的成功是源于任务通用推理能力还是在预训练期间识别和回忆特定任务。 以前的研究主要集中在实例级别的泛化,其中数据污染问题可能会复杂化。在这项研究中,研究人员通过改变执行良好任务的条件或规则来研究LMs对新任务变体的泛化能力。这些任务的一般推理过程保持不变,但是具体的输入-输出映射发生了变化。这些称为反事实任务的新任务偏离了默认条件,并衡量了模型的任务级泛化能力。 研究人员提出了一个由11个反事实评估任务组成的套件,涵盖了多个类别和领域。这些任务包括演绎推理、代码生成、绘图和空间推理。虽然原始任务和其反事实变体之间的推理过程保持一致,但是输入-输出映射不同。这个评估旨在评估LMs在适应新任务变体方面的灵活性。 对GPT-4、GPT-3.5、Claude和PaLM-2在任务的默认和反事实条件下的性能进行评估。结果表明,虽然LMs在反事实性能上表现出高于随机的表现,但与默认设置相比,它们的性能持续下降;这表明模型在这些任务上的成功部分归因于默认条件特定的行为,而不是抽象的、可推广的推理能力。 研究结果还揭示了默认任务和反事实任务之间的令人兴奋的关系。观察到默认和反事实性能之间的相关性,零-shot思维链提示的有效性以及任务和实例级频率效应之间的互动。总体而言,任务默认实例化的轻微变化对LMs构成了挑战,这表明现有模型的成功不应仅仅归因于它们对目标任务的通用能力。

Leave a Comment

MosaicML帮助AI用户提高准确性,降低成本并节省时间

初创公司MosaicML的使命是帮助AI社区通过提供易于训练和部署大型AI模型的工具,提高预测准确性,降低成本并节省时间。 在NVIDIA的AI播客中,主持人Noah Kravitz与MosaicML的首席执行官兼联合创始人Naveen Rao进行了对话,探讨了该公司如何致力于使大型语言模型的访问民主化。 MosaicML是NVIDIA Inception计划的成员之一,已经确定了普遍采用的两个关键障碍:协调大量GPU进行模型训练的困难以及与此过程相关的成本。 本月早些时候,当Databricks宣布以13亿美元收购MosaicML时,MosaicML成为新闻的焦点。 对于许多需要控制模型行为、尊重数据隐私并快速迭代开发基于AI的新产品的公司来说,使模型训练可访问是关键。 您可能还喜欢 Jules Anh Tuan Nguyen解释了AI如何让截肢者通过思维控制假肢和视频游戏 明尼苏达大学的一位博士后研究员讨论了他为截肢者实现通过思维控制假肢(甚至是手指动作)的努力。 Overjet的Ai Wardah Inam带来AI到牙科 Overjet是NVIDIA Inception的成员,正在迅速将AI引入牙科诊所。该公司的首席执行官Wardah Inam博士讨论了使用AI改善患者护理的问题。 Immunai的首席技术官和联合创始人Luis Voloch利用深度学习开发新药物 Immunai的联合创始人兼首席技术官Luis Voloch谈到了用机器学习和数据科学思维应对免疫系统挑战的问题。 订阅AI播客…

Leave a Comment

得分!NVIDIA团队在推荐系统中获得奖杯

一支由五位机器学习专家组成的NVIDIA团队遍布四大洲,在一场激烈竞争的声望赛事中赢得了三项任务,建立了最先进的推荐系统。 这些结果反映了该团队运用NVIDIA人工智能平台解决数字经济引擎的实际挑战的能力。推荐系统每天为数十亿人提供数以万计的搜索结果、广告、产品、音乐和新闻故事。 在亚马逊KDD Cup ’23中,超过450支数据科学家团队参赛。这场为期三个月的挑战经历了不少曲折和紧张的结局。 进入高速挡 在比赛的前10周,该团队一直处于领先地位。但在最后阶段,组织者切换到新的测试数据集,其他团队迎头赶上。 NVIDIAN团队加班加点,夜以继日地工作,以迎头赶上。团队成员从柏林到东京的不同城市留下了一串串日夜不停的Slack消息。 “我们一直在不停地工作,这非常令人兴奋,”圣地亚哥的团队成员Chris Deotte说道。 换个名字也是产品 最后一个任务是最难的。 参赛者需要根据用户浏览会话的数据预测用户会购买哪些产品。但训练数据中并没有包含许多可能的选择的品牌名称。 “我从一开始就知道,这将是一个非常非常困难的测试,”Gilberto“Giba”Titericz说道。 KGMON来拯救 Titericz位于巴西库里奇巴,是Kaggle竞赛中四位伟大大师级别的团队成员之一,这是数据科学的在线奥林匹克。他们是一支机器学习忍者团队,赢得了数十个比赛。NVIDIA创始人兼首席执行官Jensen Huang称他们为KGMON(NVIDIA的Kaggle大师),这是对宠物小精灵的戏仿。 Titericz在数十次实验中使用大型语言模型(LLMs)构建生成性人工智能来预测产品名称,但都没有成功。 在一次创造性的灵光乍现中,团队发现了一个变通方法。使用他们的新的混合排序/分类器模型进行预测非常准确。 最后冲刺 在比赛的最后几个小时里,团队争分夺秒地将所有模型打包在一起进行最后的提交。他们整夜在多达40台计算机上进行实验。 东京的KGMON成员小野寺一直感到紧张。“我真的不知道我们的实际得分是否与我们估计的一致,”他说。 四位KGMON成员(从左上角顺时针):小野寺、Titericz、Deotte和普吉特。 同样是KGMON成员的Deotte回忆说:“大约100个不同的模型一起工作,产生一个单一的输出……我们将其提交到排行榜,然后一触即发!” 该团队在AI界相当于照片结束线上稍微领先于最接近的对手。…

Leave a Comment

xAI:埃隆·马斯克的新人工智能创业公司通过网站发布其使命

埃隆·马斯克在人工智能领域的最新冒险项目xAI,在推出新网站后迈出了重要一步该网站提供了有关公司使命和团队的深入了解,揭示了马斯克挑战美国主要科技公司在人工智能领域主导地位的最新尝试,例如[…]

Leave a Comment

北京大学研究人员推出FastServe:用于大型语言模型(LLMs)的分布式推理服务系统

大型语言模型(LLM)的改进在各个领域创造了机遇,并激发了一波新的交互式人工智能应用的浪潮。其中最值得注意的是ChatGPT,它使人们能够与AI代理进行非正式的交流,解决从软件工程到语言翻译的问题。由于其出色的能力,ChatGPT是历史上增长最快的项目之一。许多公司都追随这一趋势发布了类似LLM和ChatGPT的产品,包括微软的新Bing、谷歌的Bard、Meta的LLaMa、斯坦福大学的Alpaca、Databricks的Dolly和加州大学伯克利分校的Vicuna。 LLM推理与其他深度神经网络(DNN)模型推理(例如ResNet)不同,因为它具有特殊的特点。建立在LLM上的交互式人工智能应用必须提供推理功能。这些应用的交互设计要求LLM推理具有快速的作业完成时间(JCT),以提供引人入胜的用户体验。例如,当用户将数据提交到ChatGPT时,他们期望立即得到回应。然而,由于LLM的数量和复杂性,推理服务基础设施面临巨大压力。企业建立昂贵的集群,并配备了GPU和TPU等加速器来处理LLM推理操作。 DNN推理任务通常是确定性的,高度可预测的,即模型和硬件在很大程度上决定了推理任务的执行时间。例如,使用同一ResNet模型在某个GPU上处理不同的输入照片,其执行时间会有所变化。相反,LLM推理具有独特的自回归模式。LLM推理工作经过多轮迭代。每次迭代产生一个输出标记,然后将其添加到输入中,以在下一轮迭代中生成后续标记。输出长度在开始时是未知的,它既影响执行时间,也影响输入长度。大多数确定性模型推理任务(例如ResNet执行的任务)都可以通过现有的推理服务系统(如Clockwork和Shepherd)来处理。 这些系统基于精确的执行时间分析进行调度决策,但对于具有可变执行时间的LLM推理来说是无效的。LLM推理的最先进方法是Orca。它建议在每次迭代后将新任务添加到当前处理批处理中,或者删除已完成的任务。然而,它使用先来先服务(FCFS)的方式处理推理任务。调度的任务将持续运行,直到完成。由于受限的GPU内存容量和推理任务的低JCT要求,处理批处理不能随着任意数量的传入函数而增加。完成运行的处理中的先行阻塞是众所周知的问题。 由于LLM庞大且执行时间较长,这个问题对LLM推理操作尤为严重。大型LLM推理任务,特别是输出长度较长的任务,将花费很长时间才能完成,并阻塞后续的短任务。北京大学的研究人员开发了一种名为FastServe的分布式推理服务解决方案,用于LLM。为了实现每个输出标记级别的抢占,FastServe使用了迭代级别的调度和LLM推理的自回归模式。FastServe可以选择在生成输出标记后继续进行计划任务,或者通过排队中的其他任务来抢占它。这使得FastServe可以通过抢占式调度来减少JCT和先行阻塞。 独特的跳过连接多级反馈队列(MLFQ)调度器是FastServe的基础。MLFQ是一种在无信息环境下最小化平均JCT的著名方法。每个任务在最高优先级队列中开始,如果在一定时间内未完成,则降级到下一个优先级队列。LLM推理是半信息不可知的,这意味着虽然不知道输出长度,但知道输入长度。这是LLM推理与传统情况之间的主要区别。输入长度决定了创建初始输出标记的执行时间,由于LLM推理的自回归模式,这可能比后续标记的执行时间要长得多。 当输入较长且输出较短时,初始输出标记的执行时间占据了大部分工作量。他们将这一特性用于将跳过连接添加到传统的MLFQ中。每个到达的任务通过将第一个输出标记的执行时间与队列的降级阈值进行比较,而不总是进入最高优先级队列中的适当队列。绕过高优先级队列以最小化降级。使用MLFQ进行抢占式调度会增加额外的内存开销,以保持已开始但未完成的作业处于中间状态。LLM为每个Transformer层维护一个键值缓存,用于存储中间状态。只要批处理大小未超过,FCFS缓存需要存储计划任务的中间状态。然而,可能已经开始了MLFQ中的其他任务,但它们被降级到优先级较低的队列中。MLFQ中的所有已开始但未完成的作业都必须由缓存维护中间状态。考虑到LLM的大小和GPU的受限内存空间,缓存可能会溢出。当缓存已满时,调度器可能会简单地延迟启动新的作业,但这又会导致先行阻塞。 相反,他们开发了一种高效的GPU内存管理系统,当低优先级队列中的进程被调度并且缓存快满时,主动将进程状态上传,并在缓存快满时卸载状态。为了提高效率,他们采用了流水线和异步内存操作。FastServe使用张量和流水线并行等并行化技术,为无法放入一个GPU中的大型模型提供分布式推理服务。为了减少流水线冒泡,调度程序同时执行多个批次的作业。键值缓存由键值缓存管理器组织,并且管理GPU和主机内存之间的内存交换。他们基于NVIDIA FasterTransformer实现了FastServe系统原型。结果表明,与最先进的解决方案Orca相比,FastServe平均和尾部JCT分别提高了5.1和6.4。

Leave a Comment

AI 在交通领域的6个主要应用

欢迎来到令人兴奋的人工智能世界,以及它对运输业的变革性影响!从汽车到航运,这项开创性技术正在彻底改变我们的出行方式,提供更加平稳、安全和高效的旅行体验在这个快速导览中,我们将重点介绍AI在该领域的顶级应用——想一想自动驾驶…运输业中AI的前六种应用 阅读更多 »

Leave a Comment

中国的研究人员提出了StructGPT来提高结构化数据上的LLMs的零-shot推理能力

大型语言模型(LLMs)在自然语言处理(NLP)方面最近取得了重要进展。现有研究表明,LLMs在无需特定任务微调的情况下,通过专门创建的提示语可以具备强大的零射击和少射击能力来完成各种任务。尽管它们非常有效,但根据目前的研究,LLMs可能会产生与事实知识不符的虚假信息,并且无法掌握领域特定或实时专业知识。通过向LLMs添加外部知识源,可以直接解决这些问题以修复错误的生成。 结构化数据,如数据库和知识图谱,已经被广泛用于在各种资源之间传递LLMs所需的知识。然而,由于结构化数据使用LLMs在预训练期间未接触到的独特数据格式或架构,它们可能需要帮助才能理解这些数据。与纯文本不同,结构化数据以一致的方式排列,并遵循一定的数据模型。数据表通过行按列索引记录进行排列,而知识图谱(KGs)通常以描述头实体和尾实体之间关系的事实三元组进行组织。 尽管结构化数据的体积通常很大,但无法将所有数据记录都放入输入提示中(例如,ChatGPT的最大上下文长度为4096)。将结构化数据线性化为LLMs可以轻松理解的语句是解决这个问题的简单方法。工具操作技术激励它们增强LLMs在上述困难中的能力。他们的策略背后的基本思想是使用专门的接口来修改结构化数据记录(例如,提取表格的列)。借助这些接口,他们可以更准确地定位完成特定活动所需的证据,并成功限制数据记录的搜索范围。 这项研究来自中国人民大学、大数据管理与分析方法北京市重点实验室和中国电子科技大学的研究人员,他们的研究重点是为特定任务设计适当的接口,并将它们用于LLMs的推理,这是应用接口增强方法需要解决的两个主要问题。以这种方式,LLMs可以根据从接口收集的证据做出决策。为此,他们在这项研究中提供了一种名为StructGPT的迭代阅读-推理(IRR)方法,用于根据结构化数据解决任务。他们的方法考虑了完成各种活动的两个关键任务:收集相关数据(阅读)和假设正确的响应或制定下一步行动的策略(推理)。 据他们所知,这是第一项研究,探讨如何帮助LLMs在各种形式的结构化数据(如表格、知识图谱和数据库)上进行推理,使用单一范式。从根本上讲,他们将LLMs的阅读和推理过程分开:他们使用结构化数据接口来实现精确、有效的数据访问和过滤,并依靠其推理能力来确定下一步行动或查询的答案。通过外部接口,他们特别建议一种调用线性化生成过程,以帮助LLMs理解和在结构化数据上做出决策。通过使用提供的接口重复这个过程,他们可以逐渐接近对查询的期望响应。 他们对各种任务(如基于知识图谱的问题回答、基于表格的问题回答和基于数据库的文本到SQL)进行了全面的实验,以评估他们的技术的有效性。在八个数据集上的实验结果表明,他们提出的方法可以显著提高ChatGPT在结构化数据上的推理性能,甚至达到与完全数据监督调优方法相竞争的水平。 • 知识图谱问答(KGQA)。他们的方法使KGQA挑战中WebQSP的Hits@1增加了11.4%。借助他们的方法,ChatGPT在多跳KGQA数据集(如MetaQA-2hop和MetaQA-3hop)上的性能可以提高62.9%和37.0%。 • 问题回答表格(QA Table)。在TableQA挑战中,与直接使用ChatGPT相比,他们的方法可以将WTQ和WikiSQL中的指示准确性提高约3%到5%。在TabFact中,他们的方法可以将表格事实验证的准确性提高4.2%。 • 文本到SQL。在Text-to-SQL挑战中,他们的方法相对于直接使用ChatGPT,将执行准确率在三个数据集上提高了约4%。 作者已经发布了Spider和TabFact的代码,这可以帮助理解StructGPT的框架,整个代码库尚未发布。

Leave a Comment