在2024年,探索那些具备颠覆性能力的数据分析领域的顶级商业巨头从IBM云到Google云,这些以人工智能驱动的数据分析公司正在利用人工智能的力量,从海量数据池中挖掘出有价值的见解,并为企业提供可操作的智能洞察力
Leave a Comment四海吧 Posts
A / B测试是因果推断的黄金标准,因为它们允许我们在最小的假设下进行有效的因果陈述,这要归功于随机分配事实上,通过随机分配一个…
Leave a Comment在这篇文章中,我们将深入探讨单位根和平稳性的关键概念准备好进行探索,了解为什么检查平稳性至关重要,单位根是什么,以及它们的作用…
Leave a CommentOpenAI继续推动AI的可能性边界他们拥有我们所知的最强大的大型语言模型,GPT-4而且他们使用得很好!在OpenAI的首次开发日活动中,他们…
Leave a Comment我最近获得了Anthropic的API访问权限,我对这个API的易用性和速度比OpenAI API更加印象深刻
Leave a Comment阿尔珀·泰金是Findem的首席产品官,Findem是一个人工智能人才招聘和管理平台Findem的人才数据云建立在最先进的人才数据之上它能够以市场的运动速度学习,为您的整个团队提供无与伦比的人才情报以前您是一位连续创业者,担任创始人兼首席执行官
Leave a Comment在搜索中使用Google生成式AI图像创建如何现在免费访问实验版本ChatGPT DALLE
Leave a CommentGoogle DeepMind的研究人员探索了基于大型语言模型,特别是Transformer,在上下文学习(ICL)能力方面的表现,训练数据包括各种任务。然而,他们的研究需要在领域外的任务上进行工作,揭示了除了预训练分布之外的功能泛化的限制性。研究结果表明,高容量序列模型出色的ICL能力更多地依赖于预训练数据的覆盖范围,而不是对基本泛化的内在归纳偏差。 本研究考察了Transformer模型利用ICL进行少样本学习的能力,重点关注了预训练数据对模型性能的影响。研究表明,当预训练数据充分覆盖任务类型时,Transformer在无监督的模型选择方面表现良好。然而,在处理领域外任务时,它们面临着限制和泛化能力降低的问题。研究发现,模型在混合功能类上训练与仅训练一个类别的模型几乎一样好。研究还包括ICL学习曲线,展示了模型在各种预训练数据组合下的性能。 本研究深入探讨了Transformer模型的ICL能力,强调了它们在预训练分布内外学习任务的能力。Transformer模型展示了出色的少样本学习能力,在处理高维和非线性函数方面表现出色。研究关注预训练数据如何影响这些功能,并在受控环境中评估数据来源构建的影响。研究评估了模型在预训练中见过的函数类别之间的选择能力,并调查了领域外泛化。性能评估包括在训练过程中未见过的任务以及预训练过程中见过函数的极端变化。 在一项受控研究中,研究利用了(x,f(x))对训练的Transformer模型,而不是自然语言,以研究预训练数据对少样本学习的影响。通过比较不同预训练数据组合的模型,研究评估了它们在不同评估函数下的性能。通过分析函数类别之间的模型选择和探索领域外泛化,研究包括ICL曲线,展示了各种预训练数据组合的均方误差。对预训练分布内外的任务进行评估揭示了失败模式和泛化能力降低的经验证据。 Transformer模型在预训练数据中具有接近最佳的无监督选择能力,特别是在自然语言设置中。然而,当面临预训练数据之外的任务时,它们会表现出各种失败模式和泛化能力降低。通过比较不同预训练数据组合的模型,研究发现,训练在多样数据混合上的模型几乎与只在一个功能类上进行预训练的模型一样好。本研究介绍了归一化的均方差指标,通过稀疏模型和密集模型之间的差异来强调预训练数据覆盖的重要性,而不是基本归纳偏差。 总之,预训练数据的组成在Transformer模型的准确模型选择中起着关键作用,特别是在自然语言环境中。虽然这些模型可以在没有显式训练的情况下学习新任务,但对于超出预训练数据范围的任务,它们可能需要帮助,导致各种失败模式和泛化能力降低。因此,了解和启用ICL对于提高这些模型的整体效果至关重要。
Leave a Comment理解动物大脑中错综复杂的神经网络一直是科学家们的一大挑战,特别是在研究像阿尔茨海默病这样的疾病时。传统方法可能会更快更便宜。 在SmartEM之前,科学家们使用普通显微镜,但是捕捉到大脑的细节需要很长时间。SmartEM由麻省理工学院和哈佛大学的研究人员开发,将强大的电子显微镜与人工智能(AI)相结合。SmartEM在拍摄图像的同时学习大脑。它像一个助手一样帮助快速检查和理解大脑的微小部分,如突触和神经元。 SmartEM不仅仅是一台相机;它智能地操作,就像我们看事物时的眼睛一样,专注于重要的事物。研究人员在显微镜上添加了特殊的计算机芯片(GPU),使AI可以决定在哪里仔细观察。这帮助显微镜在具有挑战性的区域花费更多时间,就像我们的眼睛在看脸或阅读书籍时专注于重要细节。 为了展示其能力,SmartEM在一节章鱼大脑上进行了工作。它拍摄了这些薄片的图像,并将其重构为详细的3D地图。这张地图帮助科学家了解大脑的不同部分如何连接,就像弄清楚一个庞大的朋友圈中的联系一样。使用SmartEM,以往需要常规方法花费两周的任务现在只需要1.5天。 SmartEM团队的目标是使大脑研究更快速和更具成本效益。他们希望有一天,来自不同地方的更多科学家可以加入大脑研究而无需巨额预算。他们还希望使用SmartEM通过检查患者脑样本中的微小细节来研究疾病。目标是快速了解大脑中发生的情况,以进行更高效的医院病理学研究。 总之,SmartEM是一种将电子显微镜与人工智能相结合的强大工具,可以帮助科学家更高效地探索我们大脑的奥秘。在此帮助下,研究人员希望揭示我们大脑工作的秘密并找到对抗影响其功能的疾病的方法。
Leave a Comment通过使用动态形状优化机器学习模型,可以实现更好的性能和灵活性。动态形状是指模型在运行时处理具有不同尺寸输入数据的能力。用户可以使用支持动态计算图的框架,例如TensorFlow的即时执行或PyTorch来构建能够在运行时适应可变输入尺寸的模型。 优化具有动态形状的机器学习模型面临许多挑战,因为许多传统优化依赖于静态形状分析。动态尺寸的缺失信息可能会对跨运算符和函数执行的优化产生重大影响。具有动态形状的模型需要处理不同的批处理大小。在生产环境中,为不同的批处理大小进行优化比为固定批处理大小进行优化更具挑战性。 当前的机器学习(ML)编译器通常将程序转换为传统的单次转换流程,一次应用一种优化,通常将程序重写为较低级别的表示。这种方法经常导致在抽象层之间丢失形状和附加信息,使跨边界进行增量优化变得更加困难。 研究人员提出了名为Relax的编译器抽象。它具有一流的符号形状注释,可以全局追踪程序中的动态形状计算。它还具有跨级别抽象,将计算图、循环级张量程序和库调用封装在单个表示中,以实现跨级别的优化。它是一个优化动态形状模型的端到端编译框架。 研究人员采用正向推理方法,根据其输入组件推断表达式的注释。正向推理简单且局部化,编译器可以在各个步骤中为临时变量获取注释。此外,当无法自动推断形状时,正向推理可以使用用户插入的匹配转换的结果来继续推断后续注释。 研究人员表示,Relax中的所有优化都是可组合的动态形状感知转换。它通过不同的方法增量优化或部分降低计算的部分。它考虑来自其他级别的分析并结合了假设动态形状关系的进一步优化。 实验结果表明,Relax将新兴的LLM编译并优化到不同的硬件后端,性能竞争力与经过大量优化的平台特定解决方案相当。此外,Relax通过WebAssembly和WebGPU支持广泛的设备和环境中的LLM,包括手机、嵌入式设备和Web浏览器。
Leave a Comment一项新的AI研究引入了长短序列Transformer(LSS Transformer),这是一种为具有扩展序列的Transformer模型量身定制的高效分布式训练方法。它将长序列分割为多个GPU处理,每个GPU负责部分自注意计算。LSS Transformer采用融合通信和独特的双梯度平均技术来最小化传输开销,从而实现了令人印象深刻的加速和内存减少,超过其他序列并行方法。在Wikipedia enwik8数据集上的性能评估显示,LSS Transformer在多个GPU上实现了更快的训练和更高的内存效率,在超过NVIDIA的序列并行性能。 Transformer是一种以自注意机制而闻名的强大神经网络架构,广泛应用于自然语言处理和图像处理。使用较长的序列训练Transformer可以增强对上下文信息的把握和预测准确性,但也增加了内存和计算需求。为解决这一挑战,已经探索了各种方法,包括分层训练、注意力近似和分布式序列并行。 在Wikipedia enwik8数据集上,LSS Transformer在144台NVIDIA V100 GPU上优于最先进的序列并行性能,达到了训练速度提升5.6倍和内存效率提升10.2倍。它表现出了惊人的可扩展性,对3400个GPU而言,它可以处理长达50,112的序列长度,达到161%的超线性并行效率和可观的32 petaflops吞吐量。在弱扩展性能方面,与其他序列并行方法相比,LSS Transformer表现出了更高的可扩展性和更低的通信开销。在一个包含108个GPU的大型模型实验中,与基准并行性相比,它保持了92的高扩展效率,并展示了更小的内存占用。在144个节点上,LSS Transformer以8 petaflops的计算吞吐量在长为50,112的序列上超过了基准序列并行性能,速度和可扩展性都有所提高。 LSS Transformer提供了一种突破性的解决方案,用于长序列上训练Transformer模型,同时提供了令人瞩目的速度增强和内存效率,并最小化了通信开销。这种分布式训练方法将序列分割到多个GPU上,并利用融合通信和双梯度平均技术。LSS Transformer能够支持超长序列训练,使其成为需要广泛令牌依赖性的应用程序(如DNA序列分析、长文档摘要和图像处理)的宝贵资产。 这项研究还存在一些限制。首先,它需要与现有的长序列训练方法进行比较,重点放在NVIDIA序列并行性上。其次,需要深入探讨LSS Transformer在准确性和效率之间的权衡。第三,需要解决潜在的实际实施挑战。第四,它没有探索不同超参数或架构修改对LSS Transformer性能的影响。最后,它没有与基于近似的减少计算和内存使用的方法进行全面比较。 未来LSS Transformer的研究方向包括: 评估其在不同数据集和任务上的性能和可扩展性。 将其适用于各种Transformer模型,例如仅有编码器或解码器。…
Leave a Comment在深度学习中,Transformer神经网络因其在各个领域(尤其是自然语言处理、计算机视觉、机器人和自动驾驶等新兴应用)中的有效性而受到了广泛关注。然而,虽然提高了性能,但这些模型的规模不断增加导致计算成本和推理延迟大大增加。关键的挑战在于如何在不带来不切实际的计算负担的情况下利用大型模型的优势。 当前的深度学习模型,特别是Transformer模型,在不同领域取得了显著进展。然而,由于不断增长的计算需求,这些模型的可扩展性通常需要进一步提高。之前的努力,如Switch Transformer、Expert Choice和V-MoE等基于稀疏混合模型的尝试,主要集中在高效扩展网络参数、减轻每个输入的计算量。然而,现有研究中存在一个关于令牌表示维度本身扩展的空白。AltUp是一种新颖的方法,旨在填补这一空白。 AltUp通过提供一种增强令牌表示而不增加计算开销的方法而脱颖而出。该方法巧妙地将扩展的表示向量分成相等大小的块,在每个层只处理一个块。AltUp的有效性关键在于其预测校正机制,使得对未处理的块的输出进行推断。通过保持模型维度并避免直接扩展导致的计算量的二次增加,AltUp成为解决大型Transformer网络带来的计算挑战的有希望的解决方案。 AltUp的机制深入探讨了令牌嵌入的复杂性以及如何在不触发计算复杂性激增的情况下扩展它们。该方法包括: 调用一个宽度为1x的Transformer层进行一个块。 称为“活动”块。 同时使用一个轻量级的预测器。 该预测器计算所有输入块的加权组合,并通过轻量级校正器对预测值和活动块的计算值进行校正。该校正机制可以根据活动块对未激活块进行更新。重要的是,预测和校正步骤仅涉及最少的向量加法和乘法,比传统Transformer层要快得多。 对于T5模型在基准语言任务上的AltUp评估显示了其在相同准确性下优于稠密模型的一致能力。值得注意的是,使用AltUp增强的T5 Large模型在GLUE、SuperGLUE、SQuAD和Trivia-QA基准测试上分别实现了27%、39%、87%和29%的显著加速。当应用于较大的模型时,AltUp的相对性能改进更加明显,突显了其在模型尺寸增加时的可扩展性和增强效果。 总之,AltUp成为高效扩展Transformer神经网络长期挑战的值得注意的解决方案。它在不增加计算成本的同时增强令牌表示的能力,在各种应用中具有重要的潜力。AltUp的创新方法,以其分割和预测校正机制为特征,为利用大型模型的好处而不会遭受不切实际的计算需求提供了一种实用的方式。 研究人员对AltUp的扩展,称为Recycled-AltUp,进一步展示了所提出方法的适应性。Recycled-AltUp通过复制嵌入而不是扩展最初的标记嵌入,展示了在不引入可感知的减速的情况下,在预训练性能上严格改进。这种双重方法与AltUp与MoE等其他技术的无缝集成相结合,展示了其多功能性,并为未来研究探索训练和模型性能的动态开辟了道路。 AltUp标志着对Transformer网络高效扩展之探索的突破,为模型大小和计算效率之间的权衡提供了一个引人注目的解决方案。正如本文所概述的,研究团队的贡献是使大规模Transformer模型在各种应用中更易于访问和实用的一个重要步骤。
Leave a Comment来自MIT和NVIDIA的研究人员提出了两种加速稀疏张量处理的技术(张量是机器学习模型中的基本数据结构,是组织和存储数据的多维数组)。这两种新技术的目标都是有效利用张量中的零值。可以对这些张量进行处理而不处理零值,从而节省内存和计算资源。例如,任何与零相乘的操作都会得到零,因此可以跳过该操作。此外,它还可以压缩张量,因为不需要保留零值,这样可以在芯片内存中存储更多数据。 当通过将一些值替换为零来删除不必要的元素时,张量中的稀疏性就会出现,这个过程称为修剪。非零值的位置和稀疏度的程度在不同的模型中可能不同。为了方便在大型模型中定位非零值,研究人员经常限制非零值的位置。硬件加速器的适应性受到限制,因为它们通常针对特定的稀疏模式设计。 研究团队开发了一种名为HighLight的硬件加速器,它能够高效处理各种稀疏模式。研究人员利用分层结构的稀疏性来有效表示由简单模式组成的不同类型的稀疏模式。在这种方法中,将一组数分解为较小的组,每个组都遵循一个简单的模式。然后将这些较小的组合并成较大的组,形成一个层次结构。每个组合集也遵循一个简单的模式(例如,在具有四个组的一级中,一个组有零值,而其他三个组没有)。这个过程在较大的层次中继续进行,但在每个步骤中模式都保持简单。 这种简单性使得HighLight能够更高效地查找和跳过零值,从而充分利用切除多余计算的机会。与其他方法相比,他们的加速器设计的能耗时延乘积(与能源效率相关的度量)提高了大约6倍。 研究人员还可以利用稀疏性更高效地移动和处理计算机芯片上的数据。由于张量通常比芯片上的内存缓冲区能够存储的要大,芯片每次只能抓取和处理张量的一个块,这些块称为tiles。为了最大化缓冲区的容量并最小化芯片访问外部内存的频率。 为了最大化缓冲区的容量并减少芯片需要访问外部内存的次数(这可能会耗费大量能源并使处理速度变慢),研究人员旨在使用适合缓冲区的最大可能tile尺寸。 由于许多数据值是零,相较于其原始容量可能暗示的,较大的tile可以适应缓冲区,因为不需要存储零值。然而,零值的数量在数据的不同部分可能不同,因此对于每个tile也可能不同。 为了处理这个问题,研究小组建议使用过高预订(overbooking)技术来允许tile尺寸的增加。在稀疏数据集中,可以选择一个tile尺寸,使得大部分tile具有足够的零值以适应缓冲区。偶尔,某个tile的非零值可能超过缓冲区的容量。在这种情况下,这些多余的数据将被推出缓冲区。 研究小组使硬件能够只检索被移出缓冲区的数据,而不需要重新获取和处理整个tile。他们通过修改缓冲区的“尾端”来实现这一点,因此这种技术被称为Tailors。 此外,他们还开发了一种名为Swiftiles的方法,可以高效确定tile尺寸,并充分利用过高预订的优势。Swiftiles减少了硬件必须检查张量以寻找最佳tile尺寸的频率,从而节省了计算资源。 Tailors和Swiftiles的结合提供了性能提升,将速度提高了一倍,同时仅需现有不能处理过高预订的硬件加速器的一半能耗。 根据研究人员的说法,Swiftiles可以在不需要多次迭代来优化估计值的情况下估计出最佳的tile尺寸。这个过程可以实现是因为它支持过高预订。即使存在较大的估计误差,也可以因为非零值的特定分布而实现显著的加速。
Leave a Comment如果2023年是大型语言模型(LLMs)的年份,那么2024年将是大型多模态模型(LMMs)的年份主要区别在于识别文本和图像用于生成…
Leave a Comment想像一下YouTube的主頁,它顯示可能你會喜歡的視頻,或者亞馬遜推薦你購買更多他們銷售的產品這些都是嘗試展示的推薦系統的例子…
Leave a Comment这是一种从数据中学习模式并进行预测的技术机器学习算法的实施是基于数据的随着时间的推移,我们看到算法的演变和一些…
Leave a Comment“`html 来自约翰内斯·开普勒大学的研究员引入了GateLoop,这是一种新颖的序列模型,利用线性递归的潜力进行高效的长序列建模。它广义了线性递归模型并在自回归语言建模中表现出色。GateLoop在引入一种代理注意力模式方面提供了低成本的递归和高效的并行模式,这对Transformer架构具有潜在影响。它为注意力提供了数据控制的相对位置信息,强调了数据控制的累积乘积在更具鲁棒性的序列模型中的重要性,超越了现有模型中使用的传统累积和。 GateLoop是一种通用的序列模型,通过采用数据控制的状态转换扩展了线性递归模型(如S4、S5、LRU和RetNet)。GateLoop在自回归语言建模方面表现出色,提供了成本效益的递归和高效的并行模式。它引入了一种代理注意力模式,对Transformer架构具有影响。研究讨论了前缀累积乘积的预计算、操作符的关联性和非数据控制参数化等关键因素。GateLoop通过WikiText103数据集的较低困惑度得到了实证验证。现有模型未充分利用线性递归的潜力,而GateLoop通过数据控制的转换和复杂的累积乘积解决了这个问题。 具有长程依赖的序列在机器学习中面临挑战,传统上使用递归神经网络(RNN)来解决。然而,RNN面临梯度消失和爆炸的问题,对于较长的序列,这会影响它们的稳定性。LSTM和GRU等门控变体缓解了这些问题,但必须更有效。Transformer引入了全局依赖的注意力机制,消除了递归。尽管它们能够进行高效的并行训练和全局成对依赖,但其二次复杂度限制了对长序列的使用。线性递归模型(LRMs)提供了一种替代方案,而GateLoop作为一种基础序列模型通过数据控制的状态转换,具有广义化了LRMs的特点,在自回归语言建模方面有出色的表现,并提供了多样化的操作模式。 GateLoop提供了高效的O(l)递归模式、优化的O(llog2l)并行模式和O(l2)的代理注意力模式,将数据控制的相对位置信息提供给注意力。在WikiText-103基准测试中的实验验证了GateLoop在自回归自然语言建模方面的卓越性能。合成任务验证了数据控制状态转换相比非数据控制状态转换的实证优势。关键要素包括前缀累积乘积的预计算和非数据控制参数化,以防止变量膨胀。 GateLoop是一种完全数据控制的线性RNN,通过数据控制输入、输出和状态转换的门控方式扩展了现有的线性递归模型。它在自回归语言建模方面表现出色,优于其他模型。GateLoop的机制为注意力提供了相对位置信息,并可以以等效的代理注意力模式进行重新构造,复杂度为O(l2)。实证结果验证了完全数据控制线性递归在自回归语言建模中的有效性。该模型可以输入依赖地忘记记忆,为相关信息腾出空间。未来的研究方向包括探索不同的初始化策略、振幅和相位激活以及提高学习状态转换的可解释性。 GateLoop是一种完全数据控制的线性RNN,通过数据控制输入、输出和状态转换的门控方式扩展了现有的线性递归模型。它在自回归语言建模方面表现出色,优于其他模型。GateLoop的机制为注意力提供了相对位置信息,并可以以等效的代理注意力模式进行重新构造,复杂度为O(l2)。实证结果验证了完全数据控制线性递归在自回归语言建模中的有效性。该模型可以输入依赖地忘记记忆,为相关信息腾出空间。未来的研究方向包括探索不同的初始化策略、振幅和相位激活以及提高学习状态转换的可解释性。 “`
Leave a Comment人工智能在生活的各个方面都得到了应用。AI在化学和聚合物科学中得到了广泛的应用。在化学和聚合物科学中,AI帮助科学家发现新材料。它预测不同化学物质的反应,并建议用于创造新材料的最佳组合。这使得开发化学品和聚合物的过程更加快速和高效。 然而,21世纪材料科学家面临的挑战在于制定具有更好性能标准的可持续聚合物。当主要可用资源受限于石化工业时,这一挑战尤为突出。这一任务需要一种平衡,需要创造力和先进的科学方法来开发满足严格性能标准并符合当代环境考虑的可持续原则的聚合物。 根据国家可再生能源实验室(NREL)的科学家布兰登·诺特的说法,石油主要由碳和氢构成。这些分子排列具有有益的特性,形成了各种有利的特点。诺特的研究强调了理解碳氢化合物元素和石油分子构成对于利用其非凡特性以满足各种应用的重要性。 碳氢化合物缺乏氧和氮等元素。但是,在制造需要比碳氢化合物本身更广泛功能的聚合物时,这些元素是必不可少的。诺特提出了一种解决方案,即将富含氧和氮的生物质和废物引入配方。诸如玉米秸秆、藻类甚至垃圾等材料具有额外的化学键,使化学家在聚合物制造过程中具有更大的灵活性以实现特定的材料性质。这种方法不仅扩展了聚合物的功能,而且还促进了更可持续和资源富集的生产方法。 国家可再生能源实验室(NREL)采用了一种先进的机器学习工具PolyID(聚合物逆向设计),以促进聚合物开发的平衡。该工具根据分子结构预测材料的性质。借助PolyID,研究人员可以评估成千上万种潜在的聚合物设计,并生成适用于特定应用的短列表。 PolyID建立了元素排列(例如氧、氢和碳)与材料性质之间的联系,从而有助于预测弹性、耐热性和密封性等属性。NREL的科学家们还进行了实验室测试来确认PolyID的预测准确性。结果显示,所有七种聚合物都表现出抗高温能力,并且还能够降低净温室气体排放量。此外,这些聚合物还延长了包装食品的新鲜程度,展示了PolyID在有效识别环境友好且具有高性能的聚合物解决方案方面的潜力。 PolyID通过建立将聚合物的分子组成与其已知特性相连接的广泛数据库,获得预测特定物理特性的新聚合物设计的能力。根据该研究的主要作者诺兰·威尔逊的说法,该系统可以对以前未经历或制造过的新结构进行极为准确的预测。
Leave a Comment大型语言模型已经证明自己是一项革命性的技术许多已经开发出利用其能力的应用程序,并且预计很快会有更多的应用程序出现…
Leave a Comment当我们考虑数据工程时,通常首先想到的编程技能是SQL和可能的Python SQL是查询数据的著名语言,深深植根于世界…
Leave a Comment近期,大型语言模型(LLM)因其出色的遵循指令能力和处理广泛的开放式场景的能力而受到了广泛关注。通过指令微调,研究人员提供了许多与人类偏好相一致的技术,这些技术基于开源LLM,如FlanT5、OPT、LLaMA和Pythia等。这些对齐的LLM显示出对人类命令的理解能力提高,并产生更合乎逻辑的回复。然而,当前的基准和传统的测量方法需要充分评估LLM在开放式场景中的能力。 因此,需要一种新的基准方法,可以全面评估LLM在开放式活动中的能力。同时,正在进行研究来探索不同的方法来确定LLM的性能。Arena格式技术利用众包平台获取匿名LLM竞赛结果。人类评估可靠,但也需要花费金钱和大量的努力。一些方法使用GPT-4作为仲裁者。然而,这些方法需要API模型转换的可变性和可能的数据泄露,可能会危及仲裁者的重复性。PandaLM致力于改进用于回答评估的开源LLM。 图1(a):JudgeLM的数据生成流程。首先收集105K个种子任务作为问题。然后从11个LLM中提取答案,并随机选择两个答案。最后,输入任务、样本答案对和(如有需要)GPT-4的回复。这样可以得到评分和对仲裁者的详细解释。 然而,这种精细模型在司法岗位上的实用性受到模型大小、训练数据质量和内在LLM偏见的限制。北京市人工智能研究院和华中科技大学的研究人员建议在这项研究中使用优化的开源LLM来评估LLM,这些LLM作为可扩展的仲裁者(JudgeLM)与指导仲裁者达成足够好的一致性。他们的技术将用于训练和评估仲裁者模型的高质量数据集与作为可扩展的仲裁者在开放式任务中担任评估者。他们修改开源LLM以在他们的框架内作为仲裁者,并检查它们在模型大小(7B至33B)和训练数据量(3.5K至100K)方面的扩展能力。 图1(b):JudgeLM的不同特征和微调示例。为了改善LLM作为可扩展仲裁者的性能,他们使用生成的仲裁者样本。他们还建议使用参考答案删除、参考支持和交换增强来微调LLM作为仲裁者,以分别克服格式、知识和位置偏见。 如图1a所示,他们策划的数据集包括105K个种子问题、LLM答案对和教员仲裁者GPT-4的判断。注意,对于每个种子挑战,学生们提出了两个决策——一个带有参考答案,一个没有参考答案。这个数据集的划分是将100K个种子问题用于训练(比PandaLM大2倍),并将剩下的问题用于验证(比PandaLM大29倍)。当LLM作为仲裁者时,位置偏见(偏爱特定情况下的回答)、知识偏见(过度依赖预先训练的信息)和格式偏见(仅在特定提示形式下的最佳性能)等偏见总会出现。 他们提供了处理它们的方法。此外,如图1b所示,他们的JudgeLM系统具有扩展功能,如多轮对话、对单个回复评分以及评判多个答案,除了多模型。相比竞技场格式的方法,他们的解决方案更快捷且经济实惠。例如,JudgeLM-7B是一种模型,可以在3分钟内评估5000对回应,并且只需8个A100 GPU。JudgeLM的隐私保护和可重复性比闭源LLM评委更多。他们的方法研究了LLM微调的扩展能力和偏见,与并发的开源LLM评委相比。 此外,他们提供的数据集是最全面和出色的,将极大地帮助未来的评估模型分析研究。以下简要描述了他们的主要贡献: • 他们提出了JudgeLM,一种可扩展的语言模型评委,用于评估开放式场景下的LLM。 • 他们引入了一个高质量、大规模的数据集,用于评估模型,丰富了不同的种子任务、LLM生成的答案以及来自GPT-4的详细判断,为未来评估LLM的研究奠定了基础。它超过了人对人的一致性,达到90%以上。此外,它的JudgeLM具有处理长时间作业的广泛能力。 • 他们研究了LLM中存在的偏见、评委微调,并提出了几种解决方案。他们的技术极大地提高了模型在各种场景下的一致性,提高了JudgeLM的可靠性和适应性。
Leave a Comment统计学是数据科学和分析的基石它为我们提供了一个强大的工具箱,可以客观地回答复杂的问题然而,当我们…时,很多我们最喜欢的统计工具变得无用
Leave a Comment让我告诉你我如何创建了一个渐变下降的动画,只是为了在博客文章中阐述一个观点值得的,因为我通过这样做学到了更多的Python并掌握了新技能:制作…
Leave a Comment通常在Python中占用最多时间的是调用执行耗时进程的函数和类方法想象一下,如果你需要为相同的参数运行这样的函数两次,那么……
Leave a Comment大型语言模型(LLM)和少样本学习表明我们可以利用这些模型进行未知任务然而,这些技能是有代价的:庞大的参数数量这意味着你还需要一个…
Leave a Comment在2019年,FastSpeech推动了神经文本到语音的前沿,通过提供显著的推理速度改进,同时保持强健性,以避免单词重复或遗漏它…
Leave a Comment