Press "Enter" to skip to content

四海吧 Posts

Deci AI推出DeciLM-7B:一种超快速且超准确的70亿参数的大型语言模型(LLM)

“`html 在不断发展的技术进步领域中,语言模型已成为不可或缺的一部分。这些由先进的人工智能驱动的系统增强了我们与数字平台的互动。语言模型旨在理解和生成类似人类的文本,弥合了人类沟通与机器理解之间的差距。技术的进步引领着一个数字时代,语言模型在信息处理、沟通和问题解决中扮演越来越重要的角色。 最近,Deci推出了DeciLM-7B,这是一种具有高精度和速度的创新模型,适用于70亿参数级别。这个模型在Apache 2.0许可下,处于新一代语言模型的前沿,拥有70亿参数级别中无与伦比的准确性和速度。该模型是语言处理领域的一种增量革新和变革性力量。 在“开放语言模型排行榜”上,DeciLM-7B显示出令人印象深刻的平均得分为61.55。这表明DeciLM-7B是70亿参数级别中最先进的基础语言模型,提供了在各种应用中改进的准确性和可靠性。Mistral 7B在诸多基准测试中表现优异,包括Arc、HellaSwag、MMLU、Winogrande和GSM8K等。 DeciLM-7B不仅准确,而且速度出色。与Mistral 7B相比,它的吞吐量增加了83%,与Llama 2 7B相比增加了139%。DeciLM-7B提高了语言模型的效率标准。PyTorch基准测试突显了其在吞吐量上优于Mistral 7B和Llama 2 7B,分别显示出1.83倍和2.39倍的增加。 DeciLM-7B与Infery和Dec开发的推理SDK相互协作,相对于具有vLLM的Mistral 7B,能够提供4.4倍的速度提升,为成本效益高、大量用户交互提供机会。 DeciLM-7B利用NAS的引擎AutoNAC。该模型采用了变量分组查询注意力。在顶级的70亿参数大型语言模型中,该模型在没有复杂的偏好优化方法的情况下表现出色。研究人员强调,DeciLM-7B和Infery-LLM具有在多个行业引发革命性变革的潜力。它们在提供实时聊天机器人的高容量客户服务方面提升了智能度、响应度和可负担性,并在医疗、法律、市场营销和金融等文本密集型专业领域中实现了工作流自动化的革新。 总之,DeciLM-7B在大型语言模型中具有重要作用。它不仅在准确性和效率方面出类拔萃,还在可访问性和多功能性方面表现出众。随着技术的不断进步,像DeciLM-7B这样的模型在塑造数字世界方面变得更加重要。它们给我们提供了一个令人兴奋的前景,展示了无数未来可能性的一瞥。随着技术的进步,这些模型变得越来越重要,为我们提供了数字领域中众多选择的引人入胜且广阔的预览。 “`

Leave a Comment

通过扩散实现自适应学习:尖端范式

介绍 在教育和机器学习的不断发展中,适应性学习通过扩散的整合代表了一种范式转变。这种先进的方法利用了扩散的原理来量身定制学习经验,无缝地适应个体学习者的需求和学习节奏。在本文中,我们将深入探讨适应性学习通过扩散的细微差别,探索其潜在概念,应用于不同领域以及对学习者和教育工作者的转变性影响。 学习目标 了解在教育和机器学习背景下,适应性学习通过扩散的核心原理。 探索适应性学习架构的关键组成部分,包括学习者模型、辅导模型和知识领域。 深入了解适应性学习通过扩散在不同领域中的实际应用,如教育科技、企业培训和医疗教育。 获取有关实现动态内容扩散、个性化学习路径和实时反馈扩散的高级代码段的知识。 认识到适应性学习通过扩散对学习者和教育工作者的转变性影响,包括在赋予学习者力量和提高教育效率方面的作用。 本文是作为数据科学博文马拉松的一部分发表的。 理解适应性学习通过扩散 适应性学习通过扩散的核心是在教育模型中思考扩散过程的应用。扩散,作为物理和数学的基本概念,描述了物质或信息通过VoAGI的传播。在教育领域中,这意味着智能地传播和吸收知识,根据每个人独特的学习轨迹进行调整。 适应性学习架构 学习者模型 适应性学习架构的核心是学习者模型。这个动态实体捕捉到学习者的独特属性,包括熟练水平、现有知识、指定的学习目标和偏好的学习风格。学习者模型充当了一个个性化的蓝图,通过每次互动的演变和适应提供一个精心调整的学习体验。 现有知识、指定的目标、学习风格 现有知识:学习者已经掌握的内容被包含在学习者模型中。通过评估先前的知识,系统避免了冗余,并调整内容以弥补现有的差距。 指定的目标:学习者被分配的学习目标是另一个重要方面。这些目标作为标准,指导适应性系统筛选与学习者特定教育目标相符的内容。 学习风格:了解学习者最好吸收信息的方式很重要。学习风格包括视觉、听觉、动觉等偏好。适应性学习架构利用这些信息以优化适合个体学习偏好的内容发送方式。 辅导模型 辅导模型是负责内容适应的智能核心。它利用从学习者模型中得出的见解来动态调整教育内容的难度、节奏和格式。该模型使用复杂的算法确保学习材料与学习者当前的熟练水平和学习风格相契合,促进更有效的学习体验。 知识领域 知识领域涵盖了可供学习的全部主题。它作为Tutoring模型从中提取内容的广泛库存。适应性学习架构确保从知识领域中选取的内容与学习者的目标相符,优化教育过程。 输出给学习者 适应性学习架构的最终输出是为个体学习者量身定制的学习体验。这个输出包括量身定制的课程、评估和反馈,旨在最大限度地提高学习者对材料的理解和保持。适应性系统根据实时交互和学习者不断变化的需求对这个输出进行不断改进。 从本质上讲,适应性学习架构将教育转变为一个动态、个性化和反应灵敏的过程。通过交织学习者模型、现有知识、指定的目标、学习风格、辅导模型、知识领域和输出给学习者,这个架构为更有效和引人入胜的学习旅程铺平了道路。…

Leave a Comment

卷积神经网络(CNNs)中的空洞卷积全面指南

介绍 在计算机视觉领域中,卷积神经网络(CNN)已经重新定义了图像分析和理解的领域。这些强大的网络已经在图像分类、物体检测和语义分割等任务中取得了突破。它们为医疗保健、自动驾驶等领域的各种应用奠定了基础。 然而,随着对更具上下文感知和稳健模型的需求不断增长,传统的卷积层在捕捉广泛的上下文信息方面面临限制。这导致了对能够提高网络理解更广泛上下文能力的创新技术的需求,而不会显著增加计算复杂性。 介绍扩张卷积(Atrous Convolution),这是一种颠覆卷积神经网络中常规规则的突破性方法。扩张卷积,也被称为空洞卷积,通过在深度学习领域引入新的维度,使网络能够在不显著增加计算成本或参数的情况下捕捉更广泛的上下文。 学习目标 了解卷积神经网络的基本知识,以及它们如何处理视觉数据来理解图像。 了解扩张卷积如何改进传统卷积方法,从而在图像中捕捉更大的上下文。 探索使用扩张卷积的知名CNN架构,例如DeepLab和WaveNet,以了解它如何提高它们的性能。 通过实际示例和代码片段,获得对扩张卷积在CNN中应用的实际理解。 本文是Data Science Blogathon的一部分。 理解卷积神经网络:它的工作原理 卷积神经网络(CNN)是一类主要用于分析图像和视频等视觉数据的深度神经网络。它们受到人类视觉系统的启发,在涉及视觉数据的模式识别任务中非常有效。以下是详情: 卷积层:CNN由多个层组成,其中卷积层是核心。这些层使用卷积运算将可学习的滤波器应用于输入数据,从图像中提取各种特征。 汇聚层:在卷积之后,通常会使用汇聚层来减小空间维度,压缩卷积层学到的信息。常见的汇聚操作包括最大汇聚或平均汇聚,它们减小表示的大小同时保留关键信息。 激活函数:在卷积和汇聚层之后使用非线性激活函数(例如ReLU)来引入非线性,让网络能够学习数据中的复杂模式和关系。 全连接层:在CNN末尾,通常使用全连接层。这些层整合前面层提取的特征,并执行分类或回归任务。 逐点卷积:逐点卷积,也被称为1×1卷积,是CNN中用于降低维度和特征组合的技术。它涉及将1×1滤波器应用于输入数据,有效减少输入通道数,并允许跨通道组合特征。逐点卷积通常与其他卷积操作一起使用,以增强网络捕捉数据中的复杂模式和关系的能力。 可学习参数:CNN依赖于在训练过程中更新的可学习参数(权重和偏置)。训练过程包括前向传播,其中输入数据通过网络,以及反向传播,根据网络的性能调整参数。 从扩张卷积开始 扩张卷积,也被称为空洞卷积,是一种引入了参数扩张率的卷积操作。与常规卷积将滤波器应用于相邻像素不同,扩张卷积通过在它们之间引入间隙来分散滤波器的参数,由扩张率来控制。这个过程扩大了滤波器的感受野,而不增加参数的数量。简单来说,它允许网络在不增加复杂性的情况下从输入数据中捕获更广泛的上下文。 扩张率决定了卷积的每一步之间跳过多少像素。1的扩张率表示常规卷积,而较高的扩张率跳过更多的像素。这个扩大的感受野能够捕获更大的上下文信息,而不增加计算成本,使网络能够高效地捕获局部细节和全局上下文。 本质上,扩张卷积有助于将更广泛的上下文信息整合到卷积神经网络中,从而更好地对数据中的大规模模式进行建模。它通常用于需要关注不同尺度上的背景信息的应用,例如计算机视觉中的语义分割或自然语言处理任务中处理序列。…

Leave a Comment

谷歌AI与中佛罗里达大学的研究人员发布了开源的虚拟化身图库,旨在促进包容和多样性(VALID)

来自Google AR & VR与佛罗里达中央大学的研究团队合作开展了一项全面研究,验证了一个名为VALID的虚拟化身库,其中包含了210个完全装配的化身,代表了七种多样化的种族。七种种族的选择是在美国人口普查局的指导下进行的。他们利用了数据驱动的面部平均值,并与每个种族的志愿代表合作,创建了42个基本化身(7种种族 X 2种性别 X 3个个体)。该研究涉及全球参与者,以获取每个化身被感知的种族和性别的经过验证的标签和元数据。 验证过程采用了主成分分析(PCA)和K均值聚类,以了解参与者如何感知化身的种族。为了确保参与者在种族和性别上的多样性,总共选择了来自全球33个不同国家的132名参与者进行研究。 结果显示,亚洲人、黑人和白人化身在各种族的参与者中被一致认可。然而,代表美洲印第安和阿拉斯加原住民(AIAN)、西班牙裔、中东和北非(MENA)以及夏威夷和太平洋岛民(NHPI)种族的化身显示出更多的模糊性,其感知差异基于参与者的种族。如果某个化身被相应的同类种族参与者认定为其预期种族,则该化身以该种族命名。 在讨论中,研究人员强调了亚洲人、黑人和白人化身的成功识别率超过了95%,挑战了识别与自己不同种族人脸准确度约为65-80%的观念。他们将这归因于知觉专业知识或对多样化种族群体的熟悉程度,可能受全球媒体表现的影响。 观察到自我种族偏见效应,一些化身主要由同类种族的参与者正确识别。例如,西班牙裔化身在参与者中获得了不同的评级,但在仅有西班牙裔参与者中更准确地被感知。该研究强调了在虚拟化身研究中考虑参与者种族的重要性,以确保准确的表现。 由于识别不清晰,某些化身被标记为模糊,像发型这样的因素会影响感知。夏威夷和太平洋岛民化身的验证面临着局限性,突显了表现的挑战和更广泛的招募工作的需求。 研究团队讨论了虚拟化身应用的影响,强调了同组内和异组间的分类和刻板印象及社会判断的潜力。他们建议引入规定,以改善虚拟现实中的跨种族互动。 作为对研究界的贡献,该团队提供了开放访问的VALID化身库,为各种场景提供了多样化的适用化身。该库包括65个面部变形形状的化身,用于动态表情,并与Unity和Unreal等流行游戏引擎兼容。研究人员承认了局限性,例如关注年轻和体格健壮的成年人。他们概述了未来更新中通过引入不同地区分类、身体类型、年龄和性别来扩大多样性的计划。 总结而言,研究团队成功创建和验证了一个多样化的虚拟化身库,挑战了刻板印象并促进了包容。该研究强调了自我种族偏见对化身感知的影响,并为开发和应用虚拟化身在各个领域提供了宝贵的见解。该开放访问的VALID库被定位为研究人员和开发者寻找多样化和包容性化身的宝贵资源。

Leave a Comment

‘长尾巴摇晃着狗尾巴:人工智能个性化艺术的意想不到后果’

“`html Meta最近在生成影片领域展现了Emu,这标志着一个转折点,技术和文化以前所未有的方式相互交汇。 Emu不仅是人工智能在创造能力上的进步,更是生成人工智能领域新时代的灯塔,它标志着我们获得信息和娱乐的潜在革命。 我们正处在生成人工智能革命的临界点上,即将改变出版和娱乐领域的基本结构。语言模型以其非凡的综合和表达信息的能力,承诺打造一座全球无与伦比的图书馆,覆盖多种语言下的各种主题。然而,这些生成信息的准确性至关重要,需要保持警惕的事实核查和审查。 将注意力转向娱乐领域,其影响是深远的。Emu所开辟的道路,生成人工智能能够从根本上改变Netflix和Amazon Prime等平台,实现以前无法想象的电影体验个性化。设想一下未来,通过一系列要点来构成电影的叙事,而算法会据此调整剧情。你的英雄命运,无论是胜利还是失败,由你决定。这不仅仅是关于偏好,而是个性化达到了高峰。我们将很快看到我们决定英雄在结局时是否死去。幸福快乐…只有我意愿为之!然而,这种个性化带来了一个重要的警示。将艺术体验根据个人口味调整的能力,有可能限制我们接触多样化的观点,导致一个过于简化和以回声室为特点的世界。 这种倾向于简化,通常被代表为“用5岁儿童的方式解释”,可能有助于初步理解,但有可能侵蚀我们对复杂问题的充分理解的丰富性和深度。爱因斯坦关于使事情尽可能简单但不过分简单的指导在这里特别适用。它强调了在保持清晰度的同时保留复杂主题的细微差别的重要性。 尽管存在潜在的陷阱,这项技术的魅力是无可否认的。它触动了我们对独特性和认可的深刻渴望,这与可定制产品如NikeId的吸引力相似。然而,危险在于让人工智能加强我们的偏见,并使我们远离具有挑战性和多样性的思想。这与创造力的本质相背离,而创造力在于与广泛的知识接触。 在人工智能领域,特别是在强化学习中,我们训练代理人在探索和利用之间取得平衡,这是我们自己的知识之旅的一种策略。然而,在与信息的互动中,我们经常限制自己只接触与我们现有信念相一致的内容。这种悖论强调了我们在应用人工智能时关键性的疏忽。 当我们站在人工智能重塑我们的世界的潜力的边缘时,我们必须考虑如何利用这个强大的工具。真正的危险不在于人工智能本身,而在于我们与之互动的方式。我们必须将人工智能视为一种促进探索和理解的催化剂,营造一个欢迎复杂性、培养智力好奇心的环境。通过这样做,人工智能能够真正成为一种力量,拓宽我们的视野,丰富集体的人类经验。 本文来源:长尾狗摇头摆尾:人工智能个性化艺术的意外后果 – MarkTechPost “`

Leave a Comment

微软AI发布了LLMLingua:一种独特的快速压缩技术,可用于压缩大型语言模型(LLMs)的提示,以加快推理速度

鉴于大型语言模型(LLM)具备较强的概括和推理能力,它们显著地提升了人工智能(AI)社区的水平。这些模型在自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面展示了令人瞩目的能力。然而,包括语境学习(ICL)和思维链(CoT)提示在内的新发展,导致了使用较长提示的部署,有时甚至超过几万个令牌。这在模型推理方面带来了成本效益和计算效率的问题。 为了克服这些挑战,微软公司的研究团队推出了LLMLingua,一种独特的粗粒度快速压缩技术。LLMLingua的主要目标是最小化与处理长提示相关的开销,并加速模型推理。为此,LLMLingua采用了一些重要策略,包括以下几点。 预算控制器:创建了一个动态预算控制器,用于分配压缩比率给原始提示的各个部分。这确保提示的语义完整性在大量压缩比率下仍然保持。 令牌级迭代压缩算法:将令牌级迭代压缩算法集成到LLMLingua中。这种技术通过捕捉压缩元素之间的相互依赖关系,实现了更复杂的压缩,同时保留了提示的关键信息。 基于指令调整的方法:该团队提出了一种基于指令调整的方法,以解决语言模型之间分布不匹配的问题。调整语言模型的分布可以提高用于快速压缩的小语言模型与预期的LLM之间的兼容性。 研究团队使用来自不同情况的四个数据集进行了分析和实验,以验证LLMLingua的实用性。这些数据集包括推理的GSM8K和BBH、对话的ShareGPT以及摘要的Arxiv-March23。结果表明,该方法在每种情况下都取得了最先进的性能。结果甚至显示,LLMLingua可以在牺牲很少性能的情况下,实现高达20倍的显著压缩。 实验中使用的小语言模型是LLaMA-7B,封闭式LLM是GPT-3.5-Turbo-0301。LLMLingua在最大压缩比20倍时超越了以前的压缩技术,在保留推理、摘要和讨论能力方面表现出了韧性、经济性、高效性和可恢复性。 LLMLingua的有效性在多个封闭式LLM和小语言模型中得到证实。在使用GPT-2-small时,LLMLingua展示了出色的性能结果,与更大的模型大致匹配。它还在强大的LLM上表现出色,超过了预期的快速结果。 LLMLingua的可恢复性是一个值得注意的方面,因为当使用它来恢复压缩的提示时,GPT-4能够有效地从完整的9步CoT提示中检索重要的推理信息,并保持原始提示的含义和相似性。这个功能保证了可恢复性,即使在翻译后仍保留了关键信息,增加了LLMLingua的整体印象。 总而言之,LLMLingua为LLM应用中长提示带来的困难提供了全面的解决方案。该方法展现了出色的性能,并提供了提高LLM应用的效果和价格效益的有用途径。

Leave a Comment

使用 QLoRA 对 Llama 2 进行微调,并在 Amazon SageMaker 上部署,配备 AWS Inferentia2

在这篇文章中,我们展示了使用参数高效微调 (PEFT) 方法对 Llama 2 模型进行微调,并将微调后的模型部署在 AWS Inferentia2 上我们使用 AWS Neuron 软件开发工具包 (SDK) 来访问 AWS Inferentia2 设备,并从其高性能中受益然后,我们使用一个由 […] 提供支持的大型模型推断容器

Leave a Comment

使用亚马逊床岩和亚马逊转录,利用生成式人工智能生成记录摘要

会议记录是协作的重要组成部分,但往往容易被忽略在主持讨论、仔细倾听和记录笔记之间,关键信息很容易溜走而未被记录下来即使记录了笔记,它们可能会杂乱无章或难以辨认,使其变得毫无用处在本文中,我们将探讨如何使用亚马逊[…]

Leave a Comment

AI在欺诈检测中的应用方式是怎样的?

西部野蛮时代有枪手、抢劫银行和悬赏–而今日数字时代有身份盗窃、信用卡欺诈和退款。 利用金融诈骗赚钱已成为一项数十亿美元的犯罪活动。而诈骗者手中的生成式人工智能只会使这种盈利更加丰厚。 根据《尼尔森报告》,全球信用卡损失预计将在2026年达到430亿美元。 金融诈骗以越来越多的方式进行,比如从暗网窃取被黑客攻击的数据实施信用卡盗窃,利用生成式人工智能进行钓鱼式获取个人信息,并在加密货币、数字钱包和法定货币之间洗钱。还有许多其他金融诈骗计划潜伏在数字黑社会。 为了跟上步伐,金融服务公司正在利用人工智能进行诈骗检测。这是因为许多数字犯罪需要及时阻止,以便消费者和金融公司能够立即停止损失。 那么人工智能如何用于诈骗检测呢? 人工智能用于诈骗检测使用多个机器学习模型来检测客户行为和联系的异常,以及符合欺诈特征的账户和行为模式。 生成式人工智能可以用作诈骗辅助 金融服务中很多内容涉及文本和数字。生成式人工智能和大型语言模型(LLMs)能够学习意义和背景,承诺在各行各业带来颠覆性的能力和生产力水平。金融服务公司可以利用生成式人工智能开发更智能、更有能力的聊天机器人,并改进诈骗检测。 而反派角色可以通过狡猾的生成式人工智能提示来绕过人工智能保障,用于欺诈。而且大型语言模型正在提供类似人类写作的能力,使诈骗分子能够撰写更具上下文相关的电子邮件,而无需拼写错误和语法错误。可以快速创建许多不同版本的钓鱼邮件,使生成式人工智能成为实施欺诈的绝佳副驾驶员。还有许多诸如FraudGPT之类的暗网工具,可以利用生成式人工智能进行网络犯罪。 生成式人工智能也可以用于声音认证安全措施的金融损害。一些银行正在使用声音认证来帮助授权用户。如果攻击者能够获取声音样本,他们可以使用深度伪造技术克隆银行客户的声音,试图突破这些系统。声音数据可以通过试图引诱通话接收者通过声音作出回应的垃圾电话来收集。 聊天机器人诈骗问题如此严重,以至于美国联邦贸易委员会提出了有关使用大型语言模型和其他技术模拟人类行为,用于伪造视频和声音克隆的关注和担忧。 生成式人工智能如何解决滥用和诈骗检测问题? 诈骗审查现在有强大的新工具。处理手动诈骗审查的工作人员可以通过在后端运行基于LLM的助手,利用来自政策文件的信息来加速决策,判断案件是否属于欺诈,从而大大加快处理过程。 大型语言模型被采用来预测客户的下一笔交易,这有助于支付公司预先评估风险并阻止欺诈交易。 生成式人工智能还通过提高准确性、生成报告、减少调查和降低合规风险来帮助打击交易诈骗。 生成合成数据是生成式人工智能用于欺诈预防的另一个重要应用。合成数据可以提高用于训练诈骗检测模型的数据记录数量,增加示例的多样性和复杂性,使人工智能能够识别欺诈者使用的最新技术。 NVIDIA提供了帮助企业采用生成式人工智能构建聊天机器人和虚拟代理的工具,使用了检索增强生成技术。检索增强生成使公司能够利用自然语言提示来访问大量数据集进行信息检索。 利用NVIDIA的人工智能工作流程可以帮助加速构建和部署适用于各种用例的企业级能力,使用基础模型、NVIDIA NeMo框架、NVIDIA Triton推理服务器和GPU加速矢量数据库来部署检索增强生成技术的聊天机器人。 行业专注于安全,以确保生成型人工智能不易被滥用造成伤害。NVIDIA发布了NeMo Guardrails,以帮助确保基于LLMs的智能应用(如OpenAI的ChatGPT)的准确性、适当性、主题相关性和安全性。 该开源软件旨在防止滥用人工智能驱动的应用程序进行欺诈和其他不当使用。 人工智能在识别欺诈方面的好处是什么?…

Leave a Comment

天空中的馅饼:无人机初创公司送上披萨、药品和激动的一切

Zipline 不只是一家顶尖无人机初创公司。 自 2011 年成立以来,总部位于旧金山的公司已在七个国家完成了 80 万多次交付。最近,它还为西雅图的 Pagliacci Pizza、维生素和补充剂巨头 GNC,以及像 Intermountain Health、OhioHealth 和 Michigan Medicine 这样的大型卫生系统提供了服务。 Zipline 开发了它的无人机 – 它们现在已经飞行了超过 5500 万英里 – 用于使用 NVIDIA…

Leave a Comment

探索AI的新领域:谷歌DeepMind的研究关于通过ReSTEM自我训练推进机器学习超越人类生成的数据

大型语言模型(LLMs)正在通过展示惊人的文本生成能力和执行各种语言任务而改变深度学习。获得高质量的与人类相关的数据是一个重大障碍,即使使用人类收集的数据进行监督微调(SFT)也能进一步提高它们在感兴趣的任务上的性能。这对需要大量资源和专业知识的复杂问题解决任务尤为困难。为了克服这一障碍,模型生成的合成数据在其质量能够得到保证的情况下被认为是一种可扩展且经济实惠的解决方案。 来自Google Deepmind和Mila的研究人员在这项研究中研究了一个更加简单的场景,其中外部的标量反馈信号作为每个生成样本的质量指标,即使LLMs能够自行评估生成的数据。研究团队提出了一种简单而有效的语言模型自训练技术,只涉及两个技能:1) 使用模型创建样本,2) 使用评分机制评估这些样本。这种方法使我们能够研究在模型创建的数据上进行训练。研究团队使用了加强自训练的命名方式,并将这种技术称为ReST𝐃𝑀,以实现统一性和清晰度。研究团队演示了如何将ReST𝐃𝑀视为使用期望最大化进行强化学习。 具体而言,ReST𝐃𝑀在以下方式上在期望和最大化阶段之间切换:1. 生成 (E-step):对于每个输入背景,语言模型产生多个输出样本。然后,研究团队通过使用二进制奖励来筛选这些样本,以收集训练数据集。2. 改进 (M-step):使用前面生成阶段的训练数据集来对原始语言模型进行监督和微调。然后,下一个生成阶段使用调整后的模型。ReST𝐃𝑀及其变体已经证明在许多领域的语言模型中提高了效能,例如机器翻译、语义解析和偏好对齐。 ReST𝐃𝑀主要在以前关于非常小型语言模型(最多7B参数)的研究中使用,对于更大的模型而言,其可扩展性有限。他们的工作旨在通过比较模型创建的合成数据的可扩展性和有效性与人类提供的数据在两个具有挑战性但研究不足的领域中: 代码生成 (APPS) 和具有竞争水平的数学问题解决 (MATH)。他们的研究结果表明,将ReST𝐃𝑀应用于不同规模的PaLM 2模型可以显著改善数学推理和代码生成能力。 令人惊讶的是,通过模型生成的人工数据进行改进的模型在性能上大幅优于以人类提供的数据训练的模型。此外,经过几个ReST𝐃𝑀周期后,改进效果会减弱,表明可能会过度拟合数量有限的训练案例。此外,使用ReST𝐃𝑀进行优化的模型增强了 pass@k 和多数投票能力。最后,这些改进的模型在类似但不同的基准测试中展现出增强的性能,包括Big-Bench Hard任务、编码(HumanEval)和算术问题(GSM8K和Hungarian HS决赛)。最后,还进行了消融研究,以调查训练问题、迭代次数和模型生成解决方案数量对ReST𝐸𝑀微调的影响。

Leave a Comment

见面Mixtral 8x7b:Mistral推出的革命性语言模型,超越GPT-3.5在开放学术资源的人工智能中

大型语言模型领域迎来了一个重要的跨越,Mixtral 8x7b的到来。Mistral AI开发了这个具有卓越能力和独特架构的新模型。它用稀疏的Expert混合(MoE)层取代了前馈层,这是变换器模型中的一种创新方法。 Mixtral 8x7b 在一个框架内拥有八个专家模型。这个模型是一个专家混合模型(MoE),使Mixtral能够实现卓越的性能。 专家混合技术可以使模型的预训练所需的计算能力大大减少。这意味着可以显著增加模型或数据集的大小而不增加计算预算。 在MoE层中引入了路由器网络,它可以高效选择处理哪些令牌的专家。尽管与含有12B参数的密集模型相比,Mixtral的模型拥有四倍的参数,但由于每个时间步选择了两个专家,因此可以快速解码。 Mixtral 8x7b具有32,000个令牌的上下文长度容量,优于Llama 2 70B,并在各种基准测试中展现出与GPT3.5相媲美或更好的结果。研究人员表示,该模型具有适用于各种应用的多功能性。它可以多语言操作,并展现其在英语、法语、德语、西班牙语和意大利语方面的流利性。其编码能力也非常出色;在HumanEval测试中得分40.2%,巩固了它作为一个全面的自然语言处理工具的地位。 Mixtral Instruct在MT-Bench和AlpacaEval等行业标准上表现出色。它在MT-Bench上的表现超过其他公开模型,并与GPT-3.5相匹配。尽管参数达到70亿,但该模型的性能类似于八个模型的集合。虽然它可能没有达到560亿参数的规模,但总参数数约为450亿。此外,Mixtral Instruct在指导和聊天模型领域表现出色,表达了其优势。 Mixtral Instruct的基本模型没有与其他基本模型对齐的特定提示格式。这种灵活性允许用户顺畅地扩展输入序列,获得合理的延续或将其用于零样本/少样本推理。 然而,有关预训练数据集的维度、组成和预处理方法的完整信息仍需进一步提供。同样,仍不知道对Mixtral instruct模型的DPO(域预提供目标)和SFT(部分微调)使用了哪些微调数据集和相关超参数。 总结一下,Mixtral 8x7b通过结合性能、适应性和创造力改变了语言模型的游戏规则。当AI社区继续研究和评估Mistral的架构时,研究人员迫切希望看到这种先进语言模型的影响和应用。MoE的8x7B能力可能为科学研究和发展、教育、医疗保健和科学开辟新的机遇。 这篇文章Meet Mixtral 8x7b: The…

Leave a Comment

2023年需要重新访问的顶级生成AI GitHub存储库

介绍 随着2023年接近尾声,人工智能领域仍在不断前进。跟上最新进展就像追逐一个移动的目标。幸运的是,在GitHub这个充满活力的生态系统中,有大量宝贵的资源。在这里,我们回顾了一些顶级的AI GitHub仓库,为您2024年及以后的AI学习之旅提供一个跳板。这个精选列表虽然不是详尽无遗,但它突出了因其相关性、影响力和激发您的好奇心而获得其地位的仓库。 Hugging Face / Transformers 117k Stars | 23.3k Forks 这个仓库对任何对自然语言处理(NLP)感兴趣的人来说都是宝藏。它托管了各种预训练的基于Transformer的模型,如BERT、RoBERTa和T5,以及广泛的文档、教程和一个充满活力的社区。 主要特点 广泛的预训练模型,全面的文档,活跃的社区支持,多样化的应用可能性,以及与其他库的轻松集成。 点击这里探索这个生成式AI GitHub仓库。 Significant Gravitas / AutoGPT 155k Stars | 37.8k…

Leave a Comment