Press "Enter" to skip to content

22 search results for "Flash Attention"

这项AI研究介绍了闪存解码:一种基于FlashAttention的新型人工智能方法,可使长内容LLM推理速度提高8倍

大型语言模型(LLMs)如ChatGPT和Llama因其出色的自然语言处理能力而受到广泛关注,能够实现从文本生成到代码完成等各种应用。尽管它们的效用巨大,但这些模型的高运营成本也带来了重大挑战,促使研究人员寻求创新解决方案以增强其效率和可扩展性。 由于生成单个响应的平均成本为0.01美元,将这些模型扩展以为数十亿用户提供服务,每个用户每天进行多次互动,相关费用可能迅速变得巨大。这些成本尤其在复杂任务(如代码自动完成)中可能呈指数级增长,在编码过程中,模型一直处于运行状态。鉴于对优化解码过程的迫切需求,研究人员已探索了一些技术,以简化和加速注意力操作,这是生成连贯和上下文相关文本的重要组成部分。 LLM的推理,通常称为解码,涉及一次一步生成令牌,其中注意力操作是决定整体生成时间的重要因素。尽管像FlashAttention v2和FasterTransformer这样的进展优化了训练过程,通过优化内存带宽和计算资源,但在推理阶段仍存在挑战。在解码过程中遇到的主要限制之一与较长的上下文相关联的注意力操作的可扩展性有关。随着越来越多的LLM任务处理更广泛的文档、对话和代码库,注意力操作可能消耗大量的推理时间,从而影响模型的整体效率。 研究人员提出了一种突破性技术,称为Flash-Decoding,以解决这些挑战,借鉴以前的方法的基础。Flash-Decoding的关键创新在于其并行化方法,它以关键字和值的序列长度为中心。通过将关键字和值分割为较小的片段,该方法即使在较小批量大小和较长上下文的情况下,也能高效利用GPU。Flash-Decoding通过利用并行化的注意力计算和对数求和指数函数,大大减少了GPU内存需求,促进了整个模型架构的流畅和高效计算。 为了评估Flash-Decoding的有效性,对最先进的CodeLLaMa-34b模型进行了全面的基准测试,该模型以其强大的架构和先进的功能而闻名。结果显示,与现有方法相比,对于较长序列,解码速度提高了8倍。此外,对不同序列长度和批量大小的缩放多头注意力进行的微基准测试进一步验证了Flash-Decoding的有效性,即使将序列长度扩展到64k,也展示了其稳定的性能。这种出色的性能在显著提高LLM的效率和可扩展性方面起到了重要作用,标志着大型语言模型推理技术的重大进展。 总之,Flash-Decoding已成为解决大型语言模型解码过程中注意力操作相关挑战的变革性解决方案。通过优化GPU利用率和提高整体模型性能,Flash-Decoding有潜力大幅降低运营成本,并促进这些模型在各种应用中的更广泛使用。这种开创性技术代表了大型语言模型推理领域的重要里程碑,为提高自然语言处理技术的效率和加速进步铺平了道路。

Leave a Comment

斯坦福大学研究员推出FlashFFTConv:一种新的人工智能系统,用于优化长序列的FFT卷积

Translate this html (keep the html code in the result) to Chinese: 高效地在延长序列中进行推理是机器学习中的主要难题。最近,卷积已经成为序列建模的关键原始,支持语言建模、时间序列分析、计算机视觉、DNA建模等领域的最新性能。尽管有这些令人印象深刻的质量发现和其他优势,如随着序列长度增加的改进稳定性和更好的可扩展性,卷积序列模型仍然比Transformer模型慢得多。 一个主要原因是硬件支持不稳定。与视觉应用中使用的短滤波器相比,序列建模中的卷积经常使用与输入序列长度一样长的滤波器。快速傅里叶变换(FFT)卷积算法通过映射输入和输出频率来计算输入u和卷积核k之间的卷积。 尽管渐近有效,但FFT卷积算法在现代加速器上的计时效果较低。然而,系统技术的进步使得Transformer模型能够达到当前加速器的极限,在使用FlashAttention-v2时,端到端FLOP使用率超过72%。 为了提供更长的上下文能力,斯坦福大学的一项新研究调查了如何在现代加速器上优化FFT卷积方法。研究人员认为,随着FlashAttention等系统的进步,导致了更好的模型和新的注意力算法,优化FFT卷积将会产生新的更好的算法,提升卷积序列模型的质量。 FFT卷积可以很容易地优化短序列。常见的做法是在多个批次中重复使用卷积核滤波器,这使得可以在重复使用之前预先计算滤波器的FFT。因此,FFT卷积在批次和滤波器之间是并行的,并且内核融合允许将中间卷积输出缓存在静态随机存取存储器(SRAM)或寄存器中。 然而,团队指出,随着序列长度的增加,出现了两个主要瓶颈。就当前加速器而言,FFT卷积不会充分利用专用矩阵-矩阵乘法单元。 其次,随着序列变得过长而无法适应SRAM,内核融合失败,需要进行昂贵的输入/输出操作。用于因果关系的填充操作以及从实值输入/输出转换为复值FFT中间结果可能进一步增加这些I/O成本。 为此,研究人员提出了一种名为FlashFFTConv的新算法,该算法采用了FFT的Monarch分解,以优化针对长序列的FFT卷积。通过p阶Monarch分解,FFT可以通过一系列p个矩阵-矩阵乘法操作有效地传输到硬件中。较大的p值由于较小的矩阵而导致更少的FLOP成本,但需要更多的I/O来传递中间结果。因此,涉及到权衡。 该研究演示了如何基于序列长度使用简单的成本模型来优化FLOP成本和I/O成本,在GPU上优化p。除了在更长的序列长度上促进内核融合之外,该分解还减少了必须在SRAM中维护的序列的数量。因此,FlashFFTConv可以轻松处理从256个字符到400万个字符的序列。通过使用实值FFT算法并在输入进行零填充时跳过部分矩阵-乘法操作,FlashFFTConv可以将FFT操作的长度减少多达一半。最后但并非最不重要的是,FFT卷积的矩阵视图为实施两个架构修改提供了简单的界面:偏差卷积和频率稀疏卷积。这两种方法可以简单地通过省略矩阵分解的部分来实现,从而降低内存占用和计时运行时间,并可以看作是Transformer中稀疏/近似注意力的卷积并行。 研究人员证明了FlashFFTConv加速了FFT卷积,从而实现了更好的质量、更高效和更长的序列模型。 通过更好的效率,FlashFFTConv提高了卷积序列模型的质量:在相同的计算预算下,FlashFFTConv使Hyena-GPT-s的困惑度提高了2.3个点,并使M2-BERT-base的平均GLUE分数提高了3.3个,性能提升相当于模型参数加倍。 与PyTorch相比,FlashFFTConv在卷积效率方面提高了高达7.93倍,并在内存节省方面提高了高达5.60倍,而且这种高效性在序列长度上可以达到四个数量级。对于长度为2K及以上的序列,FlashFFTConv在计时效果上快于FlashAttention-v2端到端,原因是FLOP成本更低,并且实现了高达62.3%的端到端FLOP使用率,仅比FlashAttention-v2少10%。 FlashFFTConv使更长序列的模型成为可能。FlashFFTConv生成的模型是唯一能够完成长阶竞技场基准的Path-512作业(序列长度为256K)的模型,用于高分辨率图片分类。FlashFFTConv是第一个以单核苷酸分辨率嵌入最长人类基因(长达230万个碱基对)的模型;通过部分卷积,它将HyenaDNA扩展到4M的序列长度。…

Leave a Comment

为SDXL探索简单的优化方案

稳定扩散 XL(SDXL) 是 Stability AI 最新的潜在扩散模型,用于生成高质量、逼真的图像。它解决了以前稳定扩散模型的一些挑战,例如处理手部和文本的正确性以及空间上正确的构图。此外,SDXL 还更具上下文意识,并且在生成更好的图像时需要较少的提示词。 然而,所有这些改进都以模型更大的代价为代价。有多大呢?基本的 SDXL 模型有 35 亿个参数(特别是 UNet),比以前的稳定扩散模型大约大了 3 倍。 为了探索如何优化 SDXL 的推理速度和内存使用,我们在 A100 GPU(40 GB)上进行了一些测试。对于每次推理运行,我们会生成 4 张图像,并重复 3 次。在计算推理延迟时,我们只考虑…

Leave a Comment

Hugging Face 推出 SafeCoder:为企业打造的代码助手解决方案

代码助手解决方案是一种在编写和编辑代码时帮助开发人员的工具或软件应用程序。由于其重要性日益增加,代码助手解决方案最近在全球范围内得到广泛使用。全球范围内正在进行实验和研究项目以推进这个领域。这些代码助手解决方案是建立在LLM(语言模型)之上的。一些代码助手解决方案包括GitHub Copilot、TabNine、IntelliCode等等。它们能够极大地提高生产力。这些平台极大地提升了生产力,提供了上下文相关的代码建议和补全。它们的影响正在为软件开发过程带来显著的效率改进。 然而,使用这些代码助手也存在问题,因为使用这些助手会将代码库暴露给第三方。在训练和推理过程中,代码库都会暴露给第三方,因为经过微调的代码LLM很可能在推理过程中泄露其训练数据集中的代码。SafeCoder允许客户学习创建和更新模型的过程,并掌握他们的AI能力。 因此,Hugging Face的研究人员对这些代码助手解决方案进行了深入研究,并制定了一种名为SafeCoder的方法,以帮助客户构建自己的代码LLM。这种方法涉及在客户的私有代码库上对模型进行微调,利用先进的开放模型和库。重要的是,这个过程允许客户通过避免与Hugging Face或外部实体共享来保持代码的机密性。SafeCoder的核心原则是,在训练或推理过程中,客户的内部代码库将永远不会被任何第三方(包括Hugging Face)访问。在训练和推理过程中,代码始终保持在虚拟私有云(VPC)中,确保其完整性。 StarCoder使用了稳健的150亿参数进行训练,并结合了代码优化技术。引入了Flash Attention进一步提升了模型的效率,使其能够涵盖8192个标记的上下文。它在80多种编程语言上进行了训练,并在多个基准测试中提供了最先进的性能。 研究人员开始参与一个可选的训练阶段,以提供用户特定的代码建议。Hugging Face团队与客户团队密切合作,提供逐步指导,以策划和构建训练数据集。这个过程还包括通过微调来打造个性化的代码生成模型,同时确保最高的隐私性。 在SafeCoder的部署阶段,客户通过将Hugging Face提供的容器实施到自己的基础架构上来掌控情况。这些容器的配置与客户的特定硬件设置相一致,包括NVIDIA GPU、AMD Instinct GPU、Intel Xeon CPU、AWS Inferentia2或Habana Gaudi加速器等选项。在部署和激活SafeCoder的端点后,开发人员可以集成兼容的SafeCoder IDE插件。此集成允许开发人员在工作时实时接收代码建议。 在未来,SafeCoder可能会提供其他类似的可商业允许的开源模型,这些模型以道德来源和透明数据集作为基础LLM进行微调。

Leave a Comment

介绍SafeCoder

今天我们很高兴地宣布 SafeCoder – 一款为企业打造的代码助手解决方案。 SafeCoder 的目标是通过一个完全符合规范且自托管的双人编程工具,为企业解锁软件开发生产力。用市场术语来说:“你自己的本地 GitHub Copilot”。 在我们深入探讨之前,这是你需要了解的内容: SafeCoder 不是一个模型,而是一个完整的商业解决方案 SafeCoder 以安全和隐私为核心原则构建 – 代码在训练或推断过程中永远不会离开 VPC SafeCoder 设计为客户在自己的基础设施上进行自托管 SafeCoder 设计为客户拥有自己的 Code Large Language Model 为什么选择…

Leave a Comment

辅助生成:一种朝着低延迟文本生成的新方向

大型语言模型目前非常流行,许多公司都在投入大量资源来扩展这些模型并开发新的功能。然而,作为拥有越来越短注意力的人类,我们也不喜欢它们的响应速度慢。延迟对于良好的用户体验至关重要,因此尽管质量较低(例如在代码补全中),人们通常还是使用较小的模型。 为什么文本生成如此缓慢?是什么阻止了你在不破产的情况下部署低延迟的大型语言模型?在本博客文章中,我们将重新审视自回归文本生成的瓶颈,并介绍一种解决延迟问题的新解码方法。通过使用我们的新方法——辅助生成,您可以在通用硬件上减少延迟高达10倍! 理解文本生成的延迟 现代文本生成的核心原理很容易理解。让我们来看看其核心部分——机器学习模型。输入包含一个文本序列,其中包括迄今为止生成的文本以及其他可能的模型特定组件(例如,Whisper还具有音频输入)。模型接受输入并运行前向传递:将输入馈送到模型并依次通过其各个层,直到预测出下一个标记的非归一化对数概率(也称为logits)。一个标记可以由整个单词、子单词或甚至单个字符组成,这取决于模型的设计。如果您想深入了解文本生成的这个部分,可以参考图示的GPT-2。 模型的前向传递可以获得下一个标记的logits,您可以自由操作这些logits(例如,将不希望出现的单词或序列的概率设为0)。文本生成的下一步是从这些logits中选择下一个标记。常见的策略包括选择最有可能的标记,即贪婪解码,或从它们的分布中进行抽样,也称为多项分布抽样。通过将模型的前向传递与下一个标记的选择迭代地结合起来,就可以实现文本生成。当涉及到解码方法时,这只是冰山一角,请参考我们关于文本生成的博客文章以进行深入探索。 从上面的描述中,文本生成的延迟瓶颈显而易见:对于大型模型来说,运行模型的前向传递速度较慢,您可能需要按顺序进行数百次前向传递。但让我们深入探讨一下:为什么前向传递速度慢?前向传递通常由矩阵乘法主导,通过快速访问对应的维基百科条目,您可以了解到在这个操作中,内存带宽是限制因素(例如,从GPU内存到GPU计算核心)。换句话说,前向传递的瓶颈来自于将模型层的权重加载到设备的计算核心中,而不是来自于执行计算本身。 目前,有三个主要途径可以提高文本生成的性能,都是解决模型前向传递性能的。首先,您可以进行硬件特定的模型优化。例如,您的设备可能与Flash Attention兼容,通过重新排序操作来加速注意力层,或者使用INT8量化来减小模型权重的大小。 其次,当您知道会同时进行多个文本生成请求时,您可以对输入进行批处理,从而大幅增加吞吐量,但会有一定的延迟惩罚。设备加载的模型层权重现在可以在并行处理多个输入行上使用,这意味着您可以在大致相同的内存带宽负担下获得更多的标记输出。批处理的问题在于需要额外的设备内存(或将内存转移到其他地方)- 在这个范围的末端,您可以看到类似FlexGen的项目,它以牺牲延迟为代价来优化吞吐量。 # 展示批量生成对性能的影响的示例。测量设备:RTX3090 from transformers import AutoModelForCausalLM, AutoTokenizer import time tokenizer = AutoTokenizer.from_pretrained(“distilgpt2”) model = AutoModelForCausalLM.from_pretrained(“distilgpt2”).to(“cuda”)…

Leave a Comment

Together AI推出了StripedHyena-7B:一种替代性的人工智能模型,与最优秀的开源变压器在短期和长期上下文评估中具有竞争力

AI ​​一起为序列建模架构作出了重大贡献,并引入了StripedHyena模型。它通过为传统的Transformer提供了新的选择,专注于计算效率和增强性能,彻底改变了这一领域。 此发布包括基础模型StripedHyena-Hessian-7B(SH 7B)和聊天模型StripedHyena-Nous-7B(SH-N 7B)。StripedHyena基于去年创建的H3、Hyena、HyenaDNA和Monarch Mixer等有效的序列建模架构的重要经验教训。 研究人员强调,该模型在训练、微调和生成过程中处理长序列时具有更快的速度和更高的内存效率。StripedHyena通过将门控卷积和注意力结合到他们所称的Hyena运算符中的混合技术中。此外,这是与强大的Transformer基础模型竞争的首个替代架构。在包括OpenLLM leaderboard任务的短上下文任务中,StripedHyena优于Llama-2 7B、Yi 7B和最强Transformer替代方案(如RWKV 14B)。 该模型在处理短上下文任务和处理较长提示的过程中通过研究各种基准进行了评估。在Project Gutenberg书籍上进行的困惑度缩放实验表明,困惑度在32k处饱和或在此点之后下降,这意味着模型能够吸收来自较长提示的信息。 StripedHyena通过一种独特的混合结构实现了效率,该结构将注意力和门控卷积组织成Hyena运算符。他们使用创新的嫁接技术优化了这种混合设计,在训练过程中实现了架构修改。 研究人员强调,StripedHyena的主要优势之一是其在训练、微调和生成长序列等各种任务中的速度和内存效率的提升。它在32k、64k和128k上的端到端训练中,分别比使用FlashAttention v2和自定义内核进行优化的Transformer基准性能提高了30%、50%和100%。 未来,研究人员希望在几个领域取得显著进展,其中包括StripedHyena模型。他们希望创建能够处理更长上下文的更大模型,从而扩大信息理解的限制。此外,他们还希望融入多模态支持,通过允许它处理和理解来自不同来源(如文本和图像)的数据,提高模型的适应性。 总之,该模型有望通过引入额外的计算(例如在门控卷积中使用多个头)改进Transformer模型。这种受线性注意力启发的方法,在H3和MultiHyena等架构中已被证明有效,提高了模型在训练过程中的质量,并为推理效率提供了优势。

Leave a Comment

使用新的Amazon SageMaker容器提升LLMs的推理性能

今天,Amazon SageMaker推出了Large Model Inference (LMI) Deep Learning Containers (DLCs)的新版本(0.25.0),并新增了对NVIDIA的TensorRT-LLM Library的支持借助这些升级,您可以轻松访问最先进的工具,优化SageMaker上的大型语言模型(LLMs),并获得价格性能优势——Amazon SageMaker LMI TensorRT-LLM DLC将延迟降低了33% […]

Leave a Comment

人工智能AI的非营利研究人员的进展列表’ (Rén gōng zhì néng AI de fēi yílì yánjiū rényuán de jìnzhǎn lièbiǎo)

去年底到目前为止,2023年对于AI人士来说是一个创造AI应用的好时机,这要归功于非营利性研究人员的一系列AI进展。以下是其中的一些: ALiBi ALiBi是一种有效解决文本外推问题的方法,当涉及到Transformers时,可以在推理时外推比其训练时更长的文本序列。ALiBi是一种简单易实现的方法,不影响运行时或需要额外参数,并允许通过改变现有Transformer代码的几行来实现外推。 基于RoPE的外推的扩展法则 这种方法是提升Transformer的外推能力的框架。研究人员发现,在预训练上下文长度中通过微调基于Rotary Position Embedding (RoPe)的LLM,可以获得更好的性能。 FlashAttention Transformers是处理文本信息的强大模型。然而,在处理大型文本序列时,它们需要大量的内存。FlashAttention是一种IO-aware算法,可以比现有基准线快速训练Transformers。 Branchformer Conformers(Transformers的一种变体)在语音处理方面非常有效。它们依次使用卷积和自注意力层,这使得其架构难以解释。Branchformer是一种灵活且可解释的编码器替代方案,具有并行分支以建模端到端语音处理任务中的依赖关系。 潜在扩散 虽然扩散模型在许多图像处理任务中实现了最先进的性能,但它们计算上非常昂贵,通常需要数百个GPU天。潜在扩散模型是扩散模型的一个变种,能够在需要更少资源的情况下,在各种基于图像的任务上实现高性能。 CLIP-Guidance CLIP-Guidance是一种新的文本到三维生成方法,不需要大规模标记数据集。它通过利用(或借助)预训练的视觉-语言模型,如CLIP,可以学习将文本描述与图像关联起来,研究人员使用它来从3D对象的文本描述生成图像。 GPT-NeoX GPT-NeoX是由200亿参数构成的自回归语言模型。它在各种基于知识和数学的任务上表现得相当好。它的模型权重已公开提供,以促进在各种领域的研究。 QLoRA QLoRA是一种高效减少内存使用的微调方法,它可以在单个48GB GPU上微调650亿参数的模型,并保持全16位精度的最佳任务性能。通过QLoRA微调,模型能够取得最先进的结果,超越之前的最佳模型,即使使用较小的模型架构。 RMKV Receptance Weighted Key…

Leave a Comment

提升生成式人工智能体验:Amazon SageMaker 托管中引入流媒体支持

我们很高兴地宣布,通过Amazon SageMaker实时推理,响应流式传输已经可用现在,当使用SageMaker实时推理构建生成式AI应用程序(如聊天机器人、虚拟助手和音乐生成器)时,您可以连续地将推理响应流返回给客户端,以帮助您构建交互式体验通过这个新功能,您可以在可用时立即开始流式传输响应,而不是等待整个响应生成这降低了生成式AI应用程序的首字节响应时间在本文中,我们将展示如何使用SageMaker实时终端节点和新的响应流式传输功能为交互式聊天用例构建流式网络应用程序我们在示例演示应用程序UI中使用Streamlit

Leave a Comment

在🧨扩散器中的ControlNet

自从 Stable Diffusion 席卷全球以来,人们一直在寻找更多控制生成过程结果的方法。ControlNet 提供了一个简洁的界面,允许用户在很大程度上自定义生成过程。通过 ControlNet ,用户可以轻松地使用不同的空间上下文(如深度图、分割图、涂鸦、关键点等)来调整生成过程! 我们可以将卡通图转化为具有令人难以置信的一致性的逼真照片。 逼真的 Lofi 女孩 甚至可以将其用作室内设计师。 之前 之后 您可以将您的草图涂鸦转化为艺术绘画。 之前 之后 此外,还可以让一些著名的标志活起来。 之前 之后 有了 ControlNet ,天空就是极限 🌠 在这篇博文中,我们首先介绍了…

Leave a Comment

斯坦福研究人员推出了HyenaDNA:一种长程基因组基础模型,其上下文长度可达到100万个令牌,并且具有单核苷酸分辨率

在过去几年中,人工智能(AI)领域取得了快速的进展,有可能彻底改变行业,并推动了可能性的边界。研究人员关注的一个领域是开发更强大和高效的自然语言任务模型。在这个背景下,研究人员不断努力开发能够处理更长标记的模型,因为模型中的标记数量决定了其处理和理解文本的能力。此外,更高的标记数量使模型能够考虑更广泛的上下文,从而使模型能够处理大量的数据序列。然而,在长上下文模型方面,大部分关注都集中在自然语言上,而与处理长序列的领域存在显著的疏忽:基因组学,它涉及研究生物体的遗传物质的不同方面,如结构、进化元素等。与自然语言模型采取的方法类似,研究人员提出了在基因组学中使用基础模型(FMs)来从非结构化的基因组数据中获取可泛化特征的建议。这些FMs可以进行微调,用于各种任务,如基因定位、调控元件识别等。 然而,基于Transformer架构的现有基因组模型在处理DNA序列时面临着独特的挑战。其中一个限制是注意力的二次扩展,限制了对DNA内的长程相互作用的建模。此外,主流方法依赖于固定的k-mers和标记器来聚合有意义的DNA单元,这往往导致个体DNA特征的损失。然而,与自然语言不同,这种损失是至关重要的,因为即使是微小的遗传变异也可能对蛋白质功能产生深远影响。Hyena是一种最近引入的LLM,通过利用隐式卷积成为一种有希望的替代方案来处理长序列。这种创新方法通过允许处理更长的上下文长度,显著减少计算时间复杂度,证明了与基于注意力的模型相当的质量。受到这些发现的启发,斯坦福大学和哈佛大学的研究人员团队开始调查是否可以利用Hyena的能力有效捕捉分析基因组序列所需的基本长程依赖性和个体DNA特征。 这导致了HyenaDNA的开发,这是一种基因组FM,具有处理长达100万个标记的上下文长度的前所未有的能力,相比现有的基于注意力的模型增加了500倍。利用Hyena的长程能力,HyenaDNA展示了无与伦比的可伸缩性,训练速度比配备FlashAttention的Transformer快160倍。HyenaDNA利用一系列Hyena操作符作为其模型DNA和其复杂交互的基础。该模型使用无监督学习来学习DNA序列的分布,并理解基因如何编码以及非编码区域在基因表达中起到调控功能。该模型在一些具有挑战性的基因组任务上表现出色,如长程物种分类任务。此外,与核苷酸Transformer相比,它在17个数据集中有12个达到了最先进的结果,同时使用的参数和预训练数据显著减少。 如前所述,在预训练期间,HyenaDNA可以达到100万个标记的令人印象深刻的上下文长度,使模型能够有效捕获基因组序列中的长程依赖性。此外,通过在每个层上利用单核苷酸分辨率和全局上下文进行标记化,进一步增强了模型的能力。为了解决训练不稳定性并进一步加快过程,研究人员还考虑到了序列长度预热调度器,从而使物种分类相关任务的训练时间减少了40%。HyenaDNA的另一个重要优势是其参数效率。研究人员还对模型大小和质量之间的关系进行了突破性观察,表明在较长的序列和较小的词汇表中,HyenaDNA尽管尺寸显著较小,但表现卓越。 研究人员评估了HyenaDNA在几个下游任务上的性能。在GenomicBenchmarks数据集上,预训练模型在所有八个数据集上都取得了新的最先进(SOTA)性能,远远超过了以前的方法。此外,在Nucleotide Transformer的基准测试中,HyenaDNA在17个数据集中有12个达到了SOTA结果,并且使用的参数和预训练数据要少得多。为了探索在基因组学中上下文学习(ICL)的潜力,研究人员还进行了一系列实验。他们引入了软提示标记的概念,允许输入指导冻结预训练的HyenaDNA模型的输出,而无需更新模型权重或附加解码器头部。增加软提示标记的数量显著提高了在GenomicBenchmarks数据集上的准确性。该模型在超长范围任务中也表现出色。在具有挑战性的染色质剖面任务上,HyenaDNA与SOTA稀疏变压器模型BigBird进行了有效竞争。此外,在超长范围物种分类任务中,当上下文长度增加到450K和1M标记时,该模型证明了其效率。 这些结果突显了HyenaDNA在处理复杂基因组任务方面的卓越能力,以及它在解决长程依赖和物种差异方面的潜力。他们预期这一进展将对推动AI辅助药物发现和治疗创新至关重要。此外,它还有潜力使基因组基础模型能够以个性化的方式学习和分析完整的患者基因组,进一步增强对基因组学的理解和应用。

Leave a Comment

MosaicML刚刚以Apache 2.0协议发布了他们的MPT-30B

在MosaicML-7B取得巨大成功之后,MosaicML再次超越了他们之前设定的基准。在这个新的突破性发布中,MosaicML推出了MosaicML-30B。 MosaicML是一个非常精确和强大的预训练transformer。MosaicML声称,MosaicML-30B甚至比ChatGPT3更好。 MosaicML-30B发布之前,MosaicML-7B已经席卷了人工智能界。MPT-7B的基础指导、基础聊天和故事创作都取得了巨大的成功。公司声称,这些模型在全球下载了300多万次。推动MosaicML推出更好的引擎(如MPT-30B)的最大原因之一是社区对他们之前发布的模型的热衷。 令人难以置信的是,社区如何运用这些MPT引擎构建出更好的调整并提供具体的使用案例。一些有趣的案例包括LLaVA-MPT。LLaVa-MPT将视觉理解添加到预训练的MPT-7B中。 类似地,GGML优化MPT引擎以在Apple Silicon和CPU上更好地运行。GPT4ALL是另一个使用案例,它让您使用MPT作为基础引擎运行类似于GPT4的聊天选项。 仔细观察,MosaicML能够给大公司带来激烈竞争和更好的替代品的最大原因之一是他们提供的竞争性特性列表以及他们的模型相对于不同用例的适应性和相对简单的集成。 在这个发布中,MosaicML还声称他们的MPT-30B比现有的ChatGPT3表现更好,但使用的参数数量只有ChatGPT的三分之一,使其成为相对于现有生成解决方案来说非常轻量级的模型。 它比MosaicML现有的MPT-7B更好,并且这个MPT-30B可以在商业许可下进行商业使用。 不仅如此,MPT-30B还带有两个预训练模型,即MPT-30B-Instruct和MPT-30B-Chat,这两个模型能够受到单个指令的影响,并且能够进行较长时间的多轮对话。 它之所以更好的原因还有很多。MosaicML设计MPT-30B采用自下而上的方法,确保每个移动部件都能更好地执行和更高效地运行。MPT-30B通过8k个标记上下文窗口进行训练。它通过ALiBi支持更长的上下文。 借助FlashAttention,它改进了训练和推断性能。MPT-30B还具备更强的编码能力,这要归功于他们所处理的数据的多样性。该模型在Nvidia的H100上扩展到了8K的上下文窗口。该公司声称,就他们所知,这是在H100上进行训练的第一个LLM模型,而这些模型对于客户来说是随时可用的。 MosaicML还保持了模型的轻量级,这有助于新兴组织降低运营成本。 MPT-30B的大小也是特意选择的,以便在单个GPU上轻松部署。1xA100-80GB以16位精度或1xA100-40GB以8位精度可以运行该系统。其他相当的LLMs,如Falcon-40B,具有更大的参数数量,并且不能在单个数据中心GPU上提供服务(今天);这就需要2个或更多的GPU,从而增加了最低推理系统成本。

Leave a Comment

宣布在Amazon SageMaker上推出新的Hugging Face LLM Inference容器

这篇文章是由 Philipp Schmid 和 Jeff Boudier 与 Hugging Face 共同撰写的作为亚马逊网络服务与 Hugging Face 的合作伙伴关系的一部分,我们很高兴地宣布发布一款新的 Hugging Face 深度学习容器 (DLC),用于对大型语言模型 (LLM) 进行推理这个新的 Hugging Face LLM DLC 是由…

Leave a Comment

Can't find what you're looking for? Try refining your search: