Search Results for “FasterTransformer”

使用 QLoRA 对 Llama 2 进行微调，并在 Amazon SageMaker 上部署，配备 AWS Inferentia2

Published December 13, 2023 by 四海吧

在这篇文章中，我们展示了使用参数高效微调 (PEFT) 方法对 Llama 2 模型进行微调，并将微调后的模型部署在 AWS Inferentia2 上我们使用 AWS Neuron 软件开发工具包 (SDK) 来访问 AWS Inferentia2 设备，并从其高性能中受益然后，我们使用一个由 […] 提供支持的大型模型推断容器

Leave a Comment

使用新的Amazon SageMaker容器提升LLMs的推理性能

Published November 27, 2023 by 四海吧

今天，Amazon SageMaker推出了Large Model Inference (LMI) Deep Learning Containers (DLCs)的新版本（0.25.0），并新增了对NVIDIA的TensorRT-LLM Library的支持借助这些升级，您可以轻松访问最先进的工具，优化SageMaker上的大型语言模型（LLMs），并获得价格性能优势——Amazon SageMaker LMI TensorRT-LLM DLC将延迟降低了33% […]

Leave a Comment

Amazon EC2 DL2q实例现已全面推出，用于经济高效的高性能人工智能推断

Published November 23, 2023 by 四海吧

这是一篇由来自高通AI的A.K Roy所撰写的客座文章亚马逊弹性计算云（Amazon EC2）DL2q实例由高通AI 100标准加速器提供动力，可用于在云端高效部署深度学习（DL）工作负载它们还可用于开发和验证DL工作负载的性能和准确度

Leave a Comment

这项AI研究介绍了闪存解码：一种基于FlashAttention的新型人工智能方法，可使长内容LLM推理速度提高8倍

Published October 18, 2023 by 四海吧

大型语言模型（LLMs）如ChatGPT和Llama因其出色的自然语言处理能力而受到广泛关注，能够实现从文本生成到代码完成等各种应用。尽管它们的效用巨大，但这些模型的高运营成本也带来了重大挑战，促使研究人员寻求创新解决方案以增强其效率和可扩展性。由于生成单个响应的平均成本为0.01美元，将这些模型扩展以为数十亿用户提供服务，每个用户每天进行多次互动，相关费用可能迅速变得巨大。这些成本尤其在复杂任务（如代码自动完成）中可能呈指数级增长，在编码过程中，模型一直处于运行状态。鉴于对优化解码过程的迫切需求，研究人员已探索了一些技术，以简化和加速注意力操作，这是生成连贯和上下文相关文本的重要组成部分。 LLM的推理，通常称为解码，涉及一次一步生成令牌，其中注意力操作是决定整体生成时间的重要因素。尽管像FlashAttention v2和FasterTransformer这样的进展优化了训练过程，通过优化内存带宽和计算资源，但在推理阶段仍存在挑战。在解码过程中遇到的主要限制之一与较长的上下文相关联的注意力操作的可扩展性有关。随着越来越多的LLM任务处理更广泛的文档、对话和代码库，注意力操作可能消耗大量的推理时间，从而影响模型的整体效率。研究人员提出了一种突破性技术，称为Flash-Decoding，以解决这些挑战，借鉴以前的方法的基础。Flash-Decoding的关键创新在于其并行化方法，它以关键字和值的序列长度为中心。通过将关键字和值分割为较小的片段，该方法即使在较小批量大小和较长上下文的情况下，也能高效利用GPU。Flash-Decoding通过利用并行化的注意力计算和对数求和指数函数，大大减少了GPU内存需求，促进了整个模型架构的流畅和高效计算。为了评估Flash-Decoding的有效性，对最先进的CodeLLaMa-34b模型进行了全面的基准测试，该模型以其强大的架构和先进的功能而闻名。结果显示，与现有方法相比，对于较长序列，解码速度提高了8倍。此外，对不同序列长度和批量大小的缩放多头注意力进行的微基准测试进一步验证了Flash-Decoding的有效性，即使将序列长度扩展到64k，也展示了其稳定的性能。这种出色的性能在显著提高LLM的效率和可扩展性方面起到了重要作用，标志着大型语言模型推理技术的重大进展。总之，Flash-Decoding已成为解决大型语言模型解码过程中注意力操作相关挑战的变革性解决方案。通过优化GPU利用率和提高整体模型性能，Flash-Decoding有潜力大幅降低运营成本，并促进这些模型在各种应用中的更广泛使用。这种开创性技术代表了大型语言模型推理领域的重要里程碑，为提高自然语言处理技术的效率和加速进步铺平了道路。

Leave a Comment

使用Amazon SageMaker上的多模型模型构建一个图像到文本生成AI应用程序

Published October 7, 2023 by 四海吧

在本篇文章中，我们将提供流行的多模态模型概述我们还将演示如何在Amazon SageMaker上部署这些预训练模型此外，我们还将讨论这些模型的各种应用，特别侧重于一些现实场景，如电子商务中的零样本标签和属性生成，以及从图像中自动生成提示语

Leave a Comment

使用Amazon SageMaker改善Llama 2模型的吞吐性能

Published September 27, 2023 by 四海吧

我们正处在机器学习（ML）广泛应用的令人兴奋的转折点上，我们相信大多数客户体验和应用将通过生成式人工智能得到重新创造生成式人工智能能够创造新的内容和想法，包括对话、故事、图像、视频和音乐与大多数人工智能一样，生成式人工智能是由机器学习模型驱动的，这些模型非常庞大[…]

Leave a Comment

提升生成式人工智能体验：Amazon SageMaker 托管中引入流媒体支持

Published September 10, 2023 by 四海吧

我们很高兴地宣布，通过Amazon SageMaker实时推理，响应流式传输已经可用现在，当使用SageMaker实时推理构建生成式AI应用程序（如聊天机器人、虚拟助手和音乐生成器）时，您可以连续地将推理响应流返回给客户端，以帮助您构建交互式体验通过这个新功能，您可以在可用时立即开始流式传输响应，而不是等待整个响应生成这降低了生成式AI应用程序的首字节响应时间在本文中，我们将展示如何使用SageMaker实时终端节点和新的响应流式传输功能为交互式聊天用例构建流式网络应用程序我们在示例演示应用程序UI中使用Streamlit

Leave a Comment

北京大学研究人员推出FastServe：用于大型语言模型（LLMs）的分布式推理服务系统

Published July 19, 2023 by 四海吧

大型语言模型（LLM）的改进在各个领域创造了机遇，并激发了一波新的交互式人工智能应用的浪潮。其中最值得注意的是ChatGPT，它使人们能够与AI代理进行非正式的交流，解决从软件工程到语言翻译的问题。由于其出色的能力，ChatGPT是历史上增长最快的项目之一。许多公司都追随这一趋势发布了类似LLM和ChatGPT的产品，包括微软的新Bing、谷歌的Bard、Meta的LLaMa、斯坦福大学的Alpaca、Databricks的Dolly和加州大学伯克利分校的Vicuna。 LLM推理与其他深度神经网络（DNN）模型推理（例如ResNet）不同，因为它具有特殊的特点。建立在LLM上的交互式人工智能应用必须提供推理功能。这些应用的交互设计要求LLM推理具有快速的作业完成时间（JCT），以提供引人入胜的用户体验。例如，当用户将数据提交到ChatGPT时，他们期望立即得到回应。然而，由于LLM的数量和复杂性，推理服务基础设施面临巨大压力。企业建立昂贵的集群，并配备了GPU和TPU等加速器来处理LLM推理操作。 DNN推理任务通常是确定性的，高度可预测的，即模型和硬件在很大程度上决定了推理任务的执行时间。例如，使用同一ResNet模型在某个GPU上处理不同的输入照片，其执行时间会有所变化。相反，LLM推理具有独特的自回归模式。LLM推理工作经过多轮迭代。每次迭代产生一个输出标记，然后将其添加到输入中，以在下一轮迭代中生成后续标记。输出长度在开始时是未知的，它既影响执行时间，也影响输入长度。大多数确定性模型推理任务（例如ResNet执行的任务）都可以通过现有的推理服务系统（如Clockwork和Shepherd）来处理。这些系统基于精确的执行时间分析进行调度决策，但对于具有可变执行时间的LLM推理来说是无效的。LLM推理的最先进方法是Orca。它建议在每次迭代后将新任务添加到当前处理批处理中，或者删除已完成的任务。然而，它使用先来先服务（FCFS）的方式处理推理任务。调度的任务将持续运行，直到完成。由于受限的GPU内存容量和推理任务的低JCT要求，处理批处理不能随着任意数量的传入函数而增加。完成运行的处理中的先行阻塞是众所周知的问题。由于LLM庞大且执行时间较长，这个问题对LLM推理操作尤为严重。大型LLM推理任务，特别是输出长度较长的任务，将花费很长时间才能完成，并阻塞后续的短任务。北京大学的研究人员开发了一种名为FastServe的分布式推理服务解决方案，用于LLM。为了实现每个输出标记级别的抢占，FastServe使用了迭代级别的调度和LLM推理的自回归模式。FastServe可以选择在生成输出标记后继续进行计划任务，或者通过排队中的其他任务来抢占它。这使得FastServe可以通过抢占式调度来减少JCT和先行阻塞。独特的跳过连接多级反馈队列（MLFQ）调度器是FastServe的基础。MLFQ是一种在无信息环境下最小化平均JCT的著名方法。每个任务在最高优先级队列中开始，如果在一定时间内未完成，则降级到下一个优先级队列。LLM推理是半信息不可知的，这意味着虽然不知道输出长度，但知道输入长度。这是LLM推理与传统情况之间的主要区别。输入长度决定了创建初始输出标记的执行时间，由于LLM推理的自回归模式，这可能比后续标记的执行时间要长得多。当输入较长且输出较短时，初始输出标记的执行时间占据了大部分工作量。他们将这一特性用于将跳过连接添加到传统的MLFQ中。每个到达的任务通过将第一个输出标记的执行时间与队列的降级阈值进行比较，而不总是进入最高优先级队列中的适当队列。绕过高优先级队列以最小化降级。使用MLFQ进行抢占式调度会增加额外的内存开销，以保持已开始但未完成的作业处于中间状态。LLM为每个Transformer层维护一个键值缓存，用于存储中间状态。只要批处理大小未超过，FCFS缓存需要存储计划任务的中间状态。然而，可能已经开始了MLFQ中的其他任务，但它们被降级到优先级较低的队列中。MLFQ中的所有已开始但未完成的作业都必须由缓存维护中间状态。考虑到LLM的大小和GPU的受限内存空间，缓存可能会溢出。当缓存已满时，调度器可能会简单地延迟启动新的作业，但这又会导致先行阻塞。相反，他们开发了一种高效的GPU内存管理系统，当低优先级队列中的进程被调度并且缓存快满时，主动将进程状态上传，并在缓存快满时卸载状态。为了提高效率，他们采用了流水线和异步内存操作。FastServe使用张量和流水线并行等并行化技术，为无法放入一个GPU中的大型模型提供分布式推理服务。为了减少流水线冒泡，调度程序同时执行多个批次的作业。键值缓存由键值缓存管理器组织，并且管理GPU和主机内存之间的内存交换。他们基于NVIDIA FasterTransformer实现了FastServe系统原型。结果表明，与最先进的解决方案Orca相比，FastServe平均和尾部JCT分别提高了5.1和6.4。

Leave a Comment

在亚马逊SageMaker上部署带有大模型推理DLC的Falcon-40B

Published June 13, 2023 by 四海吧

上周，技术创新研究院（TII）推出了TII Falcon LLM，这是一个开放源代码的基础性大语言模型（LLM）使用Amazon SageMaker训练了1万亿令牌的Falcon，在性能方面表现出色（在撰写本文时Hugging Face排行榜上排名第一），同时相对轻便且比其他LLM（如llama-65B）更便宜易于托管在…

Leave a Comment

9 search results for "FasterTransformer"