Press "Enter" to skip to content

10 search results for "SIMD"

使用 QLoRA 对 Llama 2 进行微调,并在 Amazon SageMaker 上部署,配备 AWS Inferentia2

在这篇文章中,我们展示了使用参数高效微调 (PEFT) 方法对 Llama 2 模型进行微调,并将微调后的模型部署在 AWS Inferentia2 上我们使用 AWS Neuron 软件开发工具包 (SDK) 来访问 AWS Inferentia2 设备,并从其高性能中受益然后,我们使用一个由 […] 提供支持的大型模型推断容器

Leave a Comment

“超快速BERT:指数级加速语言建模”

语言模型和生成型人工智能因其功能而闻名,是人工智能行业的热门话题全球研究人员正在提升其效能和能力这些系统通常是深度学习模型,它们在广泛标注的数据上进行预训练,并融合了自注意力神经网络它们使用各种层次——前馈、递归、嵌入和注意力——来处理输入文本并产生[…]

Leave a Comment

在现代CPU上扩展BERT类模型的推断 – 第2部分

介绍:使用英特尔软件优化 CPU 上的 AI 效率 正如我们在之前的博客文章中详细介绍的那样,英特尔 Xeon CPU 提供了一组专为 AI 工作负载设计的特性,例如 AVX512 或 VNNI(矢量神经网络指令),用于使用整数量化神经网络进行高效推断,以及额外的系统工具,以确保以最高效的方式完成工作。在本博客文章中,我们将重点介绍软件优化,并让您了解英特尔的新一代 Ice Lake Xeon CPU 的性能。我们的目标是为您提供软件方面的全部信息,以充分利用您的英特尔硬件。与之前的博客文章一样,我们将展示基准测试结果和图表,以及新的工具,使所有这些参数和特性易于使用。 今年四月,英特尔推出了最新一代英特尔 Xeon 处理器,代号 Ice Lake,针对更高效和高性能的 AI…

Leave a Comment

AWS Inferentia2 在 AWS Inferentia1 的基础上进行了升级,其吞吐量提高了4倍,延迟降低了10倍

机器学习(ML)模型的规模——包括大型语言模型(LLMs)和基础模型(FMs)——每年都在迅速增长,这些模型需要更快、更强大的加速器,特别是用于生成式人工智能AWS Inferentia2 从基础设计上就旨在提供更高的性能,同时降低 LLM 和生成式人工智能推断的成本在此[…]

Leave a Comment

Can't find what you're looking for? Try refining your search: