Press "Enter" to skip to content

Tag: AWS Inferentia

使用 QLoRA 对 Llama 2 进行微调,并在 Amazon SageMaker 上部署,配备 AWS Inferentia2

在这篇文章中,我们展示了使用参数高效微调 (PEFT) 方法对 Llama 2 模型进行微调,并将微调后的模型部署在 AWS Inferentia2 上我们使用 AWS Neuron 软件开发工具包 (SDK) 来访问 AWS Inferentia2 设备,并从其高性能中受益然后,我们使用一个由 […] 提供支持的大型模型推断容器

Leave a Comment

使用AWS专门构建的加速器,将您的机器学习工作负载的能耗降低高达90%

机器学习(ML)工程师传统上关注模型训练和部署成本与性能之间的平衡越来越多的客户逐渐将可持续性(能源效率)作为额外目标这一点非常重要,因为训练ML模型,然后使用训练好的模型进行预测(推理)可能是高能耗的任务此外,更多…

Leave a Comment

AWS Inferentia2 在 AWS Inferentia1 的基础上进行了升级,其吞吐量提高了4倍,延迟降低了10倍

机器学习(ML)模型的规模——包括大型语言模型(LLMs)和基础模型(FMs)——每年都在迅速增长,这些模型需要更快、更强大的加速器,特别是用于生成式人工智能AWS Inferentia2 从基础设计上就旨在提供更高的性能,同时降低 LLM 和生成式人工智能推断的成本在此[…]

Leave a Comment