另一种使用Amazon SageMaker高效托管和扩展您的LLMs的方法
大型语言模型(LLMs)由于每周都有新模型发布而越来越受欢迎。随着这些模型数量的增加,我们托管它们的选项也在增加。在我之前的文章中,我们探讨了如何利用Amazon SageMaker中的DJL Serving来高效托管LLMs。在本文中,我们将探讨另一种优化的模型服务器和解决方案,即HuggingFace文本生成推断(TGI)。
注意:对于那些对AWS还不熟悉的人,请确保在以下链接处注册一个账户,以便跟随本文。本文还假定您对SageMaker部署有中级的理解,我建议您先阅读本文以更深入地了解部署/推断。
免责声明:我是AWS的机器学习架构师,我的观点属于个人观点。
为什么选择HuggingFace文本生成推断?它如何与Amazon SageMaker一起工作?
TGI是由HuggingFace开发的一种使用Rust、Python和gRPC的模型服务器,可用于托管特定的大型语言模型。HuggingFace一直是自然语言处理的中心枢纽,并提供了许多关于LLMs的优化,下面是其中的一些,详细列表请参考文档。
- 张量并行处理,以便在多个GPU上高效托管
- 使用SSE进行标记流式传输
- 位和字节的量化
- 输出包装器(具有不同的参数,如温度、top-k、top-n等)
我注意到这种解决方案的一个重要优点是其简单易用。TGI目前支持以下优化的模型架构,您可以直接使用TGI容器进行部署。
- BLOOM
- FLAN-T5
- Galactica
- GPT-Neox
- Llama
- OPT
- SantaCoder
- Starcoder
- Falcon 7B
- Falcon 40B