使用HuggingFace TGI部署大型语言模型

另一种使用Amazon SageMaker高效托管和扩展您的LLMs的方法

大型语言模型（LLMs）由于每周都有新模型发布而越来越受欢迎。随着这些模型数量的增加，我们托管它们的选项也在增加。在我之前的文章中，我们探讨了如何利用Amazon SageMaker中的DJL Serving来高效托管LLMs。在本文中，我们将探讨另一种优化的模型服务器和解决方案，即HuggingFace文本生成推断（TGI）。

注意：对于那些对AWS还不熟悉的人，请确保在以下链接处注册一个账户，以便跟随本文。本文还假定您对SageMaker部署有中级的理解，我建议您先阅读本文以更深入地了解部署/推断。

免责声明：我是AWS的机器学习架构师，我的观点属于个人观点。

为什么选择HuggingFace文本生成推断？它如何与Amazon SageMaker一起工作？

TGI是由HuggingFace开发的一种使用Rust、Python和gRPC的模型服务器，可用于托管特定的大型语言模型。HuggingFace一直是自然语言处理的中心枢纽，并提供了许多关于LLMs的优化，下面是其中的一些，详细列表请参考文档。

张量并行处理，以便在多个GPU上高效托管
使用SSE进行标记流式传输
位和字节的量化
输出包装器（具有不同的参数，如温度、top-k、top-n等）

我注意到这种解决方案的一个重要优点是其简单易用。TGI目前支持以下优化的模型架构，您可以直接使用TGI容器进行部署。

BLOOM
FLAN-T5
Galactica
GPT-Neox
Llama
OPT
SantaCoder
Starcoder
Falcon 7B
Falcon 40B