高效地为开源LLM提供服务

Photo by Mariia Shalabaieva on Unsplash — Mariia Shalabaieva在Unsplash上的照片

本文介绍了我使用6种常见方法为开源LLM提供服务的个人经验：AWS Sage Maker、Hugging Face、Together.AI、VLLM和Petals.ml。

挣扎…

你感受到了为自己的精细调整的开源LLM提供服务的痛苦、挣扎和荣耀，然而，由于成本、推理时间、可靠性和技术挑战，你最终决定回到Open AI或Anthropic 🙁 你也放弃了租用A100 GPU（许多供应商的GPU已经预订满到2023年底！）。而且你没有10万美元来购买一个2层A100服务器箱。尽管如此，你仍然梦想着，并且你真的希望开源能够为你的解决方案工作。也许你的公司不想将其私有数据发送给Open AI，或者你想要一个针对非常特定任务的精细调整模型？在本文中，我将概述和比较2023年为开源LLM提供服务的一些最有效的推理方法/平台。我将比较和对比6种方法，并解释何时应该使用其中一种。我个人尝试过这6种方法，并将详细介绍我的个人经验：AWS Sage Maker、Hugging Face推理端点、Together.AI、VLLM和Petals.ml。我并没有与这些供应商有任何经济联系，只是为了他人的利益分享我的经验。请告诉我你的经验！

为什么选择开源？

开源模型具有诸多优势，包括控制、隐私和潜在的成本降低。例如，您可以为特定的用例微调一个较小的开源模型，从而获得准确的结果和快速的推理时间。隐私控制意味着推理可以在您自己的服务器上进行。另一方面，成本降低比您想象的要困难得多。Open AI具有规模经济，并具有竞争性定价。他们针对GPT-3.5 Turbo的定价模型非常难以与之竞争，并且已被证明与电费成本相似。尽管如此，您仍然可以使用方法和技术来节省资金，并在开源模型上获得出色的结果。例如，我目前的Stable Beluga 2的精细调整模型在性能上明显优于GPT-3.5 Turbo，并且对我的应用来说更便宜。所以我…