Press "Enter" to skip to content

高效地为开源LLM提供服务

Photo by Mariia Shalabaieva on Unsplash

本文介绍了我使用6种常见方法为开源LLM提供服务的个人经验:AWS Sage Maker、Hugging Face、Together.AI、VLLM和Petals.ml。

挣扎…

你感受到了为自己的精细调整的开源LLM提供服务的痛苦、挣扎和荣耀,然而,由于成本、推理时间、可靠性和技术挑战,你最终决定回到Open AI或Anthropic 🙁 你也放弃了租用A100 GPU(许多供应商的GPU已经预订满到2023年底!)。而且你没有10万美元来购买一个2层A100服务器箱。尽管如此,你仍然梦想着,并且你真的希望开源能够为你的解决方案工作。也许你的公司不想将其私有数据发送给Open AI,或者你想要一个针对非常特定任务的精细调整模型?在本文中,我将概述和比较2023年为开源LLM提供服务的一些最有效的推理方法/平台。我将比较和对比6种方法,并解释何时应该使用其中一种。我个人尝试过这6种方法,并将详细介绍我的个人经验:AWS Sage Maker、Hugging Face推理端点、Together.AI、VLLM和Petals.ml。我并没有与这些供应商有任何经济联系,只是为了他人的利益分享我的经验。请告诉我你的经验!

为什么选择开源?

开源模型具有诸多优势,包括控制、隐私和潜在的成本降低。例如,您可以为特定的用例微调一个较小的开源模型,从而获得准确的结果和快速的推理时间。隐私控制意味着推理可以在您自己的服务器上进行。另一方面,成本降低比您想象的要困难得多。Open AI具有规模经济,并具有竞争性定价。他们针对GPT-3.5 Turbo的定价模型非常难以与之竞争,并且已被证明与电费成本相似。尽管如此,您仍然可以使用方法和技术来节省资金,并在开源模型上获得出色的结果。例如,我目前的Stable Beluga 2的精细调整模型在性能上明显优于GPT-3.5 Turbo,并且对我的应用来说更便宜。所以我…

Leave a Reply

Your email address will not be published. Required fields are marked *