Press "Enter" to skip to content

2 search results for "The Multiverse AI"

案例研究:使用Hugging Face Infinity和现代CPU实现毫秒级延迟

介绍 迁移学习改变了机器学习领域,从自然语言处理(NLP)到音频和计算机视觉任务,提高了准确性。在Hugging Face,我们努力使这些新的复杂模型和大型检查点尽可能易于访问和使用。但是,虽然研究人员和数据科学家已经转向了Transformer的新世界,但很少有公司能够在生产规模上部署这些大型复杂模型。 主要瓶颈是预测的延迟,这可能使大规模部署变得昂贵,并使实时应用场景变得不切实际。解决这个问题对于任何机器学习工程团队来说都是一个困难的工程挑战,并且需要使用先进的技术将模型优化到硬件层面。 通过Hugging Face Infinity,我们提供了一个容器化解决方案,可以轻松部署低延迟、高吞吐量、硬件加速的推理流水线,适用于最受欢迎的Transformer模型。公司可以在简单易用的包装中获得Transformer的准确性和大规模部署所需的效率。在本博客文章中,我们想分享Infinity在最新一代英特尔Xeon CPU上运行的详细性能结果,以实现Transformer部署的最佳成本、效率和延迟。 什么是Hugging Face Infinity Hugging Face Infinity是一个容器化解决方案,供客户在任何基础设施上部署端到端优化的最先进的Transformer模型的推理流水线。 Hugging Face Infinity包括两个主要服务: Infinity Container是作为Docker容器交付的硬件优化推理解决方案。 Infinity Multiverse是一个模型优化服务,用于针对目标硬件优化Hugging Face Transformer模型。Infinity Multiverse与Infinity Container兼容。…

Leave a Comment

Can't find what you're looking for? Try refining your search: