2389 search results for "ML"

MLX对比MPS对比CUDA：基准测试

Published December 15, 2023 by 四海吧

如果你是一位Mac用户，同时也是一名深度学习爱好者，那么你可能曾经希望你的Mac能够处理那些庞大的模型，对吗？好消息就是，苹果刚刚发布了MLX，一个框架…

微软AI发布了LLMLingua：一种独特的快速压缩技术，可用于压缩大型语言模型（LLMs）的提示，以加快推理速度

Published December 13, 2023 by 四海吧

鉴于大型语言模型(LLM)具备较强的概括和推理能力，它们显著地提升了人工智能(AI)社区的水平。这些模型在自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面展示了令人瞩目的能力。然而，包括语境学习(ICL)和思维链(CoT)提示在内的新发展，导致了使用较长提示的部署，有时甚至超过几万个令牌。这在模型推理方面带来了成本效益和计算效率的问题。为了克服这些挑战，微软公司的研究团队推出了LLMLingua，一种独特的粗粒度快速压缩技术。LLMLingua的主要目标是最小化与处理长提示相关的开销，并加速模型推理。为此，LLMLingua采用了一些重要策略，包括以下几点。预算控制器：创建了一个动态预算控制器，用于分配压缩比率给原始提示的各个部分。这确保提示的语义完整性在大量压缩比率下仍然保持。令牌级迭代压缩算法：将令牌级迭代压缩算法集成到LLMLingua中。这种技术通过捕捉压缩元素之间的相互依赖关系，实现了更复杂的压缩，同时保留了提示的关键信息。基于指令调整的方法：该团队提出了一种基于指令调整的方法，以解决语言模型之间分布不匹配的问题。调整语言模型的分布可以提高用于快速压缩的小语言模型与预期的LLM之间的兼容性。研究团队使用来自不同情况的四个数据集进行了分析和实验，以验证LLMLingua的实用性。这些数据集包括推理的GSM8K和BBH、对话的ShareGPT以及摘要的Arxiv-March23。结果表明，该方法在每种情况下都取得了最先进的性能。结果甚至显示，LLMLingua可以在牺牲很少性能的情况下，实现高达20倍的显著压缩。实验中使用的小语言模型是LLaMA-7B，封闭式LLM是GPT-3.5-Turbo-0301。LLMLingua在最大压缩比20倍时超越了以前的压缩技术，在保留推理、摘要和讨论能力方面表现出了韧性、经济性、高效性和可恢复性。 LLMLingua的有效性在多个封闭式LLM和小语言模型中得到证实。在使用GPT-2-small时，LLMLingua展示了出色的性能结果，与更大的模型大致匹配。它还在强大的LLM上表现出色，超过了预期的快速结果。 LLMLingua的可恢复性是一个值得注意的方面，因为当使用它来恢复压缩的提示时，GPT-4能够有效地从完整的9步CoT提示中检索重要的推理信息，并保持原始提示的含义和相似性。这个功能保证了可恢复性，即使在翻译后仍保留了关键信息，增加了LLMLingua的整体印象。总而言之，LLMLingua为LLM应用中长提示带来的困难提供了全面的解决方案。该方法展现了出色的性能，并提供了提高LLM应用的效果和价格效益的有用途径。