Press "Enter" to skip to content

5 search results for "Looka"

迎接EAGLE:基于压缩的快速LLM解码的新机器学习方法

大型语言模型(LLMs)如ChatGPT在自然语言处理领域取得了巨大的革命性进展,展示了他们在各种语言相关任务中的能力。然而,这些模型面临着一个关键问题——自回归解码过程,其中每个标记都需要进行完整的前向通行。这种计算瓶颈在拥有庞大参数集的LLMs中尤为明显,在实时应用中产生了障碍,并给具有受限GPU能力的用户带来了挑战。 来自Vector Institute、滑铁卢大学和北京大学的研究人员介绍了EAGLE(Extrapolation Algorithm for Greater Language-Model Efficiency),以应对LLM解码中固有的挑战。与Medusa和Lookahead等传统方法有所不同,EAGLE采取了一种独特的方法,专注于对第二层顶层上下文特征向量的外推。与前辈们不同,EAGLE努力高效地预测后续特征向量,为文本生成提供了显著加速的突破。 EAGLE方法的核心是部署了一种轻量级插件——FeatExtrapolator。这个插件与原始LLM的冻结嵌入层一起进行训练,根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础建立在特征向量随时间的可压缩性上,为加快标记生成铺平了道路。值得注意的是,EAGLE具有出色的性能指标;与普通解码相比,它的速度提高了三倍,比Lookahead快了一倍,并且相对于Medusa加速了1.6倍。最为关键的是,它保持了与普通解码一致性,确保了生成文本分布的保持。 https://sites.google.com/view/eagle-llm EAGLE的能力远不止于加速。它可以在标准GPU上进行训练和测试,使更广泛的用户群体能够使用。它与各种并行技术的无缝集成增加了其应用的灵活性,进一步巩固了它作为高效语言模型解码工具包中宝贵的补充的地位。 考虑到该方法对FeatExtrapolator的依赖,这是一个轻量级但功能强大的工具,与原始LLM的冻结嵌入层合作。这种合作根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础根植于特征向量随时间的可压缩性,为更流畅的标记生成过程提供了途径。 https://sites.google.com/view/eagle-llm 传统的解码方法需要对每个标记进行完整的前向通行,而EAGLE的特征级外推提供了一个新的解决方案。研究团队的理论探索最终形成了一种方法,不仅显著加速了文本生成,而且保持了生成文本的分布的完整性——这是维护语言模型输出质量和连贯性的关键因素。 https://sites.google.com/view/eagle-llm 总结起来,EAGLE在解决LLM解码长期存在的低效问题上脱颖而出。通过巧妙地解决自回归生成的核心问题,EAGLE的研究团队提出了一种不仅能大幅加速文本生成,而且能保持分布一致性的方法。在实时自然语言处理需求激增的时代,EAGLE的创新方法使其成为前沿技术的领跑者,填补了尖端技术能力与实际应用之间的鸿沟。

Leave a Comment

“‘前瞻解码’:一种加速LLM推理的并行解码算法”

虽然像GPT-4和LLaMA这样的大型语言模型正在快速重新塑造现代应用,但它们的推理速度较慢且很难优化,因为它们是基于自回归解码的。LLM的请求延迟主要取决于请求的答案长度,或者等效地说,解码步骤的数量,因为每个自回归解码步骤一次只产生一个标记。不幸的是,当前的GPU并行处理能力通常没有得到充分利用,因为每个解码步骤没有利用它。这对于许多实际的LLM应用(如聊天机器人和个人助理)来说是个问题,它们依赖于即时响应,并因此经常产生具有低延迟的大序列。 自回归解码可以通过使用像Medusa和OSD这样的猜测解码方法加速,这些方法使用“猜测和验证”的策略,其中初步模型对未来的几个可能标记进行预测,然后原始LLM并行地检查这些预测。这些方法可以通过利用需要更少解码步骤时的情况来减少延迟。然而,它们也有一些限制。首先,标记接受率,或者等效地说,草稿模型正确预测主模型输出的能力,是基于猜测解码方法能够实现的最大速度增加的上界。其次,开发可靠的初步模型并不容易,通常需要更多的训练和精心调整来应对随时间变化的流量变化。 LMSYS ORG的一项新研究提出了前瞻解码,这是一种新颖的精确解码技术,用于解决这些困难。虽然在单个步骤中解码许多连续标记在计算上是不可行的,但观察到LLM可以同时生成多个正交n-gram。这些n-gram有可能适应所创建序列的未来部分。传统的雅可比迭代方法被改进为并行解码,这样可以将自回归解码视为非线性方程的解。生成的n-gram被记录、检查,然后(如果合适)被并入序列。前瞻解码特别值得注意的是: 它不使用初步模型,从而加速了推出速度。 对于每个阶段,通过log(FLOPs)因子减少了总解码步骤的数量。 研究人员证明了前瞻解码显著降低了延迟,达到了1.5倍到2.3倍的减少,而几乎没有增加计算负担。最重要的是,它允许在处理方面的权衡来减少延迟,尽管收益递减。 研究人员已经创建了他们的实现,使前瞻解码与huggingface/transformers配合使用。HuggingFace提供了一个本地生成的函数,但用户可以通过几行代码显著提高其效率。 雅可比迭代是一种解决非线性系统的历经验证的技术。LLM推理也可以用于并行生成标记,而无需预训练模型。由于雅可比解码的每个步骤都涉及对>1个标记的LLM前向计算,因此从所需的FLOPs角度来看,它比每个自回归解码步骤更昂贵。研究人员观察到,在尝试显着提高雅可比解码在实际应用中的墙钟性能时可能会遇到几个困难。虽然它可以在一系列步骤中解码多个标记,但它通常会错误地排列它们的顺序。即使正确地预测,标记也经常在下一个周期被替换。因此,很少有迭代成功地同时解码和正确放置多个标记。由于这一点,使用并行解码的整个目的被取消了。通常,它不会导致性能下降,因为图形处理单元具有并行处理能力。 前瞻解码可以通过利用雅可比解码生成并行n-gram的能力来避免其缺点。在一个位置处,每个新标记都是使用之前迭代中该位置的值进行解码,就像雅可比解码中一样。由于这个过程,会形成许多n-gram,这在每个标记位置上建立了历史标记的时间线。为了使用这些,前瞻解码将根据它们的轨迹收集和缓存这些n-gram。前瞻解码同时从缓存中检查有希望的n-gram,并使用雅可比迭代进行未来标记的并行解码。 每个前瞻解码阶段都被分为两个平行分支——前瞻分支和验证分支,以提高效率。为了从雅可比迭代轨迹中生成n-gram,前瞻分支保持一个大小恒定的二维窗口。同时,验证分支选择并检查显示潜力的n-gram候选项。 由于内存带宽是LLM解码的主要瓶颈,研究人员将前瞻分支和验证分支合并为单个传递,利用GPU的并行处理能力,同时隐藏任何相关的开销。 团队对LLaMA-2-Chat和CodeLLaMA在MT-bench、HumanEval和GSM8K上的不同尺寸进行了测试,以了解他们的前瞻解码技术的有效性。前瞻解码技术可以提供速度提升,无需微调或预备模型。在fp16精度下,他们在单个A100 GPU上评估了7B、13B和33B模型,以及在两个A100 GPU上使用流水线并行性评估了70B模型。 MT-Bench LLaMA讨论:在许多模型配置中,前瞻解码所实现的加速比约为1.5倍。 HumanEval的CodeLLaMA:在HumanEval上使用前瞻解码时,CodeLLaMA的延迟时间缩短了两倍以上。这是因为代码中包含了许多容易猜测的N-gram。 GSM8K的教学CodeLLaMA:通过前瞻解码,CodeLLama-Instructor在GSM8K的数学挑战中将延迟时间缩短了1.8倍。 本文《‘前瞻解码’:一种并行解码算法加速LLM推断》首发于MarkTechPost。

Leave a Comment

50+ 2023年11月最新的尖端人工智能AI工具

AI工具的开发正在迅速增加,每天都有新的工具问世。以下是一些可以增强您日常例行事务的AI工具。 AdCreative.ai 提升您的广告和社交媒体能力,使用AdCreative.ai——终极人工智能解决方案。 Hostinger AI网站构建器 Hostinger AI网站构建器提供直观的界面和先进的AI功能,用于构建任何用途的网站。 Motion Motion是一个巧妙的工具,利用人工智能创建适应您的会议、任务和项目的日程安排。 Otter AI Otter.AI利用人工智能实时生成会议记录的转录,这些转录可共享、搜索、访问和保护。 Sanebox Sanebox是一款由人工智能驱动的电子邮件优化工具。SaneBox的人工智能识别重要电子邮件,并自动组织其他邮件,帮助您保持专注。 Notion AI Notion AI是一个写作助手,可以帮助用户在Notion工作区内进行写作、头脑风暴、编辑和总结。 Pecan AI Pecan AI通过自动化预测分析解决当今的业务挑战:预算缩减、成本上升以及有限的数据科学和人工智能资源。Pecan的低代码预测建模平台提供基于人工智能的预测分析,指导数据驱动的决策,并帮助业务团队实现目标。 Aragon 使用Aragon轻松获得令人惊艳的专业头像照片。利用最新的人工智能技术,即可快速创建高质量的头像照片,无需预订摄影工作室或打扮一番。 Taskade…

Leave a Comment

50+全新前沿人工智能工具(2023年7月)

AI工具正在快速发展,新的工具不断推出。查看下面一些可以增强您日常工作的AI工具。 tl;dv 这个工具由GPT模型提供动力,是Zoom和Google Meet的会议记录器。 tl;dv 为用户转录和总结通话。 Otter AI Otter.AI使用人工智能,为用户提供实时会议笔记转录,这些笔记可共享、可搜索、易于访问和安全。 Taskade Taskade是一款AI生产力工具,可帮助用户高效地管理任务和项目。 Notion AI Notion AI是一款写作助手,可以帮助用户在Notion工作区内写作、头脑风暴、编辑和总结。 Bing 微软推出了AI驱动的Bing搜索引擎,就像在搜索网络时拥有研究助手、个人计划师和创意伙伴。 Bard Bard是由Google开发的聊天机器人,可帮助提高生产力并将想法变为现实。 Forefront Forefront AI是一个平台,提供GPT-4、图像生成、自定义角色和可共享聊天等免费访问,从而为企业提供了改进的效率和用户体验。 Merlin Merlin是一个ChatGPT扩展程序,可帮助用户在任何网站上完成任何任务,提供博客摘要和Gmail AI写手等功能。…

Leave a Comment

Can't find what you're looking for? Try refining your search: