Press "Enter" to skip to content

Together AI推出了StripedHyena-7B:一种替代性的人工智能模型,与最优秀的开源变压器在短期和长期上下文评估中具有竞争力

AI ​​一起为序列建模架构作出了重大贡献,并引入了StripedHyena模型。它通过为传统的Transformer提供了新的选择,专注于计算效率和增强性能,彻底改变了这一领域。

此发布包括基础模型StripedHyena-Hessian-7B(SH 7B)和聊天模型StripedHyena-Nous-7B(SH-N 7B)。StripedHyena基于去年创建的H3、Hyena、HyenaDNA和Monarch Mixer等有效的序列建模架构的重要经验教训。

研究人员强调,该模型在训练、微调和生成过程中处理长序列时具有更快的速度和更高的内存效率。StripedHyena通过将门控卷积和注意力结合到他们所称的Hyena运算符中的混合技术中。此外,这是与强大的Transformer基础模型竞争的首个替代架构。在包括OpenLLM leaderboard任务的短上下文任务中,StripedHyena优于Llama-2 7B、Yi 7B和最强Transformer替代方案(如RWKV 14B)。

该模型在处理短上下文任务和处理较长提示的过程中通过研究各种基准进行了评估。在Project Gutenberg书籍上进行的困惑度缩放实验表明,困惑度在32k处饱和或在此点之后下降,这意味着模型能够吸收来自较长提示的信息。

StripedHyena通过一种独特的混合结构实现了效率,该结构将注意力和门控卷积组织成Hyena运算符。他们使用创新的嫁接技术优化了这种混合设计,在训练过程中实现了架构修改。

研究人员强调,StripedHyena的主要优势之一是其在训练、微调和生成长序列等各种任务中的速度和内存效率的提升。它在32k、64k和128k上的端到端训练中,分别比使用FlashAttention v2和自定义内核进行优化的Transformer基准性能提高了30%、50%和100%。

未来,研究人员希望在几个领域取得显著进展,其中包括StripedHyena模型。他们希望创建能够处理更长上下文的更大模型,从而扩大信息理解的限制。此外,他们还希望融入多模态支持,通过允许它处理和理解来自不同来源(如文本和图像)的数据,提高模型的适应性。

总之,该模型有望通过引入额外的计算(例如在门控卷积中使用多个头)改进Transformer模型。这种受线性注意力启发的方法,在H3和MultiHyena等架构中已被证明有效,提高了模型在训练过程中的质量,并为推理效率提供了优势。

Leave a Reply

Your email address will not be published. Required fields are marked *