令人难以置信的大型语言模型(LLM)的引入在人工智能领域具有划时代的意义。由于这些复杂算法受到大量数据和计算能力的驱动,人类与技术的互动方式发生了变化。人工智能正在改变人与机器的互动方式,而借助于LLM的强大能力,许多领域正在得到革命性的改变。
Transformer模型需要前馈层,因为它们对模型的性能至关重要。这些层负责转换输入数据,并且对模型的性能起着核心作用。近年来,Transformer模型的规模不断扩大,其前馈层现在包含数万个隐藏神经元。因为模型规模的增长导致了推断过程中更高的计算开销,因此寻找加速前馈层计算的策略至关重要。
在非常大的网络中,只需要前馈隐藏神经元的一小部分就足以确定给定输入的输出。为了应对这一认识,人们努力创建利用这种现象的模块化网络。最近在这个领域的研究集中在鼓励前馈层稀疏性的架构布局上。这些设计要求训练一个门控层,在推断过程中选择要使用的专家,并将前馈层细分为不同的神经元块。这种方法增加了训练复杂性,缩短了推断时间,但也依赖于有噪声的门控。
作为现有方法的替代方案,来自苏黎世联邦理工学院的两位研究人员引入了快速前馈(FFF)架构。FFF使用可微分的二叉树,将输入空间分为多个区域,同时学习每个区域的边界和相关的神经元块。与传统的前馈层和模块化技术相比,FFF具有优势。它通过对数时间访问特定的神经元块,降低了推断时间。这与之前方法的前馈层宽度线性扩展形成对比。
FFF与混合专家(MoE)方法进行了比较,后者也使用专家块但包含有噪声的门控。FFF避免了这种噪声,并通过减少计算复杂性实现了更快的推断。研究人员还强调了FFF取得的令人印象深刻的速度增益。它指出,FFF比传统的前馈网络快220倍,这表明在计算效率方面有了显著改进。例如,FFF在视觉Transformer中的应用被强调,声称FFF在仅使用1%的神经元的情况下可以保持94.2%的预测性能。
总之,FFF的设计无疑是提高神经网络计算效率的一种划时代的方法。与专家混合网络相比,它表现出色,并且与典型的前馈网络相比,推断时间大大缩短。FFF的训练特性,如无噪声的条件执行以及在使用较少神经元的情况下达到良好的预测准确性,也是其主要特点。这些发展有潜力加快和提高巨型模型的性能,从而革新深度学习行业。