Press "Enter" to skip to content

人工智能AI的非营利研究人员的进展列表’ (Rén gōng zhì néng AI de fēi yílì yánjiū rényuán de jìnzhǎn lièbiǎo)

去年底到目前为止,2023年对于AI人士来说是一个创造AI应用的好时机,这要归功于非营利性研究人员的一系列AI进展。以下是其中的一些:

ALiBi

ALiBi是一种有效解决文本外推问题的方法,当涉及到Transformers时,可以在推理时外推比其训练时更长的文本序列。ALiBi是一种简单易实现的方法,不影响运行时或需要额外参数,并允许通过改变现有Transformer代码的几行来实现外推。

基于RoPE的外推的扩展法则

这种方法是提升Transformer的外推能力的框架。研究人员发现,在预训练上下文长度中通过微调基于Rotary Position Embedding (RoPe)的LLM,可以获得更好的性能。

FlashAttention

Transformers是处理文本信息的强大模型。然而,在处理大型文本序列时,它们需要大量的内存。FlashAttention是一种IO-aware算法,可以比现有基准线快速训练Transformers。

Branchformer

Conformers(Transformers的一种变体)在语音处理方面非常有效。它们依次使用卷积和自注意力层,这使得其架构难以解释。Branchformer是一种灵活且可解释的编码器替代方案,具有并行分支以建模端到端语音处理任务中的依赖关系。

潜在扩散

虽然扩散模型在许多图像处理任务中实现了最先进的性能,但它们计算上非常昂贵,通常需要数百个GPU天。潜在扩散模型是扩散模型的一个变种,能够在需要更少资源的情况下,在各种基于图像的任务上实现高性能。

CLIP-Guidance

CLIP-Guidance是一种新的文本到三维生成方法,不需要大规模标记数据集。它通过利用(或借助)预训练的视觉-语言模型,如CLIP,可以学习将文本描述与图像关联起来,研究人员使用它来从3D对象的文本描述生成图像。

GPT-NeoX

GPT-NeoX是由200亿参数构成的自回归语言模型。它在各种基于知识和数学的任务上表现得相当好。它的模型权重已公开提供,以促进在各种领域的研究。

QLoRA

QLoRA是一种高效减少内存使用的微调方法,它可以在单个48GB GPU上微调650亿参数的模型,并保持全16位精度的最佳任务性能。通过QLoRA微调,模型能够取得最先进的结果,超越之前的最佳模型,即使使用较小的模型架构。

RMKV

Receptance Weighted Key Value(RMKV)模型是一种利用Transformers和递归神经网络(RNNs)的优点并绕过它们关键缺点的新型架构。RMKV在与相似规模的Transformer相比具有可比较的性能,为未来的开发更高效的模型铺平了道路。

Leave a Reply

Your email address will not be published. Required fields are marked *