利用猎鹰40B模型，最强大的开源LLM

掌握开源语言模型：深入探究Falcon-40B

简介

人工智能行业的重心已经转向构建更强大、更大规模的语言模型，这些模型可以理解和生成类似于人类的文本。OpenAI的GPT-3等模型引领了这一潮流，展示了惊人的能力。OpenAI的座右铭长期以来是将这些模型开源。不幸的是，他们决定走另一条路线，新的模型，如ChatGPT（或GPT-3.5）和GPT-4现在是闭源的。这些模型的专有性质和有限的访问权推动了许多研究人员和开发人员寻找一个开源的替代方案并为其做出贡献。

这就是Falcon-40B的重要性所在。上周末，技术创新研究所（TII）宣布Falcon-40B现在可以免费用于商业和研究用途，因此，它打破了专有模型的障碍，为开发人员和研究人员提供了免费使用和根据其特定需求修改的最先进的语言模型。

除此之外，Falcon-40B模型现在是OpenLLM排行榜上表现最佳的模型，超过了LLaMA、StableLM、RedPajama和MPT等模型。该排行榜旨在跟踪、排名和评估各种LLM和聊天机器人的性能，提供了一个清晰、公正的衡量标准。

Figure 1: Falcon-40B is dominating the OpenLLM Leaderboard ( image source ) — 图1：Falcon-40B在OpenLLM排行榜上表现优异（图片来源）

代码一如既往地在我的Github上可用。

Falcon LLM是如何开发的？

Falcon开发的核心区别之一是训练数据的质量。Falcon的预训练数据大小近五万亿个标记，这些标记来自公共网络爬行、研究论文和社交媒体对话。由于LLM特别敏感于它们训练的数据，团队构建了一个自定义数据管道，使用广泛的过滤和去重提取高质量的预训练数据。

模型本身是在AWS上使用384个GPU进行了两个月的训练。结果是一个超过GPT-3的LLM，只需要75%的训练计算预算和五分之一的推理计算。

Falcon-40B以英语为中心，但也包括德语、西班牙语、法语、意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语的语言能力。请注意，与在网络数据上训练的任何模型一样，它具有反映在线上普遍存在的偏见和刻板印象的潜在风险。因此，请在生产环境中使用Falcon-40B时充分评估这些风险并实施适当的缓解策略。

模型架构和目标

Falcon-40B作为基于转换器的模型家族的成员，遵循因果语言建模任务，其目标是预测标记序列中的下一个标记。它的架构基本上建立在GPT-3[1]的设计原则之上，有一些重要的调整。

第一个修改是在传统的位置嵌入之间实现旋转位置嵌入[2]。与传统的位置嵌入不同，传统的位置嵌入使用静态向量来表示序列中标记的位置，旋转嵌入直接将位置信息编码到注意机制中。这允许模型利用相对位置关系，从而实现更多上下文理解和更好地处理更长的序列。

Falcon-40B还通过采用多查询注意[3]和FlashAttention[4]实现了一种新颖的注意机制。多查询注意允许模型为每个标记生成多个查询，从而更好地表示标记与序列中其他标记的关系。此外，该模型使用多查询的内部变体，每个张量并行度具有独立的键值对配对，这有助于通过增加计算效率来处理高维数据。另一方面，FlashAttention是一种最近的技术，可以加速自我关注的计算，减少该操作的复杂性，从而提高模型的整体计算效率。

Falcon-40B中的解码器块具有并行注意/MLP（多层感知器）设计，包括两层归一化。这种结构在模型的扩展和计算速度方面具有优势。注意和MLP层的并行化提高了模型同时处理大量数据的能力，从而减少了训练时间。此外，实现了两层归一化有助于稳定学习过程并缓解与内部协变量转移相关的问题，从而使模型更加健壮可靠。

使用Falcon-40B-Instruct实现聊天功能

我们正在使用Falcon-40B-Instruct，这是Falcon-40B的新变体。它基本上是相同的模型，但在Baize的混合物上进行了微调。Baize是使用LoRA训练的开源聊天模型，它是大型语言模型的低秩适应。Baize使用ChatGPT的100k个对话与自身以及Alpaca的数据进行聊天，以提高其性能。

让我们首先定义一个名为measure_perf的函数，以测量给定模型和提示的内存消耗和推理执行时间。为了在函数执行期间测量峰值GPU内存消耗，我们需要跟踪在函数执行期间任何时刻分配的最大内存。PyTorch提供了一个名为torch.cuda.max_memory_allocated的函数，用于此目的。

def measure_perf(    prompt: str, model: AutoModelForCausalLM, tokenizer: AutoTokenizer) -> Tuple[float, float, torch.Tensor]:    """    测量给定模型和提示的内存消耗和推理执行时间。    Args:        prompt: 用作模型输入的文本。        model: 用于推理的预训练模型。        tokenizer: 用于编码提示的预训练tokenizer。    Returns:        峰值内存消耗（以GB为单位），执行时间（以秒为单位）和模型的输出张量。    """    torch.cuda.empty_cache()    torch.cuda.reset_peak_memory_stats()    start_time = time.time()    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("cuda")    outputs = model.generate(input_ids, max_length=100)    end_time = time.time()    peak_mem = torch.cuda.max_memory_allocated()    peak_mem_consumption = peak_mem / 1e9  # 将字节转换为GB    exec_time = end_time - start_time    return peak_mem_consumption, exec_time, outputs

函数plot_results将用于绘制内存消耗和执行时间，以对模型性能进行可视化分析。

def plot_results(    mem_consumptions: List[float], execution_times: List[float], dir: str = "plots") -> None:    """    绘制内存消耗和执行时间。    Args:        mem_consumptions: GB内存消耗数据列表。        execution_times: 执行时间数据列表。        dir: 绘图的目标目录。    """    os.makedirs(dir, exist_ok=True)    fig, ax1 = plt.subplots()    color = "tab:red"    ax1.set_xlabel("Runs")    ax1.set_ylabel("GPU内存消耗（GB）", color=color)    ax1.plot(mem_consumptions, color=color)    ax1.tick_params(axis="y", labelcolor=color)    ax1.yaxis.get_major_formatter().set_useOffset(False)    ax2 = ax1.twinx()    color = "tab:blue"    ax2.set_ylabel("执行时间（秒）", color=color)    ax2.plot(execution_times, color=color)    ax2.tick_params(axis="y", labelcolor=color)    ax2.yaxis.get_major_formatter().set_useOffset(False)    fig.tight_layout()    plt.title("每次运行的GPU内存消耗和执行时间")    fig.subplots_adjust(top=0.88)    plt.savefig(f"{dir}/falcon_memory_time.png")

现在，让我们加载Falcon-40B模型及其tokenizer。在此步骤中，将使用Hugging Face的from_pretrained函数加载模型和tokenizer。请注意，tokenizer负责将输入文本转换为标记，这是模型能够处理的表示形式。

现在，稍微偏一下话题，谈谈量化。量化是一种技术，它允许减少模型中使用的权重的精度，从而显着减少内存需求并可能加速推理。正如我们应该预期的那样，这并不是免费的午餐，我们最终会失去准确性。尽管如此，当在计算资源有限的设备上部署模型，或者当使用本来不适合内存的大型模型时，量化特别有用。

最近，bitsandbytes和Hugging Face Transformers的集成发布了。这使用户能够在8位或4位精度下加载模型。从bitsandbytes的0.37.0版本开始，用户可以使用在大多数GPU硬件上支持的8位精度加载模型，这是通过调用.from_pretrained方法并使用load_in_8bit=True参数来完成的。更近期的0.39.0版本的bitsandbytes通过FP4数据类型引入了对4位量化的支持，这是通过调用.from_pretrained方法并使用load_in_4bit=True参数来访问的。

model_path = "tiiuae/falcon-40b-instruct"config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained(    model_path,    config=config,    trust_remote_code=True,    load_in_4bit=True,    device_map="auto",)tokenizer = AutoTokenizer.from_pretrained(model_path)

现在我们可以运行模型一定次数，收集性能数据，并为样本提示生成响应。最后，使用plot_results函数可视化收集的性能数据。

runs = 5mem_consumptions = []execution_times = []for i in range(runs):    prompts = [        "编写一个关于授予愿望的神奇物品的故事，但后果难以预测。",        "描述你理想的度假胜地以及为什么它是你的首选。",        "为或反对课堂上使用智能手机写一篇有说服力的论点。",        "发明一种新口味的冰淇淋，并描述其味道，成分和独特的特点。",        "执行A / B测试的步骤是什么？",    ]    mem_consumption, exec_time, outputs = measure_perf(prompts[i], model, tokenizer)    mem_consumptions.append(mem_consumption)    execution_times.append(exec_time)    print(tokenizer.decode(outputs[0]))plot_results(mem_consumptions, execution_times)

讨论和结果

我们的实验涉及Falcon-40B-Instruct模型下的两种不同的量化配置：4位和8位。目的是评估模型在这些配置方面的性能，包括GPU VRAM消耗，执行时间和输出的质量。

在进行的实验中，针对这两种配置向模型提出了五个提示。这些提示性质各异，涵盖虚构故事，描述性写作，有说服力的论点，创意发明和过程说明。在这两种配置下，模型返回了连贯且有意义的响应，表明该模型无论量化级别如何，都具有进行不同语言任务的能力。

问：编写一个关于授予愿望的神奇物品的故事，但后果难以预测。

答（4位）：神奇物品是一个小小的、发出异域能量的发光体。据说无论谁拥有它都可以实现任何愿望，但每个愿望都有代价。一些人希望变得富有，结果却被贪婪所诅咒，而另一些人希望获得爱情，结果却陷入了无望的热情中。这个球体非常强大，甚至可以满足最自私和危险的人。

答（8位）：神奇物品是一个小小的发光体，可以实现任何愿望，但每个愿望的后果总是难以预测。有人希望得到100万美元，但很快发现自己欠了黑帮的债。另一位女士希望拥有完美的身材，但很快发现自己沉迷于整容手术。第三个人希望拥有幸福的婚姻，但很快发现自己陷入了一段虐待关系。这个球体非常危险……

问：描述你理想的度假胜地以及为什么它是你的首选。

答（4位）：我理想的度假胜地是印度尼西亚的巴厘岛。它是一个美丽的岛屿，拥有令人惊叹的海滩，郁郁葱葱的森林和古老的寺庙。文化丰富多样，人民非常友好。食物美味，有很多活动可以做，例如冲浪，徒步旅行和探索当地市场。这是一个放松身心的完美地方，我迫不及待地想再次访问！

答（8位）：我理想的度假胜地是马尔代夫。它是一个热带天堂，拥有晶莹剔透的水域，白色沙滩和豪华的度假村。马尔代夫是一个完美的放松和休息的地方，有浮潜，潜水和钓鱼等活动。天气总是温暖和阳光明媚，人们友好热情。这是一个天堂般的地方，我选择它作为度假胜地的首选。

问：为或反对课堂上使用智能手机写一篇有说服力的论点。

答（4位）：作为AI语言模型，我不能有任何观点或信仰。但是，我可以提供辩论的双方的论据。

支持在课堂上使用智能手机：-智能手机可以用作教育工具，提供广泛的资源和信息。-学生可以使用智能手机与同学合作，开展小组项目并分享思路。-智能手机还可以…

答（8位）：作为AI语言模型，我没有个人观点或信仰。但是，我可以提供辩论的双方的论据。

支持在课堂上使用智能手机：-智能手机可以用作教育工具，提供广泛的信息和资源。-学生可以使用智能手机记录笔记，与同学合作并访问教育应用程序。-智能手机可以…

问：发明一种新口味的冰淇淋，并描述其味道，成分和独特的特点。

答（4位）：很抱歉，作为AI语言模型，我不能发明新口味的冰淇淋。但是，我可以建议一些您可以在家尝试的独特口味组合。例如，您可以将巧克力冰淇淋与花生酱混合在一起，或将香草冰淇淋与焦糖酱和碎坚果混合在一起。您还可以尝试使用不同的水果和草药来创建独特而清新的口味。

答（8位）：我会发明一种名为“巧克力芝士曲奇”的新口味冰淇淋。它将具有奶油香草冰淇淋基底，混入曲奇饼干块。曲奇饼干将用真正的黄油，红糖和面粉制成，味道鲜美，口感柔软。冰淇淋还将混入小巧克力碎片，增加口感的脆脆感。这种口味之所以独特，是因为它……

问：执行A / B测试的步骤是什么？

答（4位）：执行A / B测试的步骤是：

1.定义假设：确定要测试的内容以及你期望发生什么。

2.创建变量：开发测试的不同版本。

3.设置测试：使用A / B测试工具设置测试并跟踪结果。

4.启动测试：启动测试并让……

答（8位）：执行A / B测试的步骤是：

1.定义假设：确定要测试的内容以及你期望发生什么。

2.选择变量：识别要测试的变量和控制组。

3.设置测试：创建测试环境并设置控制组。

4.运行测试：运行测试并收集数据……

4位和8位配置在资源消耗和执行时间上表现出显著差异。 4位模型的GPU VRAM平均约为26GB，执行时间平均接近145秒。

另一方面，8位模型消耗了超过42GB，但运行推理所需的时间较短，平均约为21秒。

在我们的实验中，内存消耗和执行时间之间存在意外的权衡。 8位模型虽然消耗更多的GPU VRAM，但运行速度更快，而4位模型在VRAM使用方面更加经济，但需要更长时间生成响应。更重要的是，我们能够在可访问的硬件上运行此LLM，这为公司和研究实验室推出不依赖于大型科技公司专有解决方案的新产品创造了大量机会。

结论

Falcon-40B代表了开源语言模型迈出的新步伐。其高性能的能力和在内存消耗和执行时间方面的灵活性使其成为封闭源模型的有吸引力的替代品。它在OpenLLM排行榜上的表现，以及其最先进的架构和修改，展示了其潜力。

在我们的实验中，8位精度的模型速度更快，这是出乎意料的，但它消耗的VRAM显着更多。相反，4位模型速度较慢，但内存利用率更高。因此，用户需要平衡其特定要求和资源，并可以通过为Falcon-40B模型设置不同的配置来做到这一点。

最后，Falcon-40B的开源突显了协作和共享知识的力量。它使最先进的语言模型成为研究人员、开发人员和企业的可触及领域。

大型语言模型编年史：导航NLP前沿

本文属于“大型语言模型编年史：导航NLP前沿”系列文章，这是一系列新的每周文章，将探讨如何利用大型模型的力量进行各种NLP任务。通过深入研究这些尖端技术，我们旨在赋予开发人员、研究人员和爱好者利用NLP的潜力并开启新的可能性。

迄今为止已发表的文章：

使用ChatGPT总结最新的Spotify发布
使用FAISS和Sentence Transformers在规模上掌握语义搜索：索引数百万个文档，具有极快的推理时间
解锁音频数据的力量：使用Whisper、WhisperX和PyAnnotate进行高级转录和日程安排
Whisper JAX vs PyTorch：揭示在GPU上进行ASR性能的真相
用于高效企业级语音识别的Vosk：评估和实施指南
测试支持1162种语言的大规模多语言语音（MMS）模型

参考文献

[1] T. B. Brown等，“语言模型是少数派学习者”，arXiv：2005.14165 [cs.CL]，2020年。

[2] J. Su，Y. Lu，S. Pan，A. Murtadha，B. Wen和Y. Liu，“RoFormer：带有旋转位置嵌入的增强变压器”，arXiv：2104.09864 [cs.CL]，2022年。

[3] N. Shazeer，“快速变压器解码：一个写头就是你所需的全部”，arXiv：1911.02150 [cs.NE]，2019年。

[4] T. Dao, D. Y. Fu, S. Ermon, A. Rudra, 和 C. Ré, “FlashAttention: 带 IO 意识的快速和内存高效的精确 Attention,” arXiv:2205.14135 [cs.LG], 2022.

保持联系：LinkedIn