Press "Enter" to skip to content

猎鹰LLM:开源LLM的新王者

Falcon LLM 是一款新的大型语言模型,已经从 LLaMA 夺得了桂冠

猎鹰LLM:开源LLM的新王者 机器学习 第1张

我们一直在看到每周都有更多的大型语言模型 (LLMs) 出现,也有越来越多的聊天机器人供我们使用。但是,很难弄清楚哪个是最好的,每个模型的进展如何以及哪个是最有用的。

HuggingFace 拥有一个开放的 LLM 排行榜,跟踪、评估和排名 LLMs 的发布情况。他们使用一个独特的框架,在不同的评估任务上测试生成式语言模型。

最近,LLaMA (大型语言模型元 AI) 排名第一,但被一款新预训练的 LLM – Falcon 40B 推下了宝座。 猎鹰LLM:开源LLM的新王者 机器学习 第2张

关于技术创新研究院

Falcon LLM 是由技术创新研究院 (TII) 创建的,该公司是阿布扎比政府高级技术研究理事会的一部分。政府负责整个阿联酋的技术研究,在那里,科学家、研究人员和工程师的团队专注于提供科学方面的变革性技术和发现。

什么是 Falcon 40B?

Falcon-40B 是一个基础型 LLM,有 40B 个参数,训练了万亿个标记。Falcon 40B 是一个自回归解码器模型。自回归解码器模型意味着该模型被训练为在给定前面标记的情况下预测序列中的下一个标记。GPT 模型是一个很好的例子。

Falcon 的架构已被证明在只使用 75% 的训练计算预算时显著优于 GPT-3,而且在推理时间只需要 ? 的计算力。

数据质量的规模是技术创新研究院团队关注的重点,因为我们知道 LLMs 对训练数据的质量非常敏感。该团队构建了一个数据处理管道,可扩展到数万个 CPU 核,以便快速处理,并能使用广泛的过滤和去重提取高质量的网络内容。

他们还有另一个较小的版本:Falcon-7B,有 7B 个参数,训练了 1,500B 个标记。同时,还有 Falcon-40B-Instruct 和 Falcon-7B-Instruct 模型可用,如果您正在寻找一个即插即用的聊天模型。

Falcon 40B 能做什么?

与其他 LLMs 类似,Falcon 40B 可以:

  • 生成创意内容
  • 解决复杂问题
  • 客户服务运营
  • 虚拟助手
  • 语言翻译
  • 情感分析。
  • 减少和自动化“重复”的工作。
  • 帮助阿联酋公司变得更加高效

Falcon 40B 是如何训练的?

由于训练了 1 万亿个标记,因此需要在 AWS 上使用 384 个 GPU,持续两个月。使用 TII 构建的大型英文网络数据集 RefinedWeb 的 1,000B 个标记进行训练。

预训练数据包括从 Web 上收集的公共数据集,使用 CommonCrawl。团队经过彻底的过滤阶段,删除了机器生成的文本、成人内容以及任何去重,组装了一个近 5 万亿个标记的预训练数据集。

在 CommonCrawl 的基础上构建的 RefinedWeb 数据集已经证明,模型的性能要优于在策划数据集上训练的模型。RefinedWeb 还支持多模式。

准备好后,Falcon 还通过 EAI Harness、HELM 和 BigBench 等开源基准进行了验证。

Falcon LLM 是开源的

他们已将 Falcon LLM 开源给公众,使 Falcon 40B 和 7B 更容易被研究人员和开发人员使用,因为它基于 Apache 许可证第 2.0 版发布。

曾经只用于研究和商业用途的 LLM 现在已成为开源的,以满足全球对 AI 包容性访问的需求。它现在不再受商业使用限制的版税,因为阿联酋致力于改变 AI 中的挑战和边界以及它在未来的重要作用。

Apache 2.0旨在培育人工智能领域的协作、创新和知识共享生态系统,确保安全和安全的开源软件。

如何使用Falcon-7B Instruct LLM

如果您想尝试一个更简单的版本的Falcon-40B,它更适合于类似于聊天机器人的通用指令,您需要使用Falcon-7B。

那么,让我们开始吧…

如果还没有安装,请安装以下软件包:

!pip install transformers
!pip install einops
!pip install accelerate
!pip install xformers

安装这些软件包后,您可以继续运行Falcon 7-B Instruct提供的代码:

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model = "tiiuae/falcon-7b-instruct"

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
)
sequences = pipeline(
   "Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:",
    max_length=200,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

总结

Falcon作为最好的开源模型,获得了LLaMAs的桂冠,人们对其强大的优化架构、独特的开源许可证以及两种参数大小的可用性感到惊叹。

你试过了吗?如果试过,请在评论中告诉我们你的想法。

Nisha Arya是一位数据科学家、自由技术作家和小猪AI社区经理。她特别感兴趣为数据科学提供职业建议或教程以及基于理论的数据科学知识。她还希望探索人工智能在人类寿命方面所能带来的不同方式。她是一位热心的学习者,希望扩展自己的技术知识和写作技能,同时帮助指导他人。

Leave a Reply

Your email address will not be published. Required fields are marked *