Graphcore和Hugging Face推出新的IPU-Ready Transformers产品线

Graphcore和Hugging Face显著扩展了Hugging Face Optimum中可用的机器学习模态和任务范围，这是一个用于优化Transformer性能的开源库。开发人员现在可以方便地访问各种现成的Hugging Face Transformer模型，并经过优化以在Graphcore的IPU上提供最佳性能。

在Optimum Graphcore推出后不久推出的BERT Transformer模型，开发人员现在可以访问包括自然语言处理（NLP）、语音和计算机视觉在内的10个模型，这些模型配有IPU配置文件以及准备好的预训练和微调模型权重。

新的Optimum模型

计算机视觉

ViT（Vision Transformer）是图像识别的突破性技术，它使用Transformer机制作为其主要组件。当图像输入到ViT中时，它们被划分为小块，类似于语言系统中处理单词的方式。每个块都由Transformer（嵌入）进行编码，然后可以单独处理。

自然语言处理（NLP）

GPT-2（生成型预训练Transformer 2）是一个在大规模英语语料库上进行自我监督预训练的文本生成Transformer模型。这意味着它仅在原始文本上进行预训练，没有以任何方式对其进行人工标记（这就是为什么它可以使用大量公开可用的数据），它使用自动化过程从这些文本中生成输入和标签。更准确地说，它通过猜测句子中下一个单词来训练生成文本。

RoBERTa（鲁棒优化BERT方法）是一个在大规模英语语料库上进行自我监督预训练的Transformer模型，类似于GPT-2。更准确地说，RoBERTa使用了掩码语言建模（MLM）目标进行预训练。给定一个句子，模型会随机掩盖输入中的15%单词，然后将整个掩码句子输入模型，并预测掩盖的单词。RoBERTa可以用于掩码语言建模，但主要用于在下游任务上进行微调。

DeBERTa（具有解耦注意力的解码增强BERT）是用于NLP任务的预训练神经语言模型。DeBERTa使用两种新颖技术（解耦注意力机制和增强掩码解码器）对2018年的BERT和2019年的RoBERTa模型进行了改进，显著提高了模型的预训练效率和下游任务的性能。

BART是一个具有双向（类似BERT）编码器和自回归（类似GPT）解码器的Transformer编码器-解码器（seq2seq）模型。BART通过（1）使用任意的噪声函数破坏文本和（2）学习一个模型来重构原始文本进行预训练。BART在文本生成（例如摘要、翻译）的微调上特别有效，但在理解任务（例如文本分类、问答）上也表现良好。

LXMERT（从Transformer中学习跨模态编码器表示）是用于学习视觉和语言表示的多模态Transformer模型。它有三个编码器：对象关系编码器、语言编码器和跨模态编码器。它是通过一系列任务进行预训练，包括掩码语言建模、视觉-语言文本对齐、ROI特征回归、掩码视觉属性建模、掩码视觉对象建模和视觉问答目标。它在VQA和GQA视觉问答数据集上取得了最先进的结果。

T5（文本到文本转换Transformer）是一个革命性的新模型，可以将任何文本转换为用于翻译、问答或分类的机器学习格式。它引入了一个统一的框架，将所有基于文本的语言问题转换为文本到文本格式的迁移学习。通过这样做，它简化了在各种NLP任务中使用相同的模型、目标函数、超参数和解码过程的方式。

语音

HuBERT（隐藏单元BERT）是一个在音频上进行自我监督语音识别预训练的模型，它学习了连续输入上的声学和语言模型的组合。HuBERT模型在Librispeech（960h）和Libri-light（60,000h）基准测试中，使用10分钟、1小时、10小时、100小时和960小时的微调子集，要么与现有的wav2vec 2.0性能相匹配，要么有所改进。

Wav2Vec2是一个用于自动语音识别的预训练自我监督模型。Wav2Vec2使用一种新颖的对比预训练目标，从大量无标签的语音数据中学习强大的语音表示，然后在少量转录语音数据上进行微调，优于最佳的半监督方法，而且概念上更简单。

Hugging Face Optimum Graphcore：在坚实合作基础上构建

Graphcore于2021年作为创始成员加入了Hugging Face硬件合作伙伴计划，两家公司都致力于降低创新者利用机器智能的障碍。

从那时起，Graphcore和Hugging Face密切合作，使在IPU上训练transformer模型变得快速简便，第一个Optimum Graphcore模型（BERT）去年已经发布。

transformer模型在各种功能上都表现出极高的效率，包括特征提取，文本生成，情感分析，翻译等等。像BERT这样的模型在Graphcore的客户中被广泛应用于包括网络安全，语音通话自动化，药物研发和翻译等各种应用中。

在现实世界中优化它们的性能需要相当多的时间，精力和技能，这是许多公司和组织无法达到的。Hugging Face通过提供一个开源的transformer模型库，直接解决了这些问题。将IPU与HuggingFace集成也使开发人员不仅可以利用模型，还可以利用HuggingFace Hub中提供的数据集。

开发人员现在可以使用Graphcore系统训练10种不同类型的最先进的transformer模型，并以最小的编码复杂性访问成千上万的数据集。通过这种合作伙伴关系，我们为用户提供了工具和生态系统，可以轻松下载和微调最先进的预训练模型，以适应不同的领域和下游任务。

引入Graphcore最新的硬件和软件

虽然Hugging Face不断扩大的用户群体的成员已经能够从IPU技术的速度，性能，功耗和成本效率中受益，但Graphcore最近的硬件和软件发布的组合将释放更多潜力。

在硬件方面，Bow IPU是全球第一款使用Wafer-on-Wafer（WoW）3D堆叠技术的处理器，它提升了IPU已知的好处。Bow IPU在计算架构，硅实现，通信和内存方面取得了突破性进展，每个Bow IPU提供高达350 TeraFLOPS的AI计算能力，性能比上一代IPU提高了40%，功耗效率提高了16%。重要的是，Hugging Face Optimum用户可以无缝切换到Bow处理器，无需更改代码。

软件在释放IPU的功能方面也起着至关重要的作用，因此Optimum与Graphcore易于使用的Poplar SDK提供了即插即用的体验，Poplar SDK已经进行了2.5版本的重大更新。由于与PyTorch、PyTorch Lightning和TensorFlow等标准机器学习框架以及Docker和Kubernetes等编排和部署工具的完全集成，Poplar使得在先进硬件上训练最先进模型变得容易。将Poplar与这些广泛使用的第三方系统兼容，使开发人员可以轻松将他们的模型从其他计算平台移植过来，并开始利用IPU的先进AI能力。

使用Hugging Face的Optimum Graphcore模型入门

如果您有兴趣将IPU技术的优势与transformer模型的优势结合起来，您可以从Hub上的Graphcore组织下载最新的Optimum Graphcore模型，或者从Optimum GitHub存储库访问代码。我们的入门博客文章将引导您逐步开始IPU实验。

此外，Graphcore还建立了一个广泛的开发者资源页面，在这里您可以找到IPU Model Garden——一个包含计算机视觉，自然语言处理，图网络等部署就绪的ML应用程序的存储库，以及大量的文档，教程，视频教程，网络研讨会等等。您还可以访问Graphcore的GitHub存储库以获取更多的代码参考和教程。

要了解有关在Graphcore上使用Hugging Face的更多信息，请访问我们的合作伙伴页面！