Press "Enter" to skip to content

Graphcore和Hugging Face推出新的IPU-Ready Transformers产品线

Graphcore和Hugging Face显著扩展了Hugging Face Optimum中可用的机器学习模态和任务范围,这是一个用于优化Transformer性能的开源库。开发人员现在可以方便地访问各种现成的Hugging Face Transformer模型,并经过优化以在Graphcore的IPU上提供最佳性能。

在Optimum Graphcore推出后不久推出的BERT Transformer模型,开发人员现在可以访问包括自然语言处理(NLP)、语音和计算机视觉在内的10个模型,这些模型配有IPU配置文件以及准备好的预训练和微调模型权重。

新的Optimum模型

计算机视觉

ViT(Vision Transformer)是图像识别的突破性技术,它使用Transformer机制作为其主要组件。当图像输入到ViT中时,它们被划分为小块,类似于语言系统中处理单词的方式。每个块都由Transformer(嵌入)进行编码,然后可以单独处理。

自然语言处理(NLP)

GPT-2(生成型预训练Transformer 2)是一个在大规模英语语料库上进行自我监督预训练的文本生成Transformer模型。这意味着它仅在原始文本上进行预训练,没有以任何方式对其进行人工标记(这就是为什么它可以使用大量公开可用的数据),它使用自动化过程从这些文本中生成输入和标签。更准确地说,它通过猜测句子中下一个单词来训练生成文本。

RoBERTa(鲁棒优化BERT方法)是一个在大规模英语语料库上进行自我监督预训练的Transformer模型,类似于GPT-2。更准确地说,RoBERTa使用了掩码语言建模(MLM)目标进行预训练。给定一个句子,模型会随机掩盖输入中的15%单词,然后将整个掩码句子输入模型,并预测掩盖的单词。RoBERTa可以用于掩码语言建模,但主要用于在下游任务上进行微调。

DeBERTa(具有解耦注意力的解码增强BERT)是用于NLP任务的预训练神经语言模型。DeBERTa使用两种新颖技术(解耦注意力机制和增强掩码解码器)对2018年的BERT和2019年的RoBERTa模型进行了改进,显著提高了模型的预训练效率和下游任务的性能。

BART是一个具有双向(类似BERT)编码器和自回归(类似GPT)解码器的Transformer编码器-解码器(seq2seq)模型。BART通过(1)使用任意的噪声函数破坏文本和(2)学习一个模型来重构原始文本进行预训练。BART在文本生成(例如摘要、翻译)的微调上特别有效,但在理解任务(例如文本分类、问答)上也表现良好。

LXMERT(从Transformer中学习跨模态编码器表示)是用于学习视觉和语言表示的多模态Transformer模型。它有三个编码器:对象关系编码器、语言编码器和跨模态编码器。它是通过一系列任务进行预训练,包括掩码语言建模、视觉-语言文本对齐、ROI特征回归、掩码视觉属性建模、掩码视觉对象建模和视觉问答目标。它在VQA和GQA视觉问答数据集上取得了最先进的结果。

T5(文本到文本转换Transformer)是一个革命性的新模型,可以将任何文本转换为用于翻译、问答或分类的机器学习格式。它引入了一个统一的框架,将所有基于文本的语言问题转换为文本到文本格式的迁移学习。通过这样做,它简化了在各种NLP任务中使用相同的模型、目标函数、超参数和解码过程的方式。

语音

HuBERT(隐藏单元BERT)是一个在音频上进行自我监督语音识别预训练的模型,它学习了连续输入上的声学和语言模型的组合。HuBERT模型在Librispeech(960h)和Libri-light(60,000h)基准测试中,使用10分钟、1小时、10小时、100小时和960小时的微调子集,要么与现有的wav2vec 2.0性能相匹配,要么有所改进。

Wav2Vec2是一个用于自动语音识别的预训练自我监督模型。Wav2Vec2使用一种新颖的对比预训练目标,从大量无标签的语音数据中学习强大的语音表示,然后在少量转录语音数据上进行微调,优于最佳的半监督方法,而且概念上更简单。

Hugging Face Optimum Graphcore:在坚实合作基础上构建

Graphcore于2021年作为创始成员加入了Hugging Face硬件合作伙伴计划,两家公司都致力于降低创新者利用机器智能的障碍。

从那时起,Graphcore和Hugging Face密切合作,使在IPU上训练transformer模型变得快速简便,第一个Optimum Graphcore模型(BERT)去年已经发布。

transformer模型在各种功能上都表现出极高的效率,包括特征提取,文本生成,情感分析,翻译等等。像BERT这样的模型在Graphcore的客户中被广泛应用于包括网络安全,语音通话自动化,药物研发和翻译等各种应用中。

在现实世界中优化它们的性能需要相当多的时间,精力和技能,这是许多公司和组织无法达到的。Hugging Face通过提供一个开源的transformer模型库,直接解决了这些问题。将IPU与HuggingFace集成也使开发人员不仅可以利用模型,还可以利用HuggingFace Hub中提供的数据集。

开发人员现在可以使用Graphcore系统训练10种不同类型的最先进的transformer模型,并以最小的编码复杂性访问成千上万的数据集。通过这种合作伙伴关系,我们为用户提供了工具和生态系统,可以轻松下载和微调最先进的预训练模型,以适应不同的领域和下游任务。

引入Graphcore最新的硬件和软件

虽然Hugging Face不断扩大的用户群体的成员已经能够从IPU技术的速度,性能,功耗和成本效率中受益,但Graphcore最近的硬件和软件发布的组合将释放更多潜力。

在硬件方面,Bow IPU是全球第一款使用Wafer-on-Wafer(WoW)3D堆叠技术的处理器,它提升了IPU已知的好处。Bow IPU在计算架构,硅实现,通信和内存方面取得了突破性进展,每个Bow IPU提供高达350 TeraFLOPS的AI计算能力,性能比上一代IPU提高了40%,功耗效率提高了16%。重要的是,Hugging Face Optimum用户可以无缝切换到Bow处理器,无需更改代码。

软件在释放IPU的功能方面也起着至关重要的作用,因此Optimum与Graphcore易于使用的Poplar SDK提供了即插即用的体验,Poplar SDK已经进行了2.5版本的重大更新。由于与PyTorch、PyTorch Lightning和TensorFlow等标准机器学习框架以及Docker和Kubernetes等编排和部署工具的完全集成,Poplar使得在先进硬件上训练最先进模型变得容易。将Poplar与这些广泛使用的第三方系统兼容,使开发人员可以轻松将他们的模型从其他计算平台移植过来,并开始利用IPU的先进AI能力。

使用Hugging Face的Optimum Graphcore模型入门

如果您有兴趣将IPU技术的优势与transformer模型的优势结合起来,您可以从Hub上的Graphcore组织下载最新的Optimum Graphcore模型,或者从Optimum GitHub存储库访问代码。我们的入门博客文章将引导您逐步开始IPU实验。

此外,Graphcore还建立了一个广泛的开发者资源页面,在这里您可以找到IPU Model Garden——一个包含计算机视觉,自然语言处理,图网络等部署就绪的ML应用程序的存储库,以及大量的文档,教程,视频教程,网络研讨会等等。您还可以访问Graphcore的GitHub存储库以获取更多的代码参考和教程。

要了解有关在Graphcore上使用Hugging Face的更多信息,请访问我们的合作伙伴页面!

Leave a Reply

Your email address will not be published. Required fields are marked *