Press "Enter" to skip to content

“Hugging Face的夏天”

夏天正式结束了,过去的几个月里,Hugging Face非常忙碌。从Hub上的新功能到研究和开源开发,我们的团队一直在努力通过开放和协作的技术来赋能社区。

在这篇博客文章中,您将了解到Hugging Face在六月、七月和八月发生的一切!

“Hugging Face的夏天” 四海 第1张

本文涵盖了我们团队一直在努力的各个领域,所以请随意跳到您最感兴趣的部分🤗

  1. 新功能
  2. 社区
  3. 开源
  4. 解决方案
  5. 研究

新功能

在过去的几个月里,Hub的公共模型仓库从10,000个增加到了16,000多个!感谢我们的社区与世界分享了这么多令人惊叹的模型。除了数量,我们还有很多很酷的新功能要与您分享!

Spaces Beta ( hf.co/spaces )

Spaces是一个简单且免费的解决方案,可以直接在您的用户个人资料或您的组织hf.co个人资料上托管机器学习演示应用程序。我们支持两个很棒的Python SDK,让您可以轻松构建酷炫的应用程序:Gradio和Streamlit。只需几分钟,您就可以部署一个应用程序并与社区分享!🚀

Spaces可以设置秘密,允许自定义要求,甚至可以直接从GitHub仓库进行管理。您可以在hf.co/spaces上注册beta版本。以下是我们的一些收藏!

  • 使用Chef Transformer创建食谱
  • 使用HuBERT将语音转写为文本
  • 在视频中进行分割,使用DINO模型
  • 使用Paint Transformer从给定的图片制作绘画
  • 或者您可以探索超过100个现有的Spaces!

“Hugging Face的夏天” 四海 第2张

分享爱心

您现在可以在http://huggingface.co上为任何模型、数据集或空间点赞,这意味着您可以与社区分享一些爱心❤️。您还可以点击点赞框,了解谁喜欢什么👀。请放心地为自己的仓库点赞,我们不会评判😉。

“Hugging Face的夏天” 四海 第3张

TensorBoard集成

在六月底,我们为所有模型推出了TensorBoard集成。如果仓库中有TensorBoard追踪,将为您启动一个自动的免费TensorBoard实例。这适用于公共和私有仓库,以及任何具有TensorBoard追踪的库!

“Hugging Face的夏天” 四海 第4张

指标

七月份,我们添加了在模型仓库中列出评估指标的功能,只需将其添加到模型卡片的model-index部分即可📈。如果您在模型卡片的model-index部分添加了一个评估指标,它将自豪地显示在您的模型仓库中。

“Hugging Face的夏天” 四海 第5张

如果这还不够,这些指标将自动链接到相应的Papers With Code排行榜。这意味着一旦您在Hub上分享您的模型,您就可以与社区中的其他人的结果并排比较💪

查看这个仓库作为示例,特别关注其模型卡片的model-index部分,了解如何自己做到这一点,并在Papers with Code中自动找到指标。

新小部件

Hub有18个小部件,允许用户直接在浏览器中尝试模型。

通过我们最新与Sentence Transformers的集成,我们还引入了两个新的小部件:特征提取和句子相似性。

最新的音频分类小部件实现了许多酷炫的用例:语言识别、街道声音检测🚨、命令识别、说话人识别等!您可以今天就尝试使用transformersspeechbrain模型!🔊(请注意,当您尝试某些模型时,您可能需要大声吠叫)

您可以在Scikit-learn中尝试我们的结构化数据分类的早期演示。最后,我们还为与图像相关的模型引入了新的小部件:文本到图像图像分类目标检测。在这里尝试使用Google的ViT模型进行图像分类,并在这里使用Facebook AI的DETR模型进行目标检测!

“Hugging Face的夏天” 四海 第6张

更多功能

这并不是Hub中发生的一切。我们介绍了Hub的新的和改进的文档。我们还引入了两个广受欢迎的功能请求:用户现在可以转移/重命名存储库,并直接上传新文件到Hub。

“Hugging Face的夏天” 四海 第7张

社区

Hugging Face课程

在6月份,我们推出了我们的免费在线课程的第一部分!该课程教授关于🤗生态系统的一切:Transformers、Tokenizers、Datasets、Accelerate和Hub。您也可以在我们的库的官方文档中找到课程课程的链接。所有章节的直播会议可以在我们的YouTube频道上找到。敬请期待今年晚些时候我们将推出的课程的下一部分!

“Hugging Face的夏天” 四海 第8张

JAX/FLAX冲刺

在7月份,我们举办了有史以来规模最大的社区活动,近800名参与者!在这个与JAX/Flax和Google Cloud团队合作组织的活动中,通过提供免费的TPUv3,将计算密集型的NLP、计算机视觉和语音项目面向更广泛的工程师和研究人员开放。参与者共创建了170多个模型、22个数据集和38个Spaces演示🤯。您可以在这里探索所有令人惊叹的演示和项目。

围绕JAX/Flax、Transformers、大规模语言建模等方面进行了讨论!您可以在这里找到所有的录音。

我们非常高兴分享这3个获奖团队的工作!

  1. Dall-e mini . DALL·E mini是一个根据您提供的任何提示生成图像的模型!DALL·E mini比原始的DALL·E小27倍,但仍然具有令人印象深刻的结果。

    “Hugging Face的夏天” 四海 第9张

  2. DietNerf . DietNerf是一个用于通过2D视图进行3D场景重建的少样本学习的3D神经视图合成模型。这是”在Nerf上减肥”论文的首个开源实现。

    “Hugging Face的夏天” 四海 第10张

  3. CLIP RSIC . CLIP RSIC是一个在遥感图像数据上进行Fine-tune的CLIP模型,以实现零样本卫星图像分类和字幕。该项目展示了Fine-tune的CLIP模型在专业领域的有效性。

    “Hugging Face的夏天” 四海 第11张

除了这些非常酷的项目,我们对这些社区活动如何为多语言训练大型多模态模型感到兴奋。例如,我们看到了一些低资源语言如斯瓦希里语、波兰语和马拉地语的首个开源大型语言模型。

额外

除了我们刚刚分享的一切,我们的团队还做了很多其他事情。以下只是其中一些:

  • 📖 这个三部分的视频系列展示了如何训练最先进的句子嵌入模型的理论。
  • 我们在PyTorch社区的声音中做了演讲,并参加了问答(视频)。
  • Hugging Face与西班牙的NLP和SpainAI合作,开设了一门西班牙语课程,通过使用案例教授概念和最先进的架构及其应用。
  • 我们在MLOps World Demo Days上做了演讲。

开源

Transformers 的新功能

夏天对于🤗 Transformers来说是令人兴奋的时刻!该库获得了50000颗星星,总下载量达到了3000万,贡献者接近1000人!🤩

那么有什么新的内容呢?JAX/Flax现在是第三个受支持的框架,Hub中有超过5000个模型!您可以找到针对不同任务的示例,例如文本分类。我们还在努力改进我们对TensorFlow的支持:所有示例都经过重新编写,以使其更健壮,符合TensorFlow的风格,并更加清晰。这包括总结、翻译和命名实体识别等示例。

您现在可以轻松地将您的模型发布到Hub上,包括自动创建的模型卡片、评估指标和TensorBoard实例。还增加了对使用新的transformers.onnx模块将模型导出到ONNX的支持。

python -m transformers.onnx --model=bert-base-cased onnx/bert-base-cased/

过去的4个版本引入了许多新的酷炫模型!

  • DETR可以进行快速的端到端对象检测和图像分割。查看一些我们社区的教程吧!

“Hugging Face的夏天” 四海 第12张

  • ByT5是Hub中第一个无需分词器的模型!您可以在这里找到所有可用的检查点。
  • CANINE是另一个无需分词器的仅编码模型,由Google AI开发,直接在字符级别上运算。您可以在这里找到所有的(多语言)检查点。
  • HuBERT对于命令分类和情感识别等下游音频任务显示出令人兴奋的结果。在这里查看模型。
  • LayoutLMv2和LayoutXLM是两个令人难以置信的模型,能够通过结合文本、布局和视觉信息解析文档图像(如PDF)。我们构建了一个Space演示,您可以直接尝试!演示笔记本可以在这里找到。

“Hugging Face的夏天” 四海 第13张

  • 微软研究的BEiT使得自监督视觉Transformer在性能上超过了有监督的模型,其使用了受BERT启发的巧妙预训练目标。
  • RemBERT是一个大型多语言Transformer,它在零-shot迁移方面的性能超过了XLM-R(并且与具有类似参数数量的mT5相比)。
  • Splinter可用于少样本问答。仅给定128个示例,Splinter在SQuAD上能够达到约73%的F1得分,比基于MLM的模型高出24个百分点!

Hub现在已经整合到transformers中,能够在Python运行时直接推送到Hub配置、模型和分词器文件!每次保存检查点时,Trainer都能直接推送到Hub:

“Hugging Face的夏天” 四海 第14张

Datasets中的新内容

您可以在https://huggingface.co/datasets中找到1400个公共数据集,感谢我们社区的出色贡献。💯

datasets的支持不断增长:它可以在JAX中使用,处理parquet文件,使用远程文件,并且对其他领域(如自动语音识别和图像分类)有更广泛的支持。

用户还可以通过在数据集Hub的存储库中上传数据文件,直接向社区主机和共享他们的数据集。

“Hugging Face的夏天” 四海 第15张

新数据集的亮点是什么?微软CodeXGlue数据集用于多种编码任务(代码补全、生成、搜索等),大型数据集(如C4和MC4),以及其他一些数据集,如RussianSuperGLUE和DISFL-QA。

欢迎新的库加入Hub

除了与基于transformers的模型进行深度集成外,Hub还与开源ML库建立了良好的合作关系,提供免费的模型托管和版本管理。我们通过我们的huggingface_hub开源库以及新的Hub文档来实现这一点。

现在所有spaCy的规范化流程都可以在官方spaCy组织中找到,任何用户都可以使用一个命令python -m spacy huggingface-hub与其他用户共享他们的流程。要了解更多信息,请访问https://huggingface.co/blog/spacy。您可以在演示空间中直接尝试所有规范化的spaCy模型。

“Hugging Face的夏天” 四海 第16张

另一个令人兴奋的整合是Sentence Transformers。你可以在博客公告中了解更多信息:你可以在Hub中找到超过200个模型,轻松与社区的其他成员共享你的模型,并重复使用社区的模型。

但这还不是全部!您现在可以在Hub中找到超过100个Adapter Transformers,并直接在浏览器中使用widgets尝试Speechbrain模型,以进行诸如音频分类等不同任务。如果您对我们与Hub整合新的ML库的合作感兴趣,可以在这里阅读更多相关信息。

“Hugging Face的夏天” 四海 第17张

解决方案

即将推出:Infinity

Transformer的延迟降至1毫秒?🤯🤯🤯

我们一直在致力于实现最先进的Transformer模型的无与伦比的效率解决方案,以供企业在其自己的基础架构中部署。

  • Infinity以单一容器的形式提供,并可在任何生产环境中部署。
  • 它可以在GPU上实现BERT类模型的1毫秒延迟,CPU上为4-10毫秒🤯🤯🤯
  • Infinity符合最高的安全要求,并可集成到您的系统中,无需互联网访问。您可以控制所有的进出流量。

⚠️加入我们,参加于9月28日的现场公告和演示活动,我们将首次公开展示Infinity!

新功能:硬件加速

Hugging Face正在与英特尔、高通和GraphCore等领先的AI硬件加速器合作,以使最先进的生产性能易于获取,并在SOTA硬件上扩展培训能力。作为这一旅程的第一步,我们推出了一个新的开源库:🤗 Optimum-用于生产性能的ML优化工具包🏎。在这篇博客文章中了解更多。

新功能:在SageMaker上进行推理

我们与AWS合作推出了与SageMaker的新整合,使部署🤗 Transformers变得比以往更加容易。从🤗 Hub模型页面直接获取代码片段!在我们的文档中了解有关如何在SageMaker中利用transformers的更多信息,或查看这些视频教程。

有问题请在论坛上联系我们:https://discuss.huggingface.co/c/sagemaker/17

“Hugging Face的夏天” 四海 第18张

新功能:在浏览器中使用AutoNLP

我们发布了一种新的AutoNLP体验:一个用于直接在浏览器中训练模型的Web界面!现在只需点击几下即可在您自己的数据上训练、评估和部署🤗 Transformers模型。试试看-无需代码!

“Hugging Face的夏天” 四海 第19张

推理API

网络研讨会

我们举办了一次直播研讨会,展示了如何仅几行代码即可添加机器学习功能。我们还构建了一个VSCode扩展,利用Hugging Face推理API生成描述Python代码的评论。

Hugging Face + Zapier演示

连接20,000多个机器学习模型与3,000多个应用程序?🤯通过利用推理API,您现在可以轻松将模型连接到Gmail、Slack、Twitter等应用程序中。在这个演示视频中,我们创建了一个zap,使用这个代码片段分析您的Twitter提及并在Slack上通知您有关负面提及的情况。

Hugging Face + Google Sheets演示

通过推理API,您可以轻松地将零样本分类直接集成到Google Sheets电子表格中。只需将此脚本添加到工具->脚本编辑器中:

实际中的小样本学习

我们撰写了一篇关于小样本学习的博客文章,并探讨了GPT-Neo和🤗加速推理API如何用于生成您自己的预测。

专家加速计划

现在来看看专家加速计划的全新首页;您现在可以直接从我们的机器学习专家那里获得高级支持,并更快地构建更好的机器学习解决方案。

研究

在BigScience,我们于2021年7月举办了自启动以来的首次现场活动,即BigScience第1集。我们的第二个活动BigScience第2集于2021年9月20日举行,BigScience工作组进行了技术演讲和更新,并邀请了Jade Abbott(Masakhane),Percy Liang(斯坦福CRFM),Stella Biderman(EleutherAI)等人进行演讲。我们已经完成了第一个大规模的Jean Zay训练,这是一个13B的英文解码模型(您可以在此处找到详细信息),我们目前正在决定第二个模型的架构。组织工作组已经提交了第二阶段计算预算的申请:Jean Zay V100:2,500,000 GPU小时。🚀

在6月份,我们与Yandex研究团队分享了我们的合作成果:DeDLOC,一种协作训练大型神经网络的方法,即不使用HPC集群,而是使用各种可访问的资源,如Google Colaboratory或Kaggle笔记本电脑、个人计算机或抢先VM。借助这种方法,我们能够与40名志愿者一起训练sahajBERT,这是一个孟加拉语语言模型!我们的模型在Soaham新闻文章分类数据集上与世界领先水平竞争,并且甚至是最好的。您可以在此博客文章中了解更多信息。从经济角度讲,这是一条引人入胜的研究线,因为它使得模型预训练更加易于获取!

在6月份,我们的论文《一个提示值多少数据点?》在NAACL上获得了最佳论文奖!在这篇论文中,我们对传统和提示方法进行了调和和比较,以适应预训练模型,并发现人工编写的提示在新任务上相当于数千个监督数据点。您还可以阅读其博客文章。

“Hugging Face的夏天” 四海 第20张

我们期待今年的EMNLP,我们有四篇被接受的论文!

  • 我们的论文《数据集:自然语言处理的社区库》记录了Hugging Face数据集项目,该项目拥有300多名贡献者。这个社区项目为研究人员提供了方便获取数百个数据集的方式。它促进了跨数据集NLP的新用例,并为索引和流式处理大型数据集等任务提供了先进的功能。
  • 我们与德国达姆施塔特大学的研究人员合作,另一篇论文被会议接受(《避免在少样本提示为基础的微调中使用推理启发式》)。在这篇论文中,我们展示了基于提示的微调语言模型(在少样本设置中具有强大性能)仍然受到学习表面启发式的影响(有时称为数据集偏差),而零样本模型则不会受到这个问题的影响。
  • 我们的提交《用于更快Transformer的块修剪》也被接受为长篇论文。在这篇论文中,我们展示了如何使用块稀疏性来获得既快又小的Transformer模型。我们的实验结果表明,与SQuAD上的BERT相比,我们的模型速度提高了2.4倍,尺寸减小了74%。

最后的话

😎🔥夏天很有趣!发生了这么多事情!我们希望您喜欢阅读本博客文章,并期待与您分享我们正在进行的新项目。冬天见!❄️

Leave a Reply

Your email address will not be published. Required fields are marked *