Press "Enter" to skip to content

6 search results for "XLM-R"

Salesforce AI推出了GlueGen:通过高效编码升级和多模态能力改革文本到图像模型

在文本到图像(T2I)模型不断发展的领域中,随着GlueGen的引入,新的领域正在出现。T2I模型在生成图像方面展现出了令人印象深刻的能力,但是它们在修改或增强功能方面的刚性一直是一个重大挑战。GlueGen的目标是通过将单模态或多模态编码器与现有的T2I模型进行对齐来改变这种范式。这一方法由西北大学、Salesforce AI Research和斯坦福大学的研究人员共同探索,简化了升级和扩展,并开启了多语言支持、声音到图像生成和增强文本编码的新时代。在本文中,我们将深入探讨GlueGen的变革潜力,探索它在推进X到图像(X2I)生成方面的作用。 现有的T2I生成方法,特别是基于扩散过程的方法,已经在根据用户提供的标题生成图像方面取得了显著的成功。然而,这些模型面临将文本编码器与图像解码器紧密耦合的挑战,使得修改或升级变得繁琐。一些其他T2I方法的参考包括基于GAN的方法,如生成对抗网络(GANs),Stack-GAN,Attn-GAN,SD-GAN,DM-GAN,DF-GAN,LAFITE,以及自回归变换器模型,如DALL-E和CogView。此外,扩散模型,如GLIDE、DALL-E 2和Imagen,在该领域中已被用于图像生成。 T2I生成模型在算法改进和广泛训练数据的推动下已取得了显著进展。基于扩散的T2I模型在图像质量方面表现出色,但在可控性和构图方面较为困难,往往需要及时的工程调整以实现所需的结果。另一个限制是主要训练于英文文本标题,限制了其多语言的实用性。 GlueGen框架引入了GlueNet,将来自各种单模态或多模态编码器的特征与现有T2I模型的潜在空间进行对齐。他们的方法使用平行语料库来对齐不同编码器之间的表示空间的新训练目标。GlueGen的能力还可将多语言语言模型(如XLM-Roberta)与T2I模型进行对齐,从而使其能够从非英文标题生成高质量的图像。此外,它还可以将多模态编码器(如AudioCLIP)与Stable Diffusion模型进行对齐,实现声音到图像的生成。 GlueGen提供了将不同功能表征对齐的能力,使新功能无缝集成到现有的T2I模型中。它通过将多语言语言模型(如XLM-Roberta)与T2I模型进行对齐,生成高质量的非英文标题图像。此外,GlueGen还将多模态编码器(如AudioCLIP)与Stable Diffusion模型进行对齐,实现声音到图像的生成。该方法还通过其目标重新加权技术,提高了图像的稳定性和准确性,与原始的GlueNet相比。评估使用FID得分和用户研究进行。 总之,GlueGen为对齐各种功能表征提供了解决方案,增强了现有T2I模型的适应性。通过对齐多语言语言模型和多模态编码器,它拓展了T2I模型从多样的源生成高质量图像的能力。GlueGen通过提出的目标重新加权技术,提高了图像的稳定性和准确性,解决了在T2I模型中打破文本编码器和图像解码器之间紧密耦合的挑战,为更轻松的升级和替换铺平了道路。总体而言,GlueGen为推进X到图像生成功能提供了一种有希望的方法。

Leave a Comment

苏黎世大学的研究人员开发了SwissBERT:瑞士四种官方语言的多语言语言模型

近期,著名的BERT模型一直是自然语言处理中领先的语言模型之一。该语言模型适用于多个NLP任务,这些任务将输入序列转换为输出序列。BERT(Bidirectional Encoder Representations from Transformers)使用了Transformer注意机制。注意机制学习文本语料库中单词或子词之间的上下文关系。BERT语言模型是自然语言处理进展的最重要例子之一,并使用了自监督学习技术。 在开发BERT模型之前,语言模型在训练时分析文本序列,要么从左到右,要么从左到右和从右到左结合。这种单向方法对于通过预测下一个单词来生成句子,并将其附加到序列中,然后预测下一个到下一个单词,直到获得完整的有意义的句子的工作效果很好。通过BERT,引入了双向训练,与以前的语言模型相比,它能更深入地理解语言上下文和流。 最初的BERT模型发布为英文。随后,开发了其他语言模型,如法文的CamemBERT和意大利文的GilBERTo。最近,苏黎世大学的研究人员开发了一种适用于瑞士的多语言模型。这个模型名为SwissBERT,它在瑞士标准德语、法语、意大利语和罗曼什语Grischun中训练了超过2100万篇瑞士新闻文章,总计120亿个标记。 SwissBERT的引入是为了克服瑞士研究人员在执行多语言任务时面临的挑战。瑞士主要有四种官方语言-德语、法语、意大利语和罗曼什语,对于每种特定语言,单独的语言模型很难进行组合以执行多语言任务。此外,第四种国家语言罗曼什语也没有单独的神经语言模型。由于在自然语言处理领域实现多语言任务有一定难度,瑞士国家语言在SwissBERT之前没有统一的模型。SwissBERT通过简单地结合这些语言的文章,并通过隐式利用新闻中的共同实体和事件来创建多语言表示,克服了这一挑战。 SwissBERT模型是由预先训练在81种语言中的跨语言模块(X-MOD)转换器重新建模而来。研究人员通过训练自定义语言适配器,将预先训练的X-MOD转换器适应到他们的语料库中。他们为SwissBERT创建了一个瑞士特定的子词汇表,得到的模型包含了1.53亿个参数。 研究团队在一些任务上评估了SwissBERT的性能,包括对当代新闻(SwissNER)中的命名实体进行识别和检测用户生成的对瑞士政治的立场。SwissBERT的表现优于常见的基准模型,并在检测立场方面优于XLM-R。在对罗曼什语的能力进行评估时,发现SwissBERT在零-shot跨语言转移和德语-罗曼什语单词和句子的对齐方面明显优于未经该语言训练的模型。然而,在识别历史上经过OCR处理的新闻中的命名实体方面,该模型表现不佳。 研究人员发布了带有用于下游任务微调的SwissBERT示例。这个模型在未来的研究甚至非商业目的上似乎很有前景。通过进一步的适应,下游任务可以从该模型的多语言能力中受益。

Leave a Comment

“Hugging Face的夏天”

夏天正式结束了,过去的几个月里,Hugging Face非常忙碌。从Hub上的新功能到研究和开源开发,我们的团队一直在努力通过开放和协作的技术来赋能社区。 在这篇博客文章中,您将了解到Hugging Face在六月、七月和八月发生的一切! 本文涵盖了我们团队一直在努力的各个领域,所以请随意跳到您最感兴趣的部分🤗 新功能 社区 开源 解决方案 研究 新功能 在过去的几个月里,Hub的公共模型仓库从10,000个增加到了16,000多个!感谢我们的社区与世界分享了这么多令人惊叹的模型。除了数量,我们还有很多很酷的新功能要与您分享! Spaces Beta ( hf.co/spaces ) Spaces是一个简单且免费的解决方案,可以直接在您的用户个人资料或您的组织hf.co个人资料上托管机器学习演示应用程序。我们支持两个很棒的Python SDK,让您可以轻松构建酷炫的应用程序:Gradio和Streamlit。只需几分钟,您就可以部署一个应用程序并与社区分享!🚀 Spaces可以设置秘密,允许自定义要求,甚至可以直接从GitHub仓库进行管理。您可以在hf.co/spaces上注册beta版本。以下是我们的一些收藏! 使用Chef Transformer创建食谱 使用HuBERT将语音转写为文本 在视频中进行分割,使用DINO模型 使用Paint…

Leave a Comment

使用Optimum和Transformers管道加速推理

推理已经在Optimum中登陆,并支持Hugging Face Transformers管道,包括使用ONNX Runtime进行文本生成。 BERT和Transformers的采用继续增长。基于Transformer的模型不仅在自然语言处理中实现了最先进的性能,还在计算机视觉、语音和时间序列中取得了突破。💬 🖼 🎤 ⏳ 公司现在正从实验和研究阶段转向生产阶段,以便在大规模工作负载中使用Transformer模型。但是,默认情况下,BERT及其相关模型相对于传统的机器学习算法而言速度较慢、体积较大且复杂。 为了解决这个挑战,我们创建了Optimum – Hugging Face Transformers的扩展,以加速像BERT这样的Transformer模型的训练和推理。 在本博客文章中,您将学到: 1. 什么是Optimum?ELI5 2. 新的Optimum推理和管道功能 3. 加速RoBERTa进行问答的端到端教程,包括量化和优化 4. 当前限制 5. Optimum推理常见问题解答…

Leave a Comment

什么是大型语言模型(LLMs)?LLMs的应用和类型是什么?

被称为大型语言模型的计算机程序为软件提供了分析和创建文本的新选项。大型语言模型通常使用千兆字节甚至更多的文本数据进行训练,使其大小达到几十兆字节。模型的参数是从先前的训练数据中学到的组件,从本质上来说,它们确定了模型在任务(如文本生成)上的熟练程度。自然语言处理(NLP)活动,包括语音转文字、情感分析、文本摘要、拼写检查、令牌分类等,都依赖于语言模型作为其基础。语言模型可以分析文本并预测大多数自然语言处理任务中下一个令牌出现的可能性。Unigram、N-gram、指数和神经网络都是语言模型的有效形式。 LLM的应用 下图总结了目前大型语言模型(LLM)的功能、产品和支持软件方面的现状。 图片来源:https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b Shell命令生成 下一代终端Warp利用GPT-3将自然语言转化为可执行的shell指令,类似于GitHub Copilot,但用于终端。 即使对于经验丰富的程序员来说,shell命令的语法可能也需要解释。 正则表达式生成 开发人员编写正则表达式是一项耗时的任务,然而Autoregex.xyz利用GPT-3自动化这个过程。 文案撰写 这项任务最常用的模型是GPT-3,但也有开源替代方案,如BigScience的BLOOM和Eleuther AI的GPT-J。Copy ai、Copysmith、Contenda、Cohere和Jasper ai是在这一领域开发应用程序的一些初创公司,它们的工具可以更快、更轻松地编写博客文章、销售内容、数字广告和网站文案。 分类 将文本分类到预定类别是一种监督学习的例子。通过使用聚类这种无监督学习技术,可以将具有相似含义的文本聚类在一起,而无需使用预定义的类别。 回应生成 回应生成是使用示例对话生成对话流的思路,并采用机器学习方法。在这种方法中,下一次呈现给用户的对话取决于模型,考虑到用户的过去回答和最有可能的未来对话,这被称为预测式对话。 文本生成 LLM的能力从简要描述中生成测试,无论是否有示例数据,都可以被视为其“元能力”。 几乎所有LLM都能扮演生成的角色。少样本学习数据不仅显著提升了生成能力,而且数据的构造也影响着数据的使用方式。 知识回答 知识回答是知识密集型自然语言处理(KI-NLP)的应用,它允许对通用和跨领域的问题进行回答,而无需查询应用程序接口(API)或依赖传统的知识存储。 知识密集型自然语言处理不是网络搜索,而是基于语义搜索的知识库。…

Leave a Comment

Can't find what you're looking for? Try refining your search: