Press "Enter" to skip to content

352 search results for "计算机视觉"

AI推动的生产力:生成式AI开启了跨行业效率的新时代

2022年11月22日是一个具有里程碑意义的时刻,虽然大部分是虚拟的,但它震动了全球几乎每个行业的基础。 在那天,OpenAI发布了ChatGPT,这是迄今为止最先进的人工智能聊天机器人。这引发了对生成式人工智能应用的需求,这些应用帮助企业更高效地工作,从为消费者提供问题的答案,到加速研究人员在寻求科学突破时的工作,以及更多其他方面。 之前只是尝试过人工智能的企业现在正急于采用和部署最新的应用。生成式人工智能——算法创造新的文本、图像、声音、动画、3D模型甚至计算机代码的能力——正在以超光速发展,改变人们工作和娱乐的方式。 通过使用大型语言模型(LLMs)处理查询,这项技术可以大大减少人们用于搜索和整理信息等手动任务的时间。 利益巨大。据普华永道估计,到2030年,人工智能可能为全球经济贡献超过15万亿美元。而人工智能的采用影响可能超过互联网、移动宽带和智能手机的发明——总和超过。 推动生成式人工智能的引擎是加速计算。它使用GPU、DPU和网络以及CPU,加速应用程序在科学、分析、工程以及消费者和企业用例中的应用。 从药物发现、金融服务、零售和电信到能源、高等教育和公共部门的早期采用者,正在将加速计算与生成式人工智能结合起来,改变业务运营、服务提供和生产力。 点击查看信息图表:生成下一波人工智能转型 药物发现的生成式人工智能 今天,放射科医生使用人工智能来检测医学影像中的异常,医生使用它来扫描电子健康记录以发现患者洞察,研究人员使用它来加速新药的发现。 传统的药物发现是一个资源密集型的过程,可能需要合成5000多种化合物,平均成功率仅为10%。大多数新药候选品要花费十多年的时间才能上市。 研究人员现在使用生成式人工智能模型读取蛋白质的氨基酸序列,并能够在几秒钟内准确预测目标蛋白的结构,而不是几周或几个月。 使用NVIDIA BioNeMo模型,全球生物技术领导者Amgen将为分子筛选和优化定制模型的时间从三个月缩短到几周。这种可训练的基础模型使科学家能够为研究特定疾病创建变体,使他们能够开发针对罕见疾病的靶向治疗。 无论是预测蛋白质结构还是在大型真实世界和合成数据集上安全训练算法,生成式人工智能和加速计算正在开辟研究的新领域,有助于减轻疾病的传播、实现个性化医疗治疗和提高患者的生存率。 金融服务的生成式人工智能 根据最近的一项NVIDIA调查,金融服务行业中的顶级人工智能应用案例是客户服务和深度分析,其中自然语言处理和LLMs用于更好地回答客户的问题并发现投资见解。另一个常见的应用是推荐系统,它们提供个性化的银行体验、优化营销和投资指导。 先进的人工智能应用有助于帮助该行业更好地预防欺诈,并改变银行的方方面面,从投资组合规划和风险管理到合规和自动化。 80%的业务相关信息是以非结构化格式——主要是文本——存在的,这使其成为生成式人工智能的首选。彭博新闻每天发布与金融和投资社区相关的5000篇报道。这些报道代表了一大批非结构化的市场数据,可以用于进行及时的投资决策。 NVIDIA、德意志银行、彭博社和其他机构正在创建基于领域特定和专有数据的LLMs,用于支持金融应用。 财务变形器,或称“FinFormers”,可以学习上下文并理解非结构化金融数据的含义。它们可以驱动问答聊天机器人,概述和翻译金融文本,提供反对方风险的早期预警,快速检索数据并识别数据质量问题。 这些生成式人工智能工具依赖于能够将专有数据集成到模型训练和微调中的框架,集成数据策划以防止偏见,并使用安全措施保持与金融相关的对话。 预计金融科技初创企业和大型国际银行将扩大他们对LLMs和生成式人工智能的应用,开发复杂的虚拟助手为内部和外部利益相关者提供服务,创建超个性化的客户内容,自动化文档摘要以减少手动工作,并分析公共和私人数据的TB级数据以生成投资见解。 零售业的生成式人工智能 随着60%的购物旅程从线上开始,消费者比以往任何时候都更加联网和知识丰富,人工智能已成为帮助零售商满足不断变化的期望并与日益激烈的竞争区分开来的重要工具。…

Leave a Comment

微软和苏黎世联邦理工学院的研究人员推出了LightGlue

在计算机视觉领域中,图像之间的匹配对于相机跟踪和3D制图等应用起着至关重要的作用但是这些方法存在一定的局限性,这就是一个名为LightGlue的新型深度神经网络发挥作用的地方LightGlue是ETH Zurich之间合作研究努力的结果…

Leave a Comment

塔尔莫·佩雷拉在《SLEAP人工智能工具在生物和神经学研究中的威力》上的讲演

我们感谢塔尔莫·佩雷拉(Talmo Pereira),他是索尔克研究所(Salk Institute)的一名研究员,参与了这次采访,并分享了他在开发基于人工智能方法研究复杂生物系统方面的故事和多个见解他最近的工作集中在使用SLEAP工具进行无标记运动捕捉来量化行为这在神经科学、癌症研究等领域有应用塔尔莫·佩雷拉关于SLEAP人工智能工具在生物和神经学研究中的力量的文章阅读更多»

Leave a Comment

“Hugging Face的夏天”

夏天正式结束了,过去的几个月里,Hugging Face非常忙碌。从Hub上的新功能到研究和开源开发,我们的团队一直在努力通过开放和协作的技术来赋能社区。 在这篇博客文章中,您将了解到Hugging Face在六月、七月和八月发生的一切! 本文涵盖了我们团队一直在努力的各个领域,所以请随意跳到您最感兴趣的部分🤗 新功能 社区 开源 解决方案 研究 新功能 在过去的几个月里,Hub的公共模型仓库从10,000个增加到了16,000多个!感谢我们的社区与世界分享了这么多令人惊叹的模型。除了数量,我们还有很多很酷的新功能要与您分享! Spaces Beta ( hf.co/spaces ) Spaces是一个简单且免费的解决方案,可以直接在您的用户个人资料或您的组织hf.co个人资料上托管机器学习演示应用程序。我们支持两个很棒的Python SDK,让您可以轻松构建酷炫的应用程序:Gradio和Streamlit。只需几分钟,您就可以部署一个应用程序并与社区分享!🚀 Spaces可以设置秘密,允许自定义要求,甚至可以直接从GitHub仓库进行管理。您可以在hf.co/spaces上注册beta版本。以下是我们的一些收藏! 使用Chef Transformer创建食谱 使用HuBERT将语音转写为文本 在视频中进行分割,使用DINO模型 使用Paint…

Leave a Comment

使用Optimum优化的IPU开始使用Hugging Face Transformers

Transformer模型在各种机器学习任务上都表现出极高的效率,如自然语言处理、音频处理和计算机视觉。然而,这些大型模型的预测速度可能使它们在对话应用或搜索等对延迟敏感的用例中变得不切实际。此外,优化它们在实际环境中的性能需要相当多的时间、精力和技能,这是许多公司和组织所无法达到的。 幸运的是,Hugging Face推出了Optimum,这是一个开源库,可以大大简化在各种硬件平台上降低Transformer模型预测延迟的过程。在本博文中,您将了解如何为Graphcore智能处理单元(IPU)加速Transformer模型,Graphcore IPU是一个专为AI工作负载从头设计的高度灵活、易于使用的并行处理器。 Optimum遇见Graphcore IPU 通过Graphcore和Hugging Face之间的合作,我们现在推出了第一个针对IPU进行优化的BERT模型。在接下来的几个月中,我们将推出更多这样的IPU优化模型,涵盖视觉、语音、翻译和文本生成等各个应用领域。 Graphcore的工程师们使用Hugging Face transformers实现并优化了BERT,帮助开发人员轻松训练、微调和加速他们的最先进模型。 开始使用IPUs和Optimum 让我们以BERT作为例子,帮助您开始使用Optimum和IPUs。 在本指南中,我们将使用Graphcloud中的IPU-POD16系统,Graphcloud是Graphcore的基于云的机器学习平台,并按照《Graphcloud入门》中的PyTorch设置说明进行操作。 Graphcore的Poplar SDK已经安装在Graphcloud服务器上。如果您有其他设置,请在《IPU的PyTorch用户指南》中找到适用于您系统的指令。 设置Poplar SDK环境 您需要运行以下命令来设置几个环境变量,以启用Graphcore工具和Poplar库。在运行Poplar SDK版本2.3的最新系统上,您可以在文件夹/opt/gc/poplar_sdk-ubuntu_18_04-2.3.0+774-b47c577c2a/中找到它们。 为了使用PyTorch,您需要同时运行Poplar和PopART(Poplar Advanced Runtime)的enable脚本: $ cd…

Leave a Comment

案例研究:使用Hugging Face Infinity和现代CPU实现毫秒级延迟

介绍 迁移学习改变了机器学习领域,从自然语言处理(NLP)到音频和计算机视觉任务,提高了准确性。在Hugging Face,我们努力使这些新的复杂模型和大型检查点尽可能易于访问和使用。但是,虽然研究人员和数据科学家已经转向了Transformer的新世界,但很少有公司能够在生产规模上部署这些大型复杂模型。 主要瓶颈是预测的延迟,这可能使大规模部署变得昂贵,并使实时应用场景变得不切实际。解决这个问题对于任何机器学习工程团队来说都是一个困难的工程挑战,并且需要使用先进的技术将模型优化到硬件层面。 通过Hugging Face Infinity,我们提供了一个容器化解决方案,可以轻松部署低延迟、高吞吐量、硬件加速的推理流水线,适用于最受欢迎的Transformer模型。公司可以在简单易用的包装中获得Transformer的准确性和大规模部署所需的效率。在本博客文章中,我们想分享Infinity在最新一代英特尔Xeon CPU上运行的详细性能结果,以实现Transformer部署的最佳成本、效率和延迟。 什么是Hugging Face Infinity Hugging Face Infinity是一个容器化解决方案,供客户在任何基础设施上部署端到端优化的最先进的Transformer模型的推理流水线。 Hugging Face Infinity包括两个主要服务: Infinity Container是作为Docker容器交付的硬件优化推理解决方案。 Infinity Multiverse是一个模型优化服务,用于针对目标硬件优化Hugging Face Transformer模型。Infinity Multiverse与Infinity Container兼容。…

Leave a Comment

使用Kili和HuggingFace AutoTrain进行意见分类

介绍 了解用户需求对于任何与用户相关的业务来说都是至关重要的。但这也需要大量的辛勤工作和分析,而这是非常昂贵的。为什么不利用机器学习呢?通过使用Auto ML,可以减少编码量。 在本文中,我们将利用HuggingFace AutoTrain和Kili构建一个用于文本分类的主动学习流水线。Kili是一个通过质量训练数据创建的数据中心方法来赋能机器学习的平台。它提供了协作数据标注工具和API,使可靠的数据集构建和模型训练之间的快速迭代成为可能。主动学习是一个过程,其中您将标记的数据添加到数据集中,然后进行迭代地重新训练模型。因此,它是无限的,并且需要人类来标记数据。 作为本文的一个具体示例用例,我们将使用来自Google Play Store的VoAGI用户评论来构建我们的流水线。然后,我们将使用我们构建的流水线对评论进行分类。最后,我们将对分类的评论应用情感分析。然后我们将分析结果,更容易理解用户的需求和满意度。 使用HuggingFace进行自动训练 自动化机器学习是指自动化机器学习流程的一个术语。它还包括数据清洗、模型选择和超参数优化。我们可以使用🤗 transformers进行自动化的超参数搜索。超参数优化是一个困难且耗时的过程。 虽然我们可以通过使用transformers和其他强大的API自己构建我们的流水线,但也可以使用AutoTrain进行完全自动化。AutoTrain是建立在许多强大的API(如transformers、datasets和inference-api)之上的。 数据清洗、模型选择和超参数优化步骤在AutoTrain中都是完全自动化的。可以充分利用这个框架为特定任务构建可供生产使用的SOTA转换器模型。目前,AutoTrain支持二分类和多标签文本分类、标记分类、抽取式问答、文本摘要和文本评分。它还支持英语、德语、法语、西班牙语、芬兰语、瑞典语、印地语、荷兰语等许多语言。如果您的语言在AutoTrain中不受支持,也可以使用自定义模型和自定义分词器。 Kili Kili是一个面向数据中心业务的端到端AI训练平台。Kili提供了优化的标注功能和质量管理工具来管理您的数据。您可以快速注释图像、视频、文本、pdf和语音数据,同时控制数据集的质量。它还具有用于GraphQL和Python的强大API,极大地简化了数据管理。 它可在线或本地使用,并且可以在计算机视觉、自然语言处理和OCR上实现现代机器学习技术。它支持文本分类、命名实体识别(NER)、关系抽取等NLP/OCR任务。它还支持计算机视觉任务,如目标检测、图像转录、视频分类、语义分割等等! Kili是一种商业工具,但您也可以创建一个免费的开发者帐户来尝试Kili的工具。您可以从定价页面了解更多信息。 项目 我们将以评论分类和情感分析为例,来了解一个移动应用程序的见解。 我们从Google Play Store中提取了大约4万条VoAGI的评论。我们将逐步对此数据集中的评论文本进行标注。然后我们将构建一个评论分类的流水线。在建模过程中,第一个模型将使用AutoTrain准备。然后我们还将构建一个不使用AutoTrain的模型。 项目的所有代码和数据集都可以在GitHub存储库中找到。 数据集 让我们首先看一下原始数据集,…

Leave a Comment

我们为开放和协作式机器学习筹集了1亿美元 🚀

今天我们有一些令人兴奋的消息要分享!Hugging Face已经完成了由Lux Capital领导的1亿美元的C轮融资🔥🔥🔥,并得到了Sequoia、Coatue等主要参与者以及现有投资者Addition、a_capital、SV Angel、Betaworks、AIX Ventures、Kevin Durant、Thirty Five Ventures的Rich Kleiman、Datadog的联合创始人兼首席执行官Olivier Pomel等的支持。 自2018年我们首次开源PyTorch BERT以来,我们已经取得了长足的发展,并且我们的起点才刚刚开始!🙌 机器学习正在成为构建技术的默认方式。当你想到你的平凡一天时,机器学习无处不在:从你的Zoom背景,到在Google上搜索,再到下订单Uber或者写邮件时的自动补全–这都是机器学习的功劳。 Hugging Face现在是增长最快的机器学习社区和最常用的平台!在NLP、计算机视觉、语音、时间序列、生物学、强化学习、化学等领域,平台上托管了10万个预训练模型和1万个数据集,Hugging Face Hub已成为构建、协作和部署最先进模型的家园。 现在有超过1万家公司正在使用Hugging Face来利用机器学习构建技术。他们的机器学习科学家、数据科学家和机器学习工程师通过我们的产品和服务节省了无数小时,并加速了他们的机器学习路线图。 我们希望对人工智能领域产生积极影响。我们认为更负责任的人工智能发展方向是通过公开分享模型、数据集、训练过程、评估指标,并共同解决问题。我们相信开源和开放科学能够带来信任、鲁棒性、可重复性和持续创新。基于这个想法,我们领导了BigScience,这是一个围绕研究和创建非常大的语言模型的协作研讨会,汇集了1000多名来自各个背景和学科的研究人员。我们正在训练世界上最大的开源多语言语言模型 🌸 ⚠️ 但仍然有大量的工作要做。 在Hugging Face,我们知道机器学习存在一些重要的限制和挑战,比如偏见、隐私和能源消耗。通过开放、透明和合作,我们可以促进负责任和包容性的进步、理解和问责制,以应对这些挑战。…

Leave a Comment

使用Optimum和Transformers管道加速推理

推理已经在Optimum中登陆,并支持Hugging Face Transformers管道,包括使用ONNX Runtime进行文本生成。 BERT和Transformers的采用继续增长。基于Transformer的模型不仅在自然语言处理中实现了最先进的性能,还在计算机视觉、语音和时间序列中取得了突破。💬 🖼 🎤 ⏳ 公司现在正从实验和研究阶段转向生产阶段,以便在大规模工作负载中使用Transformer模型。但是,默认情况下,BERT及其相关模型相对于传统的机器学习算法而言速度较慢、体积较大且复杂。 为了解决这个挑战,我们创建了Optimum – Hugging Face Transformers的扩展,以加速像BERT这样的Transformer模型的训练和推理。 在本博客文章中,您将学到: 1. 什么是Optimum?ELI5 2. 新的Optimum推理和管道功能 3. 加速RoBERTa进行问答的端到端教程,包括量化和优化 4. 当前限制 5. Optimum推理常见问题解答…

Leave a Comment

Graphcore和Hugging Face推出新的IPU-Ready Transformers产品线

Graphcore和Hugging Face显著扩展了Hugging Face Optimum中可用的机器学习模态和任务范围,这是一个用于优化Transformer性能的开源库。开发人员现在可以方便地访问各种现成的Hugging Face Transformer模型,并经过优化以在Graphcore的IPU上提供最佳性能。 在Optimum Graphcore推出后不久推出的BERT Transformer模型,开发人员现在可以访问包括自然语言处理(NLP)、语音和计算机视觉在内的10个模型,这些模型配有IPU配置文件以及准备好的预训练和微调模型权重。 新的Optimum模型 计算机视觉 ViT(Vision Transformer)是图像识别的突破性技术,它使用Transformer机制作为其主要组件。当图像输入到ViT中时,它们被划分为小块,类似于语言系统中处理单词的方式。每个块都由Transformer(嵌入)进行编码,然后可以单独处理。 自然语言处理(NLP) GPT-2(生成型预训练Transformer 2)是一个在大规模英语语料库上进行自我监督预训练的文本生成Transformer模型。这意味着它仅在原始文本上进行预训练,没有以任何方式对其进行人工标记(这就是为什么它可以使用大量公开可用的数据),它使用自动化过程从这些文本中生成输入和标签。更准确地说,它通过猜测句子中下一个单词来训练生成文本。 RoBERTa(鲁棒优化BERT方法)是一个在大规模英语语料库上进行自我监督预训练的Transformer模型,类似于GPT-2。更准确地说,RoBERTa使用了掩码语言建模(MLM)目标进行预训练。给定一个句子,模型会随机掩盖输入中的15%单词,然后将整个掩码句子输入模型,并预测掩盖的单词。RoBERTa可以用于掩码语言建模,但主要用于在下游任务上进行微调。 DeBERTa(具有解耦注意力的解码增强BERT)是用于NLP任务的预训练神经语言模型。DeBERTa使用两种新颖技术(解耦注意力机制和增强掩码解码器)对2018年的BERT和2019年的RoBERTa模型进行了改进,显著提高了模型的预训练效率和下游任务的性能。 BART是一个具有双向(类似BERT)编码器和自回归(类似GPT)解码器的Transformer编码器-解码器(seq2seq)模型。BART通过(1)使用任意的噪声函数破坏文本和(2)学习一个模型来重构原始文本进行预训练。BART在文本生成(例如摘要、翻译)的微调上特别有效,但在理解任务(例如文本分类、问答)上也表现良好。 LXMERT(从Transformer中学习跨模态编码器表示)是用于学习视觉和语言表示的多模态Transformer模型。它有三个编码器:对象关系编码器、语言编码器和跨模态编码器。它是通过一系列任务进行预训练,包括掩码语言建模、视觉-语言文本对齐、ROI特征回归、掩码视觉属性建模、掩码视觉对象建模和视觉问答目标。它在VQA和GQA视觉问答数据集上取得了最先进的结果。 T5(文本到文本转换Transformer)是一个革命性的新模型,可以将任何文本转换为用于翻译、问答或分类的机器学习格式。它引入了一个统一的框架,将所有基于文本的语言问题转换为文本到文本格式的迁移学习。通过这样做,它简化了在各种NLP任务中使用相同的模型、目标函数、超参数和解码过程的方式。 语音 HuBERT(隐藏单元BERT)是一个在音频上进行自我监督语音识别预训练的模型,它学习了连续输入上的声学和语言模型的组合。HuBERT模型在Librispeech(960h)和Libri-light(60,000h)基准测试中,使用10分钟、1小时、10小时、100小时和960小时的微调子集,要么与现有的wav2vec 2.0性能相匹配,要么有所改进。 Wav2Vec2是一个用于自动语音识别的预训练自我监督模型。Wav2Vec2使用一种新颖的对比预训练目标,从大量无标签的语音数据中学习强大的语音表示,然后在少量转录语音数据上进行微调,优于最佳的半监督方法,而且概念上更简单。…

Leave a Comment

如何使用对抗数据动态训练你的模型

你将在这里学到什么 💡动态对抗数据收集的基本思想以及其重要性。 ⚒如何动态收集对抗数据并在其上训练模型 – 以MNIST手写数字识别任务为例。 动态对抗数据收集(DADC) 静态基准在评估模型性能时被广泛使用,但存在许多问题:它们容易饱和、存在偏见或漏洞,而且常常导致研究人员追求指标的增长,而不是构建可信赖的模型,可以被人类使用1。 动态对抗数据收集(DADC)作为一种缓解静态基准问题的方法具有很大的潜力。在DADC中,人类创造了一些例子来欺骗最先进的(SOTA)模型。这个过程有两个好处: 它允许用户评估他们的模型的鲁棒性如何; 它产生的数据可以用于进一步训练更强大的模型。 通过在对抗性收集的数据上欺骗并训练模型,不断重复这个过程,可以得到与人类一致的更强大的模型1。 使用对抗数据动态训练模型 在这里,我将指导您从用户动态收集对抗数据并在其上训练模型 – 使用MNIST手写数字识别任务。 在MNIST手写数字识别任务中,模型被训练以在给定手写数字(见下图中的示例)的28×28灰度图像输入下预测数字。数字的范围是从0到9。 图片来源:mnist | Tensorflow数据集 这个任务被广泛认为是计算机视觉的入门,很容易训练出在标准(静态)基准测试集上达到高准确率的模型。然而,研究表明,这些SOTA模型在人类书写数字时(并将其作为输入提供给模型)仍然很难预测出正确的数字:研究人员认为,这主要是因为静态测试集不足以充分代表人类书写的多样性方式。因此,需要人类参与,提供对抗样本,帮助模型更好地泛化。 本指南将分为以下几个部分: 配置您的模型 与您的模型交互 标记您的模型 将所有内容组合在一起…

Leave a Comment

深入探讨:使用Hugging Face Optimum Graphcore进行视觉Transformer

本博客文章将展示如何使用Hugging Face Optimum库和Graphcore Intelligence Processing Units(IPUs)对预训练的Transformer模型进行微调,以适应您的数据集。作为示例,我们将展示一份逐步指南,并提供一个笔记本,该笔记本使用一组大型、广泛使用的胸部X射线数据集来训练一个视觉Transformer(ViT)模型。 介绍视觉Transformer(ViT)模型 2017年,一组Google AI研究人员发表了一篇论文,介绍了Transformer模型架构。Transformer以其独特的自注意机制而闻名,被提出作为语言应用的一种新型高效模型组。事实上,在过去的五年中,Transformer模型经历了爆炸性的流行,并被广泛接受为自然语言处理(NLP)的事实标准。 语言领域的Transformer模型最具代表性的莫过于快速发展的GPT和BERT模型系列。作为Hugging Face Optimum Graphcore库日益壮大的一部分,这两个模型系列都可以轻松高效地在Graphcore IPUs上运行。 关于Transformer模型架构的深入解释(重点是NLP),可以在Hugging Face网站上找到。 尽管Transformer在语言领域取得了初步的成功,但它们具有极高的通用性,可以用于包括计算机视觉(CV)在内的一系列其他目的,正如我们将在本博客文章中介绍的那样。 计算机视觉是卷积神经网络(CNNs)无疑最受欢迎的架构领域。然而,视觉Transformer(ViT)架构首次在2021年由Google Research提出,它代表了图像识别的突破,并使用了与BERT和GPT相同的自注意机制作为其主要组成部分。 与BERT和其他基于Transformer的语言处理模型以句子(即单词列表)作为输入不同,ViT模型将输入图像分成几个小块,相当于语言处理中的单个单词。每个块都由Transformer模型线性编码成可以单独处理的向量表示。这种将图像分割成块或视觉标记的方法与CNNs使用的像素数组形成对比。 通过预训练,ViT模型学习了图像的内部表示,然后可以用于提取对下游任务有用的视觉特征。例如,您可以在一个新的带有标签的图像数据集上训练一个分类器,通过在预训练的视觉编码器之上放置一个线性层。通常情况下,将线性层放置在[CLS]标记之上,因为该标记的最后隐藏状态可以看作是整个图像的表示。 与CNN相比,ViT模型在更低的计算成本下展示了更高的识别准确性,并应用于包括图像分类、目标检测和分割在内的一系列应用。仅在医疗领域,应用案例就包括COVID-19、股骨骨折、肺气肿、乳腺癌和阿尔茨海默病等等。 ViT模型 – IPU的完美匹配…

Leave a Comment

OpenRAIL 朝着开放和负责任的人工智能许可框架迈进

开放和负责任的人工智能许可证(”OpenRAIL”)是一种专门针对人工智能制品的许可证,允许开放访问、使用和分发人工智能制品,同时要求对其负责任使用。OpenRAIL许可证可以成为开放和负责任的机器学习领域的普遍社区许可工具,就像当前的开源软件许可证对代码和知识共享许可证对通用内容一样。 机器学习和其他人工智能相关领域的进展在过去几年中蓬勃发展,部分得益于信息和通信技术(ICT)领域普遍存在的开源文化,该文化已经渗透到机器学习研究和开发的动态中。尽管开放性对于创新是一个核心价值观的益处不言而喻,但与机器学习模型的开发和使用相关的伦理和社会经济问题的最近事件传达了一个明确的信息:开放还不够。然而,封闭的系统也不是答案,因为问题依然存在于公司私有的人工智能开发过程的不透明性之下。 开源许可证并不适用于所有情况 对机器学习模型的访问、开发和使用受到开源许可方案的极大影响。例如,当机器学习开发人员通过附加官方开源许可证或其他开源软件或内容许可证(如知识共享许可证)来公开权重时,他们可能会非正式地称之为“开源模型”。这引发了一个问题:为什么他们这样做?机器学习制品和源代码真的如此相似吗?从技术角度来看,它们是否共享足够的内容,使得为源代码设计的私有治理机制(例如开源许可证)也应该治理机器学习模型的开发和使用? 大多数当前的模型开发者似乎是这么认为的,因为大多数公开发布的模型都有一个开源许可证(例如Apache 2.0)。例如,可以参考Hugging Face模型中心和Muñoz Ferrandis & Duque Lizarralde (2022)。 然而,实证证据也告诉我们,对开源化和/或自由软件动态的刚性方法以及对ML制品发布的自由0的公理信仰正在在ML模型的使用中产生社会伦理上的扭曲(见Widder等人(2022))。简而言之,开源许可证不考虑模型作为一个不同于软件/源代码的技术性质和能力的事物,因此无法适应对ML模型的更负责任的使用(例如开源定义的第6个标准),参见Widder等人(2022);Moran(2021);Contractor等人(2020)。 如果已经存在并且每天都在改进针对ML模型的文档、透明度和伦理使用的特定实践(例如模型卡片、评估基准),为什么开放许可实践也不应该根据ML模型的特定能力和挑战进行调整呢? 商业和政府的ML许可实践中也出现了类似的问题。用Bowe & Martin (2022)的话来说:“安德里尔工业的总法律顾问Babak Siavoshy问,为计算机视觉目标检测私下开发的AI算法应该适用于哪种类型的许可条款,并使其适应军事目标定位或威胁评估?商业软件许可证和标准DFARS数据权益条款都不能妥善回答这个问题,因为它们既无法保护开发者的利益,也无法使政府获得部署它的系统的洞察力以便负责任地使用。” 如果的确如此,即ML模型和软件/源代码是不同的制品,那为什么前者要在开源许可证下发布呢?答案很简单,开源许可证已经成为软件相关市场上代码共享的事实标准。这种“开源”方法在协作软件开发方面的应用已经渗透并影响了AI开发和许可实践,并带来了巨大的好处。开源和开放和负责任的人工智能许可证(”OpenRAIL”)可能是互补的倡议。 为什么我们不设计一套由开源等运动启发,以及以ML领域的基于证据的方法为基础的许可机制呢?事实上,已经有一套新的许可框架将成为开放和负责任的ML开发、使用和访问的工具:Open & Responsible AI Licenses(OpenRAIL)。…

Leave a Comment

使用Transformers中的对比搜索生成人类水平的文本 🤗

1. 简介: 自然语言生成(即文本生成)是自然语言处理(NLP)中的核心任务之一。在本博客中,我们介绍了当前最先进的解码方法对比搜索(Contrastive Search),用于神经文本生成。对比搜索最初在“A Contrastive Framework for Neural Text Generation”[1]([论文][官方实现])中提出,该论文发表于NeurIPS 2022。此外,在随后的研究“Contrastive Search Is What You Need For Neural Text Generation”[2]([论文][官方实现])中,作者进一步证明了对比搜索可以使用现成的语言模型在16种语言中生成人类水平的文本。 [备注] 对于不熟悉文本生成的用户,请参考此博文了解更多细节。 2. Hugging Face…

Leave a Comment

使用🤗 PEFT 进行参数高效微调

动机 基于Transformer架构的大型语言模型(LLMs),如GPT、T5和BERT,在各种自然语言处理(NLP)任务中取得了最先进的结果。它们还开始进军其他领域,如计算机视觉(CV)(VIT、稳定扩散、LayoutLM)和音频(Whisper、XLS-R)。传统范式是在通用的网络规模数据上进行大规模预训练,然后对下游任务进行微调。与直接使用预训练的LLMs(例如零样本推理)相比,将这些预训练的LLMs在下游数据集上进行微调可以获得巨大的性能提升。 然而,随着模型变得越来越大,完全微调在消费者硬件上变得不可行。此外,为每个下游任务独立存储和部署微调模型非常昂贵,因为微调模型与原始预训练模型的大小相同。参数高效微调(PEFT)方法旨在解决这两个问题! PEFT方法仅微调少量(额外的)模型参数,同时冻结预训练LLMs的大部分参数,从而大大降低计算和存储成本。这也克服了LLMs在完全微调过程中出现的灾难性遗忘问题。PEFT方法在低数据范围内也表现出优于微调的效果,并更好地推广到领域外场景。它可以应用于各种模态,例如图像分类和稳定扩散梦之间。 它还有助于可移植性,用户可以使用PEFT方法调整模型,以获得几MB大小的小检查点,与完全微调的大检查点相比,例如bigscience/mt0-xxl占用40GB的存储空间,完全微调将导致每个下游数据集的40GB检查点,而使用PEFT方法,每个下游数据集只需几MB,同时实现与完全微调相当的性能。PEFT方法中的小训练权重添加到预训练的LLMs之上。因此,可以通过添加小权重而无需替换整个模型来使用相同的LLMs进行多个任务。 简而言之,PEFT方法使您能够获得与完全微调相当的性能,同时只需少量可训练参数。 今天,我们很高兴介绍🤗 PEFT库,它与🤗 Transformers和🤗 Accelerate完美集成,提供最新的参数高效微调技术。这使得可以使用Transformers中最受欢迎和性能最好的模型,同时结合Accelerate的简单性和可扩展性。下面是当前支持的PEFT方法,更多方法即将推出: LoRA: LORA: 大型语言模型的低秩自适应 Prefix Tuning: P-Tuning v2: 提示调整在各种规模和任务上可与微调相媲美 Prompt Tuning: 多尺度参数高效提示调整的强大力量 P-Tuning: GPT也懂 应用案例 我们在这里探索了许多有趣的应用案例。以下是其中几个最有趣的案例:…

Leave a Comment

使用BLIP-2进行零样本图像到文本生成

本指南介绍了Salesforce Research的BLIP-2,它可以在🤗 Transformers中使用一套最先进的视觉语言模型。我们将向您展示如何在图像字幕、提示图像字幕、视觉问答和基于聊天的提示中使用它。 目录 介绍 BLIP-2的内部结构是什么? 如何在Hugging Face Transformers中使用BLIP-2 图像字幕 提示图像字幕 视觉问答 基于聊天的提示 结论 致谢 介绍 近年来,计算机视觉和自然语言处理取得了快速发展。然而,许多现实世界的问题本质上是多模态的-它们涉及到多个不同形式的数据,如图像和文本。视觉语言模型面临的挑战是如何结合这些模态,以打开各种应用的大门。视觉语言模型可以处理的一些图像到文本的任务包括图像字幕、图像文本检索和视觉问答。图像字幕可以帮助视觉障碍者、创建有用的产品描述、识别超越文本的不适当内容等。图像文本检索可以应用于多模态搜索,以及自动驾驶等应用中。视觉问答可以在教育中发挥作用,实现多模态的聊天机器人,并在各种领域特定的信息检索应用中提供帮助。 现代计算机视觉和自然语言模型变得更加强大,但与之前的模型相比也显著增大了体积。虽然预训练单模态模型需要消耗大量资源且昂贵,但端到端视觉和语言预训练的成本变得越来越高。BLIP-2通过引入一种新的视觉语言预训练范式来解决这一挑战,该范式可以潜在地利用任何预训练的视觉编码器和LLM的组合,而无需对整个架构进行端到端的预训练。这在显著减少可训练参数和预训练成本的同时,实现了多个视觉语言任务的最先进结果。此外,这种方法为多模态ChatGPT模型铺平了道路。 BLIP-2的内部结构是什么? BLIP-2通过在现有的冻结预训练图像编码器和冻结大型语言模型之间添加了一个轻量级的查询变换器(Q-Former),来弥合视觉和语言模型之间的模态差距。Q-Former是BLIP-2中唯一可训练的部分,图像编码器和语言模型都保持冻结状态。 Q-Former是一个由两个子模块组成的变换器模型,它们共享相同的自注意力层: 一个图像变换器,与冻结的图像编码器进行交互以进行视觉特征提取 一个文本变换器,可以作为文本编码器和文本解码器 图像变换器从图像编码器中提取固定数量的输出特征,与输入图像分辨率无关,并接收可学习的查询嵌入作为输入。查询还可以通过相同的自注意力层与文本进行交互。 Q-Former在两个阶段进行预训练。在第一阶段中,图像编码器被冻结,Q-Former通过三个损失进行训练:…

Leave a Comment

使用AWS Inferentia2加速Hugging Face Transformers

在过去五年中,Transformer模型[1]已成为许多机器学习(ML)任务的事实标准,例如自然语言处理(NLP)、计算机视觉(CV)、语音等。如今,许多数据科学家和ML工程师依赖于流行的Transformer架构,如BERT[2]、RoBERTa[3]、Vision Transformer[4]或Hugging Face Hub上提供的130,000多个预训练模型,以实现拥有最先进准确性的复杂业务问题的解决方案。 然而,尽管它们的伟大之处,但在生产环境中部署Transformer模型可能具有挑战性。除了通常与模型部署相关的基础设施问题,我们主要通过我们的Inference Endpoints服务解决了这个问题,Transformer是大型模型,其通常超过多GB的标记。大型语言模型(LLM)如GPT-J-6B、Flan-T5或Opt-30B可达数十GB,更不用说像BLOOM这样的巨无霸,我们自家的LLM,其大小达到350GB。 将这些模型适配到单个加速器上可能非常困难,更不用说获得应用程序所需的高吞吐量和低推理延迟,如对话应用程序和搜索。迄今为止,ML专家已经设计了复杂的手动技术来切分大型模型,在加速器集群上分发它们,并优化其延迟。不幸的是,这项工作非常困难、耗时,并且对许多ML从业者来说是无法企及的。 在Hugging Face,我们正在普及ML,并始终寻求与那些相信每个开发者和组织都应受益于最先进模型的公司合作。为此,我们很高兴与亚马逊网络服务(AWS)合作,为AWS Inferentia 2优化Hugging Face Transformers!这是一种新型的用于推断的专用加速器,具有前所未有的吞吐量、延迟、每瓦性能和可扩展性。 介绍AWS Inferentia2 AWS Inferentia2是2019年推出的Inferentia1的下一代。由Inferentia1提供动力,Amazon EC2 Inf1实例的吞吐量比基于NVIDIA A10G GPU的可比G5实例高25%,成本低70%,而Inferentia2则再次突破界限。 新的Inferentia2芯片相比Inferentia提供了4倍的吞吐量增加和10倍的延迟降低。同样,新的Amazon EC2 Inf2实例的吞吐量最多提高2.6倍,延迟降低8.1倍,性能每瓦提高50%,优势明显。Inferentia 2将为您提供最佳的两个方面:高吞吐量的推理成本优化和低推理延迟的应用程序响应时间。…

Leave a Comment

深入研究文本到视频模型

使用ModelScope生成的视频样本。 文本到视频是生成模型中令人难以置信的新进展之一。正如其名字所示,文本到视频是一个相对较新的计算机视觉任务,涉及从文本描述生成一系列时间和空间上连续一致的图像序列。虽然这个任务看起来与文本到图像非常相似,但实际上更加困难。这些模型如何工作?它们与文本到图像模型有何不同?我们可以期望它们有什么样的性能? 在本博文中,我们将讨论文本到视频模型的过去、现在和未来。我们将首先回顾文本到视频和文本到图像任务之间的区别,并讨论无条件和文本条件视频生成的独特挑战。此外,我们还将介绍文本到视频模型的最新发展,探讨这些方法的工作原理和能力。最后,我们将谈谈Hugging Face正在做的工作,以促进这些模型的集成和使用,并分享一些有趣的演示和资源,无论是在Hugging Face Hub内还是外部。 从各种文本描述输入生成的视频示例,图片来源于Make-a-Video。 文本到视频 vs. 文本到图像 近年来,文本到图像生成模型的发展进展如此之快,以至于很难跟上最新状态。让我们先进行一个简单回顾。 仅仅两年前,首批开放词汇、高质量的文本到图像生成模型问世。这第一波文本到图像模型包括VQGAN-CLIP、XMC-GAN和GauGAN2,它们都采用了GAN架构。随后,OpenAI在2021年初推出了非常受欢迎的基于Transformer的DALL-E,2022年4月推出了DALL-E 2,以及由Stable Diffusion和Imagen开创的新一波扩散模型。Stable Diffusion的巨大成功导致了许多产品化的扩散模型,如DreamStudio和RunwayML GEN-1,以及与现有产品的集成,如Midjourney。 尽管扩散模型在文本到图像生成方面具有令人印象深刻的能力,但扩散和非扩散的文本到视频模型在生成能力方面受到了极大的限制。文本到视频通常在非常短的片段上进行训练,这意味着它们需要一种计算昂贵且缓慢的滑动窗口方法来生成长视频。因此,这些模型在部署和扩展方面非常困难,并且在上下文和长度方面仍然受限。 文本到视频任务在多个方面面临着独特的挑战。其中一些主要挑战包括: 计算挑战:确保帧之间的空间和时间一致性会产生长期依赖,这带来了高计算成本,使得训练这样的模型对于大多数研究人员来说不可承受。 缺乏高质量的数据集:用于文本到视频生成的多模态数据集稀缺,并且往往标注不完整,这使得学习复杂的运动语义变得困难。 关于视频字幕的模糊性:以便让模型更容易学习,描述视频的方式是一个未解之谜。单一的短文本提示不足以提供完整的视频描述。生成的视频必须基于一系列提示或叙述随时间发生的情节的故事。 在下一节中,我们将讨论文本到视频领域的发展时间线以及分别提出的各种方法来解决这些挑战。从更高层面上看,文本到视频的工作提出了以下一种或多种方法: 新的、更高质量的数据集,更容易学习。 在没有配对的文本-视频数据的情况下训练这样的模型的方法。 更高效的方法生成更长、更高分辨率的视频。…

Leave a Comment

伦理与社会通讯 #4:文本到图像模型中的偏见

简介:我们需要更好的方法来评估文本到图像模型中的偏见 介绍 文本到图像(TTI)生成如今非常流行,数千个TTI模型正在上传到Hugging Face Hub。每种模态都可能受到不同来源的偏见影响,这引发了一个问题:我们如何发现这些模型中的偏见?在本博文中,我们将分享关于TTI系统中偏见来源的观点,以及解决这些偏见的工具和潜在解决方案,展示我们自己的项目和社区的其他项目。 图像生成中编码的价值观和偏见 偏见与价值观之间存在着非常密切的关系,特别是当它们嵌入到训练和查询给定文本到图像模型中使用的语言或图像中时;这种现象严重影响了我们在生成的图像中看到的结果。尽管在更广泛的人工智能研究领域中已经知道了这种关系,并且正在进行相当大的努力来解决这个问题,但是试图在单个模型中表示给定人群价值观的不断变化的本质的复杂性仍然存在。这对于发现和充分解决它们提出了持久性的伦理挑战。 例如,如果训练数据主要是英文,它们可能传达了相当西方的价值观。结果我们会得到对不同或遥远文化的刻板印象的表达。当我们比较ERNIE ViLG(左)和Stable Diffusion v2.1(右)对于相同提示“北京的一座房子”时,这种现象似乎很明显: 偏见来源 近年来,在自然语言处理(Abid等人,2021年)以及计算机视觉(Buolamwini和Gebru,2018年)领域,对于单模态AI系统中的偏见检测进行了许多重要研究。在人类构建机器学习模型的范畴内,所有机器学习模型(实际上是所有技术)都存在偏见。这可能表现为图像中某些视觉特征的过度或不足表现(例如,所有办公室工作者都系领带),或者文化和地理刻板印象的存在(例如,所有新娘都穿着白色礼服和面纱,而不是更具代表性的世界各地的新娘形象,例如穿着红色纱丽的新娘)。鉴于AI系统正在广泛应用于不同行业和工具(例如Firefly,Shutterstock)的社会技术环境中,它们尤其有可能放大现有的社会偏见和不平等。我们的目标是在下面提供一个非详尽的偏见来源列表: 训练数据中的偏见:受欢迎的多模态数据集,如用于文本到图像的LAION-5B,用于图像字幕的MS-COCO,以及用于视觉问答的VQA v2.0,已被发现包含大量偏见和有害关联(Zhao等人,2017年;Prabhu和Birhane,2021年;Hirota等人,2022年),这些偏见可能渗透到这些数据集上训练的模型中。例如,Hugging Face Stable Bias项目的初步结果显示,图像生成中缺乏多样性,并且延续了对文化和身份群体的常见刻板印象。比较CEO(右)和经理(左)的Dall-E 2生成结果,我们可以看到两者都缺乏多样性: 预训练数据过滤中的偏见:通常在用于训练模型之前对数据集进行某种形式的过滤;这引入了不同的偏见。例如,在Dall-E 2的博文中,作者发现过滤训练数据实际上可能放大偏见——他们假设这可能是由于现有数据集对于以更加性感背景呈现女性的偏见,或者由于他们使用的过滤方法本身的固有偏见。 推理中的偏见:用于指导文本到图像模型(如Stable Diffusion和Dall-E 2)的训练和推理的CLIP模型存在一些广为人知的偏见,例如将被标记为白人、中年和男性的图像视为默认情况。这可能会影响使用它进行提示编码的模型的生成结果,例如将未指定或未明确指定的性别和身份群体解释为白人和男性。 模型潜在空间中的偏见:在探索模型的潜在空间以及引导图像生成沿不同的轴线(如性别)进行生成以使生成结果更具代表性方面已经进行了初步工作(请参见下面的图像)。然而,我们需要更多的工作来更好地理解不同类型的扩散模型潜在空间的结构以及可能影响生成图像中反映的偏见的因素。…

Leave a Comment

实际应用的MLOps示例:Brainly视觉搜索的端到端MLOps管道

在系列文章“真实世界的MLOps示例”的第二篇中,Brainly的机器学习工程师Paweł Pęczek将为您介绍Brainly视觉搜索团队中的端到端机器学习运营(MLOps)过程由于要在MLOps方面取得成功需要更多的技术和流程,他还将分享以下细节:…(继续)

Leave a Comment

测量AI模型中的感知

感知——通过感官体验世界的过程——是智能的一个重要组成部分构建具有与人类相当感知理解世界能力的智能体是一项核心但具有挑战性的任务,这在机器人技术、自动驾驶汽车、个人助理、医学成像等领域变得越来越重要因此,今天我们介绍感知测试,这是一个使用真实世界视频的多模态基准,用于评估模型的感知能力

Leave a Comment

遇见KITE:一种使用关键点作为视觉定位和精确动作推理的语义操作的AI框架

随着人工智能领域的不断发展,AI技术开始与机器人相结合。从计算机视觉和自然语言处理到边缘计算,AI与机器人融合以开发有意义且有效的解决方案。AI机器人是在现实世界中行动的机器。考虑到语言作为人与机器人之间的交流工具是很重要的。然而,有两个主要问题阻碍了现代机器人有效处理自由形式的语言输入。第一个挑战是让机器人根据提供的指令推理出它需要操作的内容。另一个是拾取和放置任务,需要在拾取像毛绒动物的耳朵而不是腿部,或者在拾取肥皂瓶的出液器而不是侧面时进行仔细的区分。 机器人必须从输入指令中提取场景和对象语义,并根据语义操纵执行准确的低级动作。为了克服这些挑战,斯坦福大学的研究人员提出了KITE(关键点+指令到执行)框架,这是一个用于语义操纵的两步骤框架。KITE同时考虑了场景语义和对象语义。对象语义精确定位了对象实例中的各个部分,而场景语义涉及在视觉场景中区分各种对象。 KITE的第一阶段涉及使用2D图片关键点将输入指令与视觉上下文相结合。对于后续的动作推断,这个过程提供了一个非常准确的以对象为中心的偏见。通过将命令映射到场景中的关键点,机器人对物品及其相关特征有了准确的理解。KITE的第二步是根据RGB-D场景观察执行学习到的关键点条件技能。机器人使用这些参数化的技能来执行提供的指令。关键点和参数化技能共同提供了对场景和物体差异的精细操纵和泛化能力。 为了评估KITE的性能,团队在三个实际环境中进行了评估:高精度制作咖啡,语义抓取和长期规划的6自由度桌面操纵。在制作咖啡任务中,KITE的成功率为71%,语义抓取的成功率为70%,在桌面操纵场景中遵循指令的成功率为75%。KITE在使用基于关键点的基础架构与预训练的视觉语言模型相比的框架中表现更好。它优于强调端到端视觉运动控制而非技能使用的框架。 尽管在训练过程中所示的示范相同或更少,KITE仍然实现了这些结果,这表明了其效果和效率。为了将图像和语言短语映射到显著性热图,并产生关键点,KITE使用了一种类似CLIPort的技术。为了输出技能路径点,技能架构修改了PointNet++,以接受带有关键点注释的多视点点云输入。2D关键点使KITE能够准确关注视觉特征,而3D点云为规划提供了必要的6自由度上下文。 总之,KITE框架提供了一个有希望的解决方案,解决了长期以来使机器人能够解释和遵循自然语言命令的挑战。它通过利用关键点和指令操纵的能力实现了精细的语义操纵,具有高精度和泛化能力。

Leave a Comment

Magic123介绍:一种新的图像到3D的流水线,使用两阶段的粗到精优化过程,生成高质量、高分辨率的3D几何和纹理

尽管人类只能以二维方式看世界,但他们擅长在三维环境中导航、思考和互动。这表明了一种深深根植于人类本性的三维环境的认知意识。能够从一张照片中创建详细的三维复制品的艺术家将这种技能提升到了一个新的水平。然而,经过几十年的研究和进展,从非姿势图像进行三维重建的挑战,包括几何和纹理的生成,仍然是计算机视觉领域一个开放且不适定的课题。由于近期深度学习的进展,许多三维创建活动可以通过学习来实现。 尽管深度学习在图像识别和生成方面取得了重大进展,但在真实世界中的单幅图像三维重建这一特定挑战方面仍有待改进。他们将人类和机器在三维重建能力上的显著差距归咎于两个主要问题:(i) 缺乏大规模的三维数据集,以防止三维几何的大规模学习,以及(ii) 在处理三维数据时,在细节级别和计算资源之间存在权衡。利用二维先验是解决这个问题的一种策略。在线上有大量真实的二维图片数据。为了训练像CLIP和Stable Diffusion这样的先进图像解释和生成算法,最全面的文本-图像对数据集之一是LAION。 随着二维生成模型的扩展泛化能力的增强,使用二维模型作为先验来创建三维材料的策略越来越多。DreamFusion在文本到三维创建中首创了这种基于二维先验的技术。该方法在零样本情况下展示了引导独特视角和增强神经辐射场(NeRF)的卓越能力。在DreamFusion的基础上,最近的研究尝试使用RealFusion和NeuralLift等方法将这些二维先验适应于单张图像的三维重建。另一种策略是使用三维先验。在早期的研究中,诸如拓扑限制之类的三维先验被用于辅助三维创建。这些手工制作的三维先验可以创建一些三维内容,但可能不够好。 最近对二维扩散模型进行了修改,使其成为视角依赖的,并将这种视角依赖的扩散用作Zero-1-to-3和3Dim等技术中的三维先验。根据行为分析,二维和三维先验都有优点和缺点。与三维先验相比,二维先验在三维创建方面具有出色的泛化能力,如图1中的龙像示例所示。由于其有限的三维理解能力,仅依赖于二维先验的方法最终会失去三维的准确性和一致性。这导致了不真实的几何结果,如许多面(双面问题)、不同大小、不均匀的纹理等。图1中的泰迪熊示例是一个失败的情况。 然而,由于缺乏三维训练数据,需要更多地依赖于三维先验来进行野外重建。因此,正如图1所示,虽然基于三维先验的解决方案成功处理常见物品(如顶行的泰迪熊示例),但它们在处理不常见物品时困难重重,产生过于简单甚至扁平的三维几何形状(如左下角的龙像)。本研究中来自沙特阿拉伯国王阿卜杜拉科技大学(KAUST)、Snap Inc.和牛津大学视觉几何组的研究人员提倡同时使用两种先验来引导图像到三维创建中的创新视角,而不仅仅依赖于二维或三维先验。他们可以通过调整二维和三维先验之间具体但有用的权衡参数来控制生成的三维几何中的探索和开发之间的平衡。 图1展示了Magic123的2D和3D先验之间的权衡。一个经常出现的玩具熊、两个叠放的甜甜圈(一个不太常见的物品)和一座龙像(一个不常见的物体)是他们比较单张图像重建的三种情景。从右侧可以看到,只有2D背景的Magic123更倾向于几何探索,并以更大的创造力创建3D物体,但可能缺乏一致性。只有3D先验的Magic123(左侧)则优先考虑几何利用,导致准确但可能更简单且缺少特征的几何形状。 优先考虑2D先验可以提高创造性的3D技能,以弥补每个2D图像中部分3D信息的不足。然而,这可能会导致3D几何的准确性降低,因为缺乏对3D的理解。另一方面,优先考虑3D先验可以得到更多受3D约束的解以及更准确的3D几何,但代价是创造力降低以及在困难和不寻常情况下寻找可行解的能力减弱。他们提出了Magic123,这是一种先进的图像到3D的流水线,使用两阶段粗到精的优化方法,同时利用2D和3D先验生成高质量的3D输出。 他们在粗阶段对神经辐射场(NeRF)进行改进。NeRF有效地学习了一种隐式体积表示,用于学习复杂的几何形状。然而,NeRF使用了大量内存,导致生成的低分辨率图片被发送到扩散模型,从而降低了图像到3D过程的输出质量。Instant-NGP是一种更节约资源的NeRF替代方法,限制了在16GB内存GPU上的图像到3D流水线分辨率为128×128。因此,他们添加了第二步,并使用Deep Marching Tetrahedra(DMTet),一种内存高效且纹理分解的SDF-Mesh混合表示,以提高3D内容的质量。 借助这种方法,他们可以将NeRF的几何和纹理细化分开,并将分辨率提升到1K。他们在两个阶段中使用了2D和3D先验的组合,以引导创新的视角。他们对自己的贡献进行了以下总结: • 他们提出了Magic123,一种革命性的图像到3D的流水线,使用两阶段粗到精的优化过程创建高质量、高分辨率的3D几何和纹理。 • 他们建议同时使用2D和3D先验从任意给定的图像中创建准确的3D内容。先验的强度参数可以在探索几何和利用几何之间进行权衡。用户可以通过调整这个权衡参数来创建所需的3D内容。 • 他们可以找到2D和3D先验之间的平衡权衡,从而得到相对逼真和详细的3D重建结果。Magic123在真实世界和合成环境中,使用相同的参数集合为所有样本生成最先进的单张非姿势照片的3D重建结果,无需进一步重新配置。

Leave a Comment

密集机器学习训练营,提升技能发展

机器学习正在颠覆各个行业,推动创新为了发挥这种变革性技术的力量,专业人士需要获得深入的机器学习知识和实践技能本文探讨了参加密集机器学习训练营的教育方面、行业趋势和好处为什么选择密集机器学习…提升技能的密集机器学习训练营 阅读更多 »

Leave a Comment

70%的开发者今天拥抱人工智能:深入研究大型语言模型、LangChain和向量数据库在当前技术领域的崛起

人工智能具有无限的可能性,这在其引入每个人的新产品和发展中显而易见。随着OpenAI开发的最新聊天机器人ChatGPT的发布,由于其GPT的变压器架构,AI领域已经席卷全球。从深度学习、自然语言处理(NLP)和自然语言理解(NLU)到计算机视觉,AI正将每个人推向一个拥有无尽创新的未来。几乎每个行业都在利用AI的潜力并进行革命性的改变。特别是在大规模语言模型(LLMs),LangChain和向量数据库等领域的卓越技术进步,是这一显著发展的原因。 大规模语言模型 大规模语言模型(LLMs)的发展代表了人工智能的一大步进。这些基于深度学习的模型在处理和理解自然语言时表现出令人印象深刻的准确性和流畅性。LLMs通过从各种来源(包括书籍、期刊、网页和其他文本资源)获取大量文本数据进行训练。它们通过学习语言来获取语言结构、模式和语义链接,从而帮助它们理解人类交流的复杂性。 LLMs的基本架构通常涉及具有多层的深度神经网络。根据训练数据中发现的模式和连接,该网络分析输入文本并生成预测。为了减少模型预期输出和预期输出之间的差异,模型的参数在训练阶段进行调整。LLM在训练过程中消耗文本数据,并试图根据上下文预测下一个单词或一系列单词。 LLMs的应用 回答问题:LLMs擅长回答问题,并通过搜索大量的文本语料库(如书籍、论文或网站)来提供精确而简洁的回答。 内容生成:LLMs在涉及内容生成的活动中证明了其有用性。它们能够生成语法正确、连贯的文章、博客条目和其他书面内容。 文本摘要:LLMs在文本摘要方面表现出色,能够在将冗长的文本压缩为更短、更易消化的摘要时保留重要信息。 聊天机器人:LLMs经常被用于创建聊天机器人和使用对话式AI的系统。它们使得这些系统能够用正常语言与用户进行交互,理解他们的问题并适当地回答,并在整个交互过程中保持上下文。 语言翻译:LLMs能够准确地在不同语言之间进行文本翻译,克服语言障碍,促进成功的交流。 训练LLMs的步骤 训练LLMs的初始阶段是编制一个庞大的文本数据集,模型将使用该数据集来发现语言模式和结构。 一旦收集到数据集,就需要进行预处理,以便为训练做准备。为此,必须通过删除任何不必要或冗余的条目来清理数据。 选择适当的模型架构对于训练LLMs至关重要。基于变压器的架构已经显示出在处理和生成自然语言方面非常高效,包括GPT模型。 使用反向传播等深度学习方法调整模型的参数来训练LLMs,并提高其准确性。模型在训练过程中处理输入数据并基于识别出的模式生成预测。 在初始训练之后,LLMs将进一步在特定任务或领域上进行微调,以提高其在这些领域的性能。 为了评估经过训练的LLMs的性能,使用多种指标(包括困惑度和准确性)来评估模型的性能。 经过训练和评估后,LLMs将在实际应用中的生产环境中使用于实际应用。 一些著名的语言模型 GPT(Generative Pre-trained Transformer)是OpenAI的GPT模型系列的重要成员,也是知名的ChatGPT的底层模型。它是一个仅解码器的单向自回归模型,通过根据先前生成的单词预测下一个单词来生成文本。GPT拥有1750亿个参数,广泛用于内容生成、问题回答等方面。 BERT – 双向Transformer编码器表示(BERT)是最早的基于Transformer的自监督语言模型之一。它是一个强大的模型,用于理解和处理自然语言,具有3.4亿个参数。…

Leave a Comment

Can't find what you're looking for? Try refining your search: