Press "Enter" to skip to content

10 search results for "这个空间"

快速嵌入:一款快速且轻量级的文本嵌入生成的Python库

词语和短语可以通过嵌入来在高维空间中有效地表示,这使得它们成为自然语言处理(NLP)领域中的一种关键工具。机器翻译、文本分类和问答只是一些可以从这种表示能力中受益的众多应用之一,因为它可以捕捉单词之间的语义连接。 然而,处理大型数据集时,生成嵌入所需的计算需求可能令人望而生畏。这主要是因为构建一个大型共现矩阵是传统嵌入方法如Word2Vec和GloVe的先决条件。对于非常大的文档或词汇规模,这个矩阵可能会变得无法处理。 为了解决嵌入生成速度慢的挑战,Python社区开发了FastEmbed。FastEmbed旨在实现速度快、资源使用最小化和精度。这是通过其前沿的嵌入生成方法实现的,该方法消除了共现矩阵的需求。 FastEmbed不仅仅是将词汇映射到高维空间中,它还采用了一种随机投影的技术。通过利用随机投影的降维方法,可以在保留其基本特征的同时,减少数据集的维数。 FastEmbed将词汇随机投影到一个空间中,这个空间中的词汇很可能与具有类似意义的其他词汇靠近。这个过程是通过随机投影矩阵来实现的,该矩阵旨在保留词汇的含义。 一旦词汇被映射到高维空间中,FastEmbed通过一个简单的线性变换来学习每个词汇的嵌入。这个线性变换是通过最小化损失函数来学习的,这个损失函数旨在捕捉词汇之间的语义连接。 已经证明,FastEmbed比标准嵌入方法快得多,同时保持了很高的准确性。FastEmbed还可以用于为大规模数据集创建嵌入,同时保持相对轻量级。 FastEmbed的优势 速度:与其他流行的嵌入方法如Word2Vec和GloVe相比,FastEmbed提供了显著的速度提升。 FastEmbed是一个在大型数据库中生成嵌入的紧凑而强大的库。 FastEmbed与其他嵌入方法一样准确,甚至更准确。 FastEmbed的应用 机器翻译 文本分类 回答问题和摘要文件 信息检索和摘要 FastEmbed是一个高效、轻量级和精确的生成文本嵌入的工具包。如果你需要为大规模数据集创建嵌入,FastEmbed是一个不可或缺的工具。

Leave a Comment

使用Amazon SageMaker上的多模型模型构建一个图像到文本生成AI应用程序

在本篇文章中,我们将提供流行的多模态模型概述我们还将演示如何在Amazon SageMaker上部署这些预训练模型此外,我们还将讨论这些模型的各种应用,特别侧重于一些现实场景,如电子商务中的零样本标签和属性生成,以及从图像中自动生成提示语

Leave a Comment

🧨 使用云TPU v5e和JAX加速稳定的XL推理扩散

生成AI模型,例如Stable Diffusion XL(SDXL),可以创建具有广泛应用的高质量、逼真的内容。然而,利用这种模型的威力面临着重大的挑战和计算成本。SDXL是一个大型图像生成模型,其UNet组件比模型的先前版本的大约三倍。将这样的模型部署到生产环境中具有挑战性,因为它增加了内存需求,并增加了推理时间。今天,我们非常高兴地宣布,Hugging Face Diffusers现在支持使用JAX在Cloud TPUs上提供SDXL,实现高性能和高效的推理。 Google Cloud TPUs是定制的AI加速器,经过优化,用于训练和推理大型AI模型,包括最先进的语言模型和生成AI模型,例如SDXL。新的Cloud TPU v5e专为大规模AI训练和推理提供所需的成本效益和性能。TPU v5e的成本不到TPU v4的一半,使更多组织能够训练和部署AI模型成为可能。 🧨 Diffusers JAX集成提供了一种方便的方式,通过XLA在TPU上运行SDXL,我们构建了一个演示来展示它。您可以在这个空间或下面的嵌入式平台上尝试它。 在底层,这个演示在几个TPU v5e-4实例上运行(每个实例有4个TPU芯片),利用并行化在大约4秒内提供四个1024×1024大小的大图像。这个时间包括格式转换、通讯时间和前端处理;实际生成时间约为2.3秒,我们后面会看到的! 在这篇博文中, 我们描述了为什么JAX + TPU + Diffusers是运行SDXL的强大框架 解释了如何使用Diffusers和JAX编写一个简单的图像生成流水线…

Leave a Comment

“遇见P+:文本到图像生成中的扩展文本逆转的丰富嵌入空间”

文本到图像合成是指从文本提示描述中生成逼真图像的过程。这项技术是人工智能领域中生成模型的一个分支,并在近年来越来越受到关注。 文本到图像生成旨在使神经网络能够解释和翻译人类语言为视觉表达,从而实现各种合成组合。此外,除非另有教导,生成网络会为相同的文本描述生成多个不同的图片。这对于收集新的想法或呈现我们心中准确的视觉是非常有用的,而在互联网上找不到。 这项技术在虚拟现实、增强现实、数字营销和娱乐等各个领域都具有潜在的应用。 在最常用的文本到图像生成网络中,我们可以找到扩散模型。 文本到图像扩散模型通过迭代地改进以文本输入为条件的噪声分布来生成图像。他们将给定的文本描述编码为潜在向量,该向量影响噪声分布,并通过扩散过程迭代地改进噪声分布。这个过程产生了与输入文本匹配的高分辨率和多样化的图像,通过捕捉和融合输入文本的视觉特征的U-net架构实现。 这些模型中的条件空间被称为P空间,由语言模型的标记嵌入空间定义。基本上,P代表文本条件空间,在合成过程中,已经通过文本编码器传递给U-net的输入实例“p”被注入到所有注意层中。 下面是去噪扩散模型的文本条件机制概述。 通过这个过程,由于只有一个实例“p”被馈送到U-net架构中,对编码文本的获得的分离和控制是有限的。 因此,作者引入了一个被称为P+的新的文本条件空间。 这个空间由多个文本条件组成,每个条件被注入到U-net的不同层中。这样,P+可以保证更高的表达能力和分离性,提供对合成图像的更好控制。正如作者所描述的,U-net的不同层对合成图像的属性具有不同程度的控制。特别是,粗糙层主要影响图像的结构,而细层主要影响图像的外观。 在介绍了P+空间之后,作者引入了一个相关的过程,称为扩展文本倒置(XTI)。它是经典文本倒置(TI)的重新审视版本,TI的过程是模型学习将几个输入图像中描述的特定概念表示为专用标记。在XTI中,目标是将输入图像反转为一组标记嵌入,每个层一个标记嵌入,即反转为P+。 为了清楚地说明两者之间的区别,想象一下将“绿色蜥蜴”的图片输入到一个两层的U-net中。TI的目标是获得输出“绿色蜥蜴”,而XTI需要输出两个不同的实例,在这种情况下是“绿色”和“蜥蜴”。 作者在他们的工作中证明了P+中扩展倒置过程不仅比TI更具表达能力和精确性,而且速度更快。 此外,增加P+上的分离性能够通过文本到图像生成进行混合,例如对象样式的混合。 下面是来自上述工作的一个示例。 这就是P+的概述,一个用于扩展文本倒置的丰富的文本条件空间。

Leave a Comment

使用Substra创建隐私保护人工智能

随着生成技术的迅猛发展,机器学习正处于其历史上非常令人兴奋的阶段。推动这一发展的模型需要更多的数据来产生有影响力的结果,因此,探索新的方法以在确保数据隐私和安全的前提下合规地收集数据变得越来越重要。 在许多涉及敏感信息领域,例如医疗保健,往往没有足够高质量的数据可用于训练这些需要大量数据的模型。数据集被隔离在不同的学术中心和医疗机构中,并且由于涉及患者和专有信息的隐私问题,很难公开共享。保护患者数据的法规,如HIPAA,对于保护个人的私密健康信息至关重要,但它们可能限制机器学习研究的进展,因为数据科学家无法获取有效训练模型所需的大量数据。能够与现有法规一起工作,积极保护患者数据的技术将对解决这些隔离问题、加速机器学习研究和在这些领域部署的速度至关重要。 这就是联邦学习的用武之地。查看我们与Substra合作创建的空间,以了解更多信息! 什么是联邦学习? 联邦学习(FL)是一种分散式机器学习技术,允许您使用多个数据提供者训练模型。数据不需要从所有来源收集到单个服务器上,而是可以保留在本地服务器上,只有最终模型的权重在服务器之间传输。 由于数据从不离开其来源,联邦学习自然是一种以隐私为先的方法。这种技术不仅改善了数据安全和隐私,还使数据科学家能够使用来自不同来源的数据构建更好的模型,增加了模型的鲁棒性,并提供了更好的表示,与仅使用单一来源数据训练的模型相比。这不仅因为数据数量的增加,还因为减少了由数据采集技术和设备引起的数据捕获技术和设备引起的微小差异,或患者群体的人口统计学分布差异等造成的偏差风险。有了多个数据源,我们可以构建更具一般化能力的模型,最终在真实世界环境中表现更好。有关联邦学习的更多信息,我们建议查看谷歌的这本解释漫画。 Substra是一个专为真实生产环境而构建的开源联邦学习框架。虽然联邦学习是一个相对较新的领域,并且在过去的十年中才开始发展,但它已经使机器学习研究能够以前所未有的方式取得进展。例如,10家竞争的生物制药公司传统上从不与对方共享数据,但是他们在MELLODDY项目中建立了合作关系,共享了世界上最大的已知生化或细胞活性的小分子集合。这最终使所有参与公司能够为药物研究建立更准确的预测模型,这是医学研究的一个重大里程碑。 Substra x HF 联邦学习能力的研究正在迅速增长,但大部分最近的工作仍然局限于模拟环境。由于部署和构建联邦网络的困难,真实世界的实例和实施仍然有限。作为领先的开源联邦学习平台,Substra在许多复杂的安全环境和IT基础设施中经过了实战测试,并在乳腺癌研究中取得了医学突破。 Hugging Face与管理Substra的团队合作创建了这个空间,目的是让您了解研究人员和科学家面临的现实挑战,主要是缺乏集中的高质量数据,这些数据对AI‘准备好’。由于您可以控制这些样本的分发,您将能够看到一个简单模型对数据变化的反应。然后,您可以观察使用联邦学习训练的模型与使用单一来源数据训练的模型相比,几乎总是在验证数据上表现更好。 结论 尽管联邦学习一直领先于其他各种增强隐私的技术(PETs),如安全飞地和多方计算,但这些技术仍然可以与联邦学习相结合,创建多层次的隐私保护环境。如果您对这些技术如何在医学中促进合作感兴趣,可以在这里了解更多信息。 无论使用何种方法,重要的是要警惕数据隐私是我们所有人的权利。在这个人工智能的繁荣中,保护隐私和伦理至关重要。 如果你想在项目中尝试Substra并实现联邦学习,你可以在这里查看文档。

Leave a Comment

你在装修过程中被收过哪些智商税?

作者 / 设计师石空 在装修中被收了“智商税”不是因为你智商低,只是商家利用信息差蒙蔽了你,你要做的不是懊恼自己笨,而是要掌握足够多的信息,比如仔细阅读我这个回答。 先说一个很荒谬的智商税——除甲醛 1、光触媒除甲醛 这是我在某宝上搜索除甲醛后跳出来的“除甲醛神器”首页上明明白白的写着“光触媒”“母婴级安全,快速强力除甲醛”还是网红推荐的,乍一看我都被唬住了,心想难道是什么新出的高科技吗?结果一看详情页介绍的原理,给爷整笑了。 总结来说,这个产品主要是蜂蜡 + 活性炭 + 二氧化钛(光触媒)构成,我们一样样来说。 首先是蜂蜡,按照“除甲醛神器”的说法,蜂蜡有促进挥发了作用,这点我是第一次听说,于是百度了一下,结果如下。 如果百度百科没错的话,蜂蜡的功效和化学成分跟促进挥发有半毛钱关系吗? 再来看活性炭,活性炭确实有吸附甲醛的功效,但是,它只能吸附小范围的游离甲醛,想要达到立竿见影的效果,得堆满半个屋子才行!而且活性炭很特殊,吸满了甲醛会再释放出来造成二次污染,也就是说用活性炭吸附甲醛,要定期更换才行。 按照这个“除甲醛神器”的说法,他们在活性炭的颗粒孔径中加入了光触媒,可以反复分解活性炭吸附的甲醛,emmm,行吧,咱们就当它是真的加进去了吧,我们来说说光触媒。 光触媒应该是上面所有材料里成本最高的,它的的确确有分解甲醛的效果,这个毋容置疑。但条件是必须在超强的紫外线照射下才行!简单点说就是说要嘛在暴晒的大太阳底下,要嘛用下图这种公众场合用的汞灯(或者一溜紫外线灯)直射,光触媒才能达到分解甲醛的效果!这也是为什么光触媒的发源地日本只把它用于室外的原因(而且人家的主要目的还不是除甲醛) 这个“除甲醛神器”看评论主要应用场景是室内,而且按图所示光触媒的量也只有薄薄的一层,量少还没有紫外线直射的条件,谈何除甲醛?还除整屋子的甲醛?这不是智商税是什么?还有比它更明显的智商税吗? 2、所谓的除甲醛公司。 这类公司很多,收费也没有标准,但起码都在几千到上万元不等。不能说人家没效果,毕竟刚除完家里的甲醛含量确实会降到标准值,但是,一周再测保证又会涨回去。因为他们至多只能解决游离在空气中的甲醛啊朋友们!他们解决不了地板里、柜子里、窗帘里的甲醛,要知道甲醛的最大特性就是会持续性挥发,要解决空气中的游离甲醛,找他们还不如买两把大风扇对着地面吹,说不定效果还更好! 3、空气净化器除甲醛 十个卖空气净化器的十个都说自己能除甲醛,对此我只能呵呵。 看这个介绍大家也能明白了,无外乎就是活性炭过滤光触媒分解那一套说法,这点前面解释了,屁用没有。而且空气净化器工作原理是在室内循环,吸进去的是甲醛,吐出来的还是甲醛,效果连风扇都不如。 4、硅藻泥除甲醛 硅藻泥和活性炭一样,都是因为材质本身的分子结构可以吸附甲醛,但它吸饱了以后一样会吐出来。先不谈吸附效果,硅藻泥可是刷墙上会用十来年的,也就说它会在你家里像小鲤鱼吐泡泡一样,把甲醛吸进去,吐出来,吸进去,吐出来……

Leave a Comment

Can't find what you're looking for? Try refining your search: