Press "Enter" to skip to content

四海吧 Posts

Swiggy在集成生成式人工智能方面效仿Zomato和Blinkit

Swiggy,这个著名的食品配送平台,采用生成式人工智能技术,改变了我们发现食物和杂货的方式。Swiggy追随主要行业参与者如Zomato,Blinkit和Instacart的脚步,旨在将最新的人工智能技术引入其平台。通过为其餐厅合作伙伴和配送生态系统开发人工智能解决方案,Swiggy正在提升用户体验,降低运营成本,并改革食品技术行业。 还阅读:Zomato启动突破性的人工智能 释放神经搜索能力 Swiggy的神经搜索能力源于一个专门适应的大型语言模型(LLM),该模型深入研究与菜肴、食谱、餐厅和Swiggy独特搜索数据相关的特定语言。通过其食品目录中的5000万种物品,这一创新功能确保对与食品相关的查询进行实时和精确的响应。 AI驱动的对话:个性化食品推荐 实施AI驱动的神经搜索允许用户进行开放性和自然的查询,就像与朋友聊天一样。通过输入命令如“显示附近的素食菜肴”或“显示健康饮料选择”,用户可以获得个性化和相关的搜索结果,使食品发现体验愉悦。 还阅读:Instacart通过AI驱动的搜索改变购物:Meet Ask Instacart 理解食品分类:Swiggy AI的天才之处 与其他AI驱动的工具不同,Swiggy的神经搜索真正理解食品分类的复杂细微差别。例如,即使一道菜没有标记为适合糖尿病患者,AI也能识别其相关性并向用户呈现所需的选择。告别特定关键词,让Swiggy的AI为您完成工作! Swiggy Instamart – 超越食品发现 AI的魔力不仅限于食品!Swiggy准备将神经搜索整合到Swiggy Instamart中,为发现杂货和家庭用品提供更具对话和直观的方式。准备好通过AI的力量享受无缝高效的购物体验吧。 还阅读:Google的AI时尚达人:虚拟试衣服 Swiggy Dineout-您的个人用餐指南 Swiggy Dineout将用餐探索提升到一个全新的水平!结识虚拟礼宾员,这是由AI提供支持的对话机器人,为用户指导与其偏好相符的餐厅。从环境和适合儿童的程度到代客停车和评级,Swiggy Dineout确保根据您的口味提供定制的用餐体验。 赋予餐厅和配送伙伴以人工智能的力量…

Leave a Comment

CMU研究人员提出了GILL:一种将LLM与图像编码器和解码器模型融合的AI方法

随着OpenAI发布的全新GPT 4的问世,大型语言模型中引入了多模态。与之前的版本GPT 3.5不同,该版本不仅可以接受文本输入,还可以接受图像输入。最近,来自卡内基梅隆大学的研究团队提出了一种称为Generating Images with Large Language Models (GILL)的方法,该方法专注于扩展多模态语言模型以生成一些独特的图像。 GILL方法使得可以处理混合了图像和文本的输入,并生成文本、检索图像和创建新图像。尽管模型使用了不同的文本编码器,GILL通过将仅包含文本的冻结语言模型的输出嵌入空间转移到冻结的图像生成模型的嵌入空间来实现这一点。与需要交错图像-文本数据的其他方法不同,该映射是通过利用图像标题的配对来微调少量参数来完成的。 研究团队提到,该方法将已经训练好的用于冻结文本的大型语言模型与图像编码和解码模型相结合。它可以提供各种多模态功能,例如图像检索、独特图像生成和多模态对话。这是通过将模态的嵌入空间进行映射以进行融合来实现的。GILL可以处理混合图像和文本输入的条件,并生成既连贯又可读的输出。 该方法提供了一个有效的映射网络,将LLM与文本到图像生成模型相关联,以在图片生成方面获得出色的性能。该映射网络将隐藏的文本表示转换为视觉模型的嵌入空间。通过这样做,它利用了LLM强大的文本表示能力来生成具有美学一致性的输出。 通过这种方法,模型不仅可以从指定数据集中检索图像,还可以创建新的图像。模型在推理时选择是生成还是获取图像。该选择是基于LLM的隐藏表示条件的学习决策模块进行的。这种方法在计算上非常高效,因为它在训练时无需运行图像生成模型。 与基准生成模型相比,该方法在需要更长、更复杂的语言的任务中表现更好。相比之下,GILL在处理较长的文本(包括对话和篇章)方面优于稳定扩散方法。GILL在对话条件下的图像生成方面比非LLM基础的生成模型表现更好,从多模态上下文中受益,并生成更符合给定文本的图像。与仅处理文本输入的传统文本到图像模型不同,GILL还可以处理任意交错的图像-文本输入。 总之,Generating Images with Large Language Models (GILL)似乎比以前的多模态语言模型具有更广泛的能力。它在衡量上下文依赖性的各种文本到图像任务中优于非LLM基础的生成模型,使其成为多模态任务的强大解决方案。

Leave a Comment

“认识MultiDiffusion:一种统一的人工智能框架,利用预训练的文本到图像扩散模型实现多功能和可控的图像生成”

虽然扩散模型现在被认为是最先进的文本到图像生成模型,但它们已经成为一种“颠覆性技术”,具有以前从未听说过的能力,可以从文本提示中创建高质量、多样化的图片。尽管这一进展在改变用户如何创建数字内容方面具有重大潜力,但给用户对所创建材料的直观控制能力仍然是一个挑战。 目前,有两种调整扩散模型的技术:(i) 从头开始训练一个模型,或者(ii) 对现有的扩散模型进行微调以适应当前任务。即使在微调的情况下,由于模型和训练数据的不断增加,这种策略通常需要大量的计算和漫长的开发周期。而(ii) 重用已经训练过的模型,并增加一些受控的生成能力。一些技术先前专注于特定任务并创建了一种专门的方法。本研究旨在生成MultiDiffusion,这是一个新的、统一的框架,极大地提高了预先训练的(参考)扩散模型对受控图像生成的适应性。 图1:MultiDiffusion使得灵活的文本到图像生成成为可能,它统一了对所创建内容的许多控制,如所需的长宽比或基于粗略区域的文本提示。 MultiDiffusion的基本目标是设计一个新的生成过程,其中包含多个参考扩散生成过程,这些过程通过一组共同的特征或约束连接起来。生成结果的各个区域都经过参考扩散模型,该模型更具体地为每个区域预测去噪采样步骤。然后,MultiDiffusion执行全局去噪采样步骤,使用最小二乘最佳解来协调所有这些单独的阶段。例如,考虑使用在方形图像上训练的参考扩散模型创建具有任何长宽比的图片的挑战(见下图2)。 图2:MultiDiffusion:在预先训练的参考模型Φ上定义了一个新的生成过程Ψ。从噪声图像JT开始,每个生成步骤都会解决一个优化任务,其目标是每个裁剪Fi(Jt)尽可能接近其去噪版本Φ(Fi(Jt))。请注意,虽然每个去噪步骤Φ(Fi(Jt))可能朝着不同的方向拉动,但它们的过程将这些不一致的方向融合成一个全局去噪步骤Φ(Jt),从而产生高质量的无缝图像。 MultiDiffusion将参考模型在去噪过程的每个阶段提供的方形裁剪的去噪方向合并在一起。它尽可能地跟随它们,尽管受到共享像素的相邻裁剪的限制。尽管每个裁剪可能会在去噪时拉动到不同的方向,但应注意的是,他们的框架会产生一个单一的去噪阶段,从而产生高质量且无缝的图片。我们应该要求每个裁剪都代表参考模型的真实样本。 使用MultiDiffusion,他们可以将预先训练的参考文本到图像模型应用于各种任务,例如生成具有特定分辨率或长宽比的图片,或者从不可读的基于区域的文本提示生成图像,如图1所示。值得注意的是,他们的架构通过利用共享的开发过程同时解决了这两个任务。通过将其与相关基准进行比较,他们发现他们的方法在控制生成质量方面甚至可以达到最先进的水平,而无需增加计算负担。完整的代码库将很快在他们的Github页面上发布。您也可以在他们的项目页面上查看更多演示。

Leave a Comment

谷歌AI推出SimPer:一种自我监督对比学习周期信息的框架

近年来,周期性数据的识别和理解已经成为各种实际应用的重要组成部分,从监测天气模式到检测医疗环境中的关键生命体征。周期性学习在环境遥感等领域中已经证明是不可或缺的,可以准确预测天气变化和地表温度波动。同样,在医疗领域中,基于视频测量的周期性学习已经显示出在识别关键医疗状况(如心房颤动和睡眠呼吸暂停)方面取得了有希望的结果。 为了利用周期性学习的威力,研究人员开发了一些监督方法,如RepNet,可以识别单个视频中的重复活动。然而,这些方法需要大量的标记数据,通常资源密集且具有挑战性。这种限制促使研究人员探索自监督学习(SSL)方法,如SimCLR和MoCo v2,利用大量的无标签数据来捕捉周期性或准周期性的时间动力学。尽管它们在解决分类任务方面取得了成功,但是SSL方法在全面理解数据中固有的周期性和创建适用于周期性或频率属性的鲁棒表示方面存在困难。 为了应对这些挑战,谷歌研究人员引入了SimPer,这是一个专门设计用于学习数据中周期性信息的新颖自监督对比框架。该框架通过时间自对比学习利用周期性目标的时间属性,其中正样本和负样本来自相同输入实例的周期性不变和周期性变化的扩充。 为了在周期性学习的背景下明确定义相似度的测量,SimPer提出了一种独特的周期性特征相似性构建方法。该公式使模型能够在没有任何标记数据的情况下进行训练,并允许微调以将学到的特征映射到特定的频率值。研究人员为无标签输入设计了伪速度或频率标签,即使原始频率未知,也使SimPer在实际应用中具有很高的适应性。 传统的相似度度量(如余弦相似度)强调特征向量之间的严格接近性,导致对于具有索引位移、反转特征和频率变化的特征敏感。然而,周期性特征相似性侧重于对于具有轻微时间位移或反向索引的样本保持高相似度,同时在特征频率变化时捕捉连续的相似度变化。这通过频域中的相似度度量实现,比如两个傅里叶变换之间的距离。 为了进一步提高框架的性能,研究人员设计了一个广义对比损失,将经典的InfoNCE损失扩展为软回归变体。这使得SimPer适用于连续标签(频率)上的对比,并使其适用于回归任务,其中目标是恢复连续信号,如心跳。 SimPer的评估结果显示,在六个不同的周期性学习数据集上,它相比包括SimCLR、MoCo v2、BYOL和CVRL在内的最先进的SSL方案表现出更高的性能。这些数据集涵盖了人类行为分析、环境遥感和医疗等各种实际任务。SimPer胜过现有方法,并展现出出色的数据效率、对假相关性的鲁棒性以及对未见目标的泛化能力。 凭借对周期信号学习强大特征表示的直观灵活方法,SimPer在从环境遥感到医疗等多个领域具有广泛的应用前景。SimPer能够在没有大量标记数据的情况下准确捕捉周期模式,使其成为解决各种领域复杂挑战的理想解决方案。 总之,SimPer的自监督对比框架为周期性学习这一关键任务提供了突破性的解决方案。通过利用时间自对比学习和引入新颖的周期特征相似性和广义对比损失,SimPer为实际应用中更高效、准确和鲁棒的周期性学习应用铺平了道路。随着SimPer代码库向研究社区的提供,我们期待进一步的进展和在各个领域中更广泛的应用。

Leave a Comment

微软研究员提出NUWA-XL:一种用于极长视频生成的新型扩散过扩散架构

生成模型领域近年来对视觉合成产生了浓厚的兴趣。之前的工作已经可以实现高质量的图像生成。然而,与照片相比,视频的持续时间在实际应用中面临更大的困难。一部特技电影的平均播放时间超过90分钟,一部动画片的平均长度为30分钟。TikTok或其他类似应用上的视频理想长度为21至34秒。 微软的研究团队开发了一种创新的架构用于制作长视频。现有的大多数工作是按照片段的顺序逐个生成长电影,这通常导致在短片训练和推断大视频之间存在差距。顺序生成可能更加高效。这种新颖的方法采用了一种由粗到细的过程,在相同的粒度上同时生成视频;首先应用全局扩散模型生成范围广泛的关键帧,然后使用局部扩散模型迭代地填充相邻帧之间的内容。通过直接在长电影上进行训练,可以缩小训练和推断之间的差距,并且可以使用这种简单但成功的方法同时生成所有部分。 最重要的贡献如下: 研究团队提出了“扩散过扩散”架构NUWA-XL,将长视频的创建视为一种革命性的“由粗到细”的过程。 NUWA-XL是第一个直接训练在长电影(3376帧)上的模型,弥合了生成这种视频的训练和推断之间的差距。 NUWA-XL实现了并行推断,大大缩短了生成长视频所需的时间。在生成1024帧的情况下,NUWA-XL将推断加速了94.26%。 为了确保模型的有效性并为扩展视频创作提供标准,FlintstonesHD的研究团队创建了一个名为FlintstonesHD的新数据集。 方法 时间KLVAE(T-KLVAE) KLVAE将输入图像转换为低维潜在表示,在应用扩散过程之前,以避免直接在像素上训练和采样扩散模型的计算负担。研究人员通过增加原始空间模块与外部时间卷积和注意力层来提出时间KLVAE(T-KLVAE),以将预训练的图像KLVAE的表面知识转移到视频中。 时间掩蔽扩散(MTD) 作为提出的扩散过扩散架构的基础扩散模型,研究人员提出了时间掩蔽扩散(MTD)。虽然电影的“粗糙”故事情节仅由L个提示组成,用于全局扩散,但开头和最后的帧也被用作局部扩散的输入。建议的MTD兼容全局和局部扩散,并且可以接受具有或不具有开头和最后帧的输入条件。接下来,他们在使用UpBlock来说明各种输入条件融合之前,完整地阐述了MTD的流程。 尽管提出的NUWA-XL提高了扩展视频创建的质量并加快了推断速度,但仍存在一些限制:首先,研究人员只验证了NUWA-XL在公开可用的Flintstones卡通上的有效性,因为尚不清楚开放域长视频(如电影和电视剧集)。他们希望通过在创建开放域长视频数据集的初步成功后,最终将NUWA-XL扩展到开放域。其次,通过在长电影上进行直接训练,可以缩小训练和推断之间的差距,但这对于数据来说是一个巨大的障碍。最后,尽管NUWA-XL可以加速推断,但这种改进需要强大的图形处理单元(GPU)来实现并行推断。 研究人员提出了NUWA-XL,一种“扩散过扩散”架构,将创建长视频视为一种非传统的“由粗到细”的过程。NUWA-XL是第一个直接训练在长电影(3376帧)上的模型,弥合了长视频制作中的训练和推断之间的差距。NUWA-XL支持并行推断,可以在生成1024帧的同时将长视频的创建速度加快94.26%。为了进一步验证模型的有效性并为扩展视频创作提供基准,他们构建了一个名为FlintstonesHD的新数据集。

Leave a Comment

生成式人工智能的迷人演进

介绍 在不断扩展的人工智能领域中,一个引人入胜的领域吸引着研究人员、技术人员和爱好者的想象力,那就是生成式人工智能。这些聪明的算法每天都在推动机器人的能力和理解力的极限,引领着一个新的创新和创造的时代。在这篇文章中,我们将踏上一段关于生成式人工智能演化的激动人心的旅程,探索其谦逊的起源、重要的转折点以及影响其发展的开创性进展。 我们将研究生成式人工智能如何革新各个领域,从艺术和音乐到医学和金融,从早期尝试创建简单模式到现在创造令人惊叹的杰作。通过理解生成式人工智能的历史背景和创新,我们可以深入了解它对未来的巨大潜力。让我们一起探索机器如何获得创造、发明和想象的能力,从而永远改变人工智能和人类创造力的领域。 生成式人工智能演化时间线 在不断发展的人工智能领域中,很少有分支像生成式人工智能一样引起如此多的好奇和兴趣。从最早的概念化到近年来取得的令人叹为观止的成就,生成式人工智能的发展之旅堪称非凡。 在本节中,我们将踏上一段迷人的时间之旅,揭示塑造生成式人工智能发展的里程碑。我们深入研究关键突破、研究论文和进展,绘制出其增长和演化的全面图景。 让我们一起踏上历史之旅,见证创新概念的诞生,重要人物的出现,以及生成式人工智能在各个行业的渗透,丰富生活并改变我们对人工智能的认知。 1805年:第一个神经网络/线性回归 1805年,Adrien-Marie Legendre引入了一个具有输入层和单个输出单元的线性神经网络(NN)。该网络将输出计算为加权输入的总和。使用最小二乘法调整权重,类似于现代线性神经网络,为浅层学习和随后的复杂结构奠定了基础。 1925年:第一个RNN架构 20世纪20年代,物理学家Ernst Ising和Wilhelm Lenz引入和分析了第一个非学习的循环神经网络(RNN)架构(Ising模型或Lenz-Ising模型)。它以响应输入条件进入平衡状态,并成为第一个学习型循环神经网络的基础。 1943年:神经网络的引入 1943年,Warren McCulloch和Walter Pitts首次引入了神经网络的概念。它受到生物神经元的工作方式的启发。神经网络是用电路模拟的。 1958年:MLP(无深度学习) 1958年,Frank Rosenblatt引入了具有非学习的第一层和自适应输出层的多层感知机(MLP)。尽管这还不是深度学习,因为只有最后一层是学习的,但Rosenblatt基本上拥有了后来被重新命名为极限学习机(ELMs)的东西,只是没有得到适当的归属。 1965年:第一个深度学习 1965年,Alexey Ivakhnenko和Valentin Lapa引入了第一个成功的深度多层感知机(MLP)的学习算法。…

Leave a Comment

一项新的人工智能研究引入了方向性刺激提示(DSP):一种新的提示框架,以更好地指导LLM生成所需的摘要

自然语言处理(NLP)近年来发生了一次范式转变,引入了大型语言模型(LLMs),在各种NLP任务中表现优于之前相对较小的语言模型(LMs),如GPT-2和T5 Raffel等。提示是使用LLMs执行各种任务的事实上的方法,通过使用上下文中的自然语言指令引导LLMs生成所需的输出,而无需对参数进行更新,与传统的微调范式相反,其中LMs的参数可以针对每个下游任务进行更新。 虽然这种提示模式使得LLMs在零射击或少射击环境中在各种任务上表现出色,但它们在某些特定的下游任务上的表现仍然需要改进,并且需要额外的细化,尤其在训练数据可用的情况下。然而,由于大多数LLMs只提供黑盒推理API并且微调成本高昂,大多数用户和学者无法直接优化这些LLMs。因此,必须解决的一个困难问题是如何有效地提高LLMs在特定下游任务上的性能,有时只有有限的训练实例。来自加利福尼亚大学圣巴巴拉分校和微软的一项新研究提出了使用微小可调整LM(RL)增强冻结的黑盒LLM在下游任务上的架构,称为定向刺激提示(DSP)。 来源:https://arxiv.org/pdf/2302.11520.pdf | 图1:使用通常的提示方法和我们提出的定向刺激提示的摘要任务所使用的时间比较。我们的DSP使用可调整的策略LM生成刺激,该刺激在此示例中是关键词,然后将LLM定向为提供更好的得分或其他指标(以蓝色突出显示)的所需摘要。 更准确地说,对于每个输入文本,一个微小的LM(称为策略LM)学习提供一系列离散的令牌作为指向性刺激,这些刺激可能提供有关输入样本的某些信息或指令,而不是作为工作的通用提示。为了将LLM的生成定向到所需的目标,例如更高的性能度量得分,然后将创建的刺激与原始输入混合并提供给LLM。他们最初使用具有预训练LM的监督微调(SFT),利用少量收集的训练样本。训练的目标是最大化奖励,定义为基于策略LM生成的刺激的LLM生成的下游性能度量得分。经过进一步的优化以探索更好的刺激,经过改进的LM在RL中初始化策略LM。 图1描述了摘要任务的一个示例。为了帮助LLM基于关键词生成所需的摘要,关键词充当刺激(提示)。可以使用ROUGE等评估指标分数对策略LM进行优化,以激励它提供指导LLM生成更好摘要的关键词。虽然LLMs具有出色的生成能力,但它们经常显示出不受欢迎的行为,需要对预期的生成特征和某些下游任务的方向进行细粒度的指导。这是他们提出的方法的基础。微小的策略LM可以作为指向性刺激生成一系列令牌,以向LLM提供样本级的细粒度指导,以实现预期的目标,但不能生成类似人类语言的文本。 与以往通过提示工程/优化来找到最佳提示的研究不同,RL提供了将优化对象(例如生成刺激的小型策略LM)与LLM生成定义的优化目标之间的自然桥梁。他们的方法试图为每个“问题”提供“提示”或“线索”。它还不同于鼓励LLM在解决推理任务时生成中间推理步骤的链式思维提示。他们的方法使用一个小的可调整模型来控制和引导LLM,并针对不仅有一个正确的“答案”的生成任务进行优化。他们在摘要和对话回复生成任务上评估了他们的框架。 创建刺激的小策略LM是一个优化的对象,但LLM的生成确定了优化目标。强化学习为弥合这个差距提供了简单的方法。与以前的研究不同,这次研究尝试通过使用提示工程或优化来澄清“问题”。他们的策略努力为每个“问题”提供“提示”或“线索”。此外,它与思维链提示不同,后者鼓励大脑在完成需要逻辑的任务时自行推理出中间步骤。他们的方法针对需要生成多个有效“响应”的任务,并采用一个简单可调的模型来调节和指导LLM。他们评估了他们的框架,用750M Flan-T5-large作为策略LM和175B Codex作为LLM进行测试。根据测试结果,当Codex依赖于经过调整的T5生成的指示时,其在下游任务上的性能显著提高。摘要应包含的关键词被用作摘要任务的指导刺激。使用从CNN/Daily Mail数据集中提取的2,000个样本训练的T5,Codex的性能已经提高了7.2%。 为了开发用于500个MultiWOZ数据集对话的目标回复背后的预期意义的对话行为,他们训练了策略LM。由于策略LM生成的对话行为,Codex的总分提高了52.5%。它的表现与先前使用完整训练数据(8438个对话)训练的系统一样好或更好。

Leave a Comment

“Enel使用Amazon SageMaker自动化大规模电网资产管理和异常检测”

这是Mario Namtao Shianti Larcher的客座文章,他是Enel的计算机视觉负责人Enel起初是意大利的国家电力实体,如今已发展成为在32个国家拥有7400万用户的跨国公司,也是全球第一家私人网络运营商它还被认为是第一家可再生能源…

Leave a Comment

“如此新鲜:在第一天云端畅玩最新游戏”

本周GFN星期四的派对上有几款新发布的游戏在GeForce NOW上进行流媒体播放。本周有四款新游戏加入云端,包括Xenonauts 2、Viewfinder和Techtonica。 Portal的粉丝们,请保持关注 —— Portal: Prelude RTX mod即将在不久后向GeForce NOW会员进行流媒体播放。 此外,了解会员如何获得即将推出的Guild Wars 2高级奖励。 抓紧时间! 在GeForce NOW图书馆中选择超过1600款游戏,从首次云端亮相的游戏开始。成为首批在云端使用高性能GeForce RTX游戏设备体验Xenonauts 2、Viewfinder和Techtonica,无需担心下载时间或系统配置。 在云端找到新的视角。 在Thunderful Publishing的新单人游戏Viewfinder中尝试不同的视角。玩家可以通过即时相机挑战感知力,重新定义现实并改变周围的世界。在这个扭曲现实的冒险中,通过拍摄照片并将它们放置在场景中,将其变得栩栩如生。 开始工作吧! 那些寻找与众不同的游戏的人可以尝试Fire Hose Games的Techtonica,该游戏设定在一片美丽而神秘的生物发光的地下外星世界中。单人或与伙伴一起建造工厂,收集资源,研究新技术并揭开被遗忘的秘密。…

Leave a Comment

未来最佳AI工具(2023)以确保自己具备未来竞争力

12ft 12ft是一个浏览器插件,允许用户阅读需要付费订阅的文章和访问内容。当它检测到用户遇到付费墙时,会立即将他们重定向到免费的网站版本。12ft是一个简单、不加装饰的软件。安装后,该扩展将在您首次访问一个有付费墙的网站时直接工作。此外,您可以在每个位置单独切换12ft。使用12ft,您可以避免支付每月订阅费,同时仍然可以访问高级内容。这是支持DIY媒体及其创作者的好方法。 PhotoRoom PhotoRoom是一个高级图片编辑器,可以快速、轻松地生成高质量的结果。通过在PhotoRoom中删除背景、添加阴影和调整颜色,您可以为产品、社交媒体等制作令人惊叹的照片。您可以在iOS或Android设备上免费下载PhotoRoom,也可以在线使用它。您可以导出高分辨率的照片,并通过付费订阅计划去除水印等。 Claid.ai Claid.ai是一款AI驱动的照片编辑器,旨在提高用户创建内容(UGC)的处理效率。借助AI的帮助,该程序能够在不降低质量的情况下调整图像大小、调整颜色、提升分辨率、修饰产品照片,并在不需要人为干预的情况下编辑用户生成的内容。通过简单的Claid.ai API集成,用户可以快速轻松地调整设置和修改图像。该软件能够以65%更高的速率转换图像,并提高感知分数26%。此外,它还能提高用户购买欲望10%。那些非常注重美学的客户可以放心,因为Claid.ai已经得到了管理和开发领域的行业领导者的认可。使用这个软件,您不必担心服务器成本或停机时间。对于市场,它是一个很好的选择,因为它简化了供应商入职流程并增加了产品种类。 Bardeen Bardeen是一个高效的自动化程序,可以帮助您节省时间和精力。您可以通过一键操作从任何地方简化流程和管理基于云的软件。有了Bardeen,客户可以访问许多预先制作的playbook,这些playbook旨在使他们保持专注,并提供了一个方便的Builder工具,可以从头开始组装自己独特的流程。此外,客户可以通过Bardeen的AI驱动的自动化功能减少浪费的时间。通过Bardeen与Airtable、Asana、Clearbit、ClickUp、Coda、Dropbox、Github、Google Calendar、Google Docs、Google Drive、Google Mail、Google Meet、Google Sheets、Jira、Notion、OpenAI、Pipedrive、Slack和Telegram等服务的多种集成支持,您可以从任何设备访问和管理您喜欢的web应用程序。 Onesta 使用Onesta,用户可以在专用平台上构建和训练自己的人工智能销售助手。该软件简化了为企业创建和分发定向电子邮件营销活动。系统使用AI创建高度个性化的电子邮件,与潜在客户建立联系,增加参与和转化的可能性。此外,Onesta允许在销售过程中与潜在客户保持持续的沟通。其AI助手会即时回答特定问题,促进顺畅的互动。最终目标是确保获得更多的销售预约并增加收入。Onesta通过数据分析和复杂算法筛选潜在客户,找到最佳匹配,节省时间和金钱。 ChatGPT Writer ChatGPT Writer Chrome扩展程序采用尖端AI技术,可以在您不费吹灰之力的情况下撰写完整的电子邮件和消息。借助Gmail的改进功能,用户可以快速起草与市场上最好的电子邮件和消息竞争的专业质量电子邮件和消息。ChatGPT Writer不包含任何跟踪或广告功能。它适用于Chrome、Brave、Edge和其他基于Chromium的浏览器,并支持所有主要语言。用户安装此插件后,只需点击图标,在所需回复的主题上插入几个关键词,然后点击“生成回复”按钮即可。要输入定制的电子邮件回复,Gmail用户只需点击Gmail文本编辑器中的扩展图标,然后点击“生成回复”按钮。 Butternut AI…

Leave a Comment

使用Gensim逐步指南Word2Vec

介绍 几个月前,当我刚开始在Office People工作时,我对语言模型,尤其是Word2Vec产生了兴趣。作为一个使用Python的本地用户,我自然而然地专注于Gensim的Word2Vec实现,并在网上寻找论文和教程。我直接应用并复制了来自多个来源的代码片段,就像任何一个优秀的数据科学家所做的那样。我进一步深入,试图理解我的方法出了什么问题,阅读了Stackoverflow的讨论、Gensim的Google Groups和该库的文档。 然而,我一直认为创建Word2Vec模型的最重要的方面之一被忽略了。在我的实验过程中,我发现对句子进行词形还原或查找词组/二元组对结果和模型性能有很大的影响。尽管预处理的影响因数据集和应用而异,但我决定在本文中包含数据准备步骤,并与之配合使用绝妙的spaCy库。 其中一些问题让我很烦恼,所以我决定写一篇自己的文章。我不能保证它是完美的或者是实现Word2Vec的最佳方法,但至少比很多其他文章好。 学习目标 了解词嵌入及其在捕捉语义关系中的作用。 使用流行的库如Gensim或TensorFlow实现Word2Vec模型。 使用Word2Vec嵌入度量词语相似度和计算距离。 探索Word2Vec捕捉到的词语类比和语义关系。 在情感分析和机器翻译等各种NLP任务中应用Word2Vec。 学习微调Word2Vec模型以适应特定任务或领域的技巧。 使用子词信息或预训练的嵌入来处理词汇表外的单词。 了解Word2Vec的限制和权衡,如词义消歧和句子级语义。 深入研究诸如子词嵌入和通过Word2Vec进行模型优化等高级主题。 本文作为Data Science Blogathon的一部分发布。 Word2Vec简介 谷歌的一个研究团队在2013年9月和10月之间发表了两篇关于Word2Vec的论文。研究人员还在论文中发布了他们的C实现。Gensim在第一篇论文发表后不久完成了Python实现。 Word2Vec的基本假设是具有相似上下文的两个词具有相似的含义,因此模型中的向量表示也是相似的。例如,”狗”、”小狗”和”幼犬”经常在相似的上下文中使用,周围的词语也相似,比如”好”、”蓬松”或”可爱”,因此根据Word2Vec,它们具有相似的向量表示。 基于这个假设,Word2Vec可以用于发现数据集中词语之间的关系,计算它们的相似性,或者将这些词语的向量表示作为其他应用(如文本分类或聚类)的输入。 Word2Vec的实现 Word2Vec的思想非常简单。我们假设通过其周围的词语可以推断出一个词的含义。这类似于谚语”告诉我你的朋友,我会告诉你是谁”。下面是Word2Vec的一个实现。…

Leave a Comment

遇见TableGPT:一种统一的精细调整框架,使LLMs能够使用外部功能命令理解和操作表格

表格经常被用于表示庞大而复杂的数据世界,并作为各种情境下数据驱动决策的基础,包括财务分析、供应链管理和医疗保健分析。利益相关者可以使用它来分析趋势、模式和关联,从而帮助他们做出明智的商业选择并优化流程和资源。数据科学家长期以来一直在使用复杂的Excel公式或自定义程序处理表格。因此,对于表格数据的更有效理解和解释需求迫切。大型语言模型 (LLM) 或生成预训练转换器 (GPT) 已经在自然语言处理中的语言数据挖掘范式上进行了革命性变革。 与这些研究保持一致,研究人员还探讨了语音和视觉等多种模态的广泛模型。它们生成类似于人类语音的文本的能力为处理表格数据开辟了新的途径。然而,由于两个原因,很难在表格领域使用标准的ChatGPT模型:(一)全局表格理解:众所周知,GPT具有令牌长度限制,使其难以扫描庞大的表格并理解其包含的信息;(二)它们的训练过程是为自然语言设计的,因此在处理表格数据时缺乏普适性。已经有几项工作用于包括自然语言的表格数据分析。 自然语言转SQL (NL2SQL) 是一个成熟的研究领域,它将自然语言转化为控制关系型数据库的SQL指令。为了使用各种电子表格软件功能,SheetCopilot最近研究了控制VBA (Visual Basic for Applications,一种嵌入式脚本语言,用于Microsoft Excel)的语言。然而,他们发现这两种选择都没有令人满意的表现。他们认为这些固有的非结构化计算机代码类型增加了复杂性,几乎不可能进行自动化后处理。浙江大学的研究人员在这项研究中创建了TableGPT,推动了使用LLM方法分析数据时可行性的极限。这是在使数据更易于访问和理解的过程中的重大进展。他们的TableGPT系统将表格、口头指令和普通语言结合为一个统一的GPT模型,提高了数据解释的用户友好性和直观性。 他们通过重新设想表格、口头语言和指令之间的交互方式,将许多关键元素融合到TableGPT中: • 全局表格表示:他们首次尝试创建表格的全局表示的学习范式,将整个表格编码为一个向量。他们使表格编码器能够通过同时对大量文本和表格数据进行LLM和编码器的训练,有效捕捉输入表格的全局信息。因此,由于LLM能够更好地看到和理解表格数据,提供了更全面和改进的对表格的理解。 • 指令链:他们使用这个概念来强调有组织、层次化任务执行的重要性。TableGPT遵循相同的指令顺序,将复杂的任务分解为简单的任务,并逐步执行,就像一个协调良好的组织,其中每个指令从更高级别级联到较低级别的相应指令。此外,它鼓励拒绝不明确或不合适的指令的能力,就像真正的数据科学家一样,而不是盲目地遵循任何可能不正确的指令,从而增强了人与LLM系统在数据科学环境中的交流。他们建议的指令集更易于使用,并减少了使用传统技术处理表格数据时常常出现的歧义。 • 领域感知微调:为了提高模型对特定领域表格数据的理解能力,领域感知微调包括调整训练,使模型生成包含给定领域中的类似风格和逻辑元素的文本。这促进了适应不同领域的表格和相应的文本材料的能力。还创建了一个数据处理流水线,使这种策略变得实用和可扩展。由NL2SQL生成的非结构化代码在实际生产环境中进行预先检查和错误修复带来了重大困难。因此,他们支持使用结构化的指令序列,使后处理更加容易。 Data-Copilot也采用了这种基于指令的方法,但它对本地LLM的依赖,用于直接理解表格数据的处理和分析逻辑,存在一些缺点。他们认为一个成功的解决方案应该专门为表格数据而设计,同时保持对更大规模下游活动的广泛适用性,这是由于表格数据的固有不可预测性和任务特定性。这种信念强调了为表格数据实施特别预训练的LLM的重要性。总之,本研究提出了一个具有开创性的TableGPT框架,这是一个全面、综合和自然语言驱动的解决方案,实现了有效的表格数据处理、分析和可视化。 他们列举了TableGPT的几个重要优点: • 以语言驱动的探索性数据分析(EDA):通过使用简洁的语言,TableGPT分析用户意图,细分所需行动,并在表格上执行外部命令。然后,将处理后的结果以表格和书面解释的形式提供给用户。由于这种创新技术,探索性数据分析(EDA)变得直观,使用户更容易与表格数据进行交互。…

Leave a Comment

大卫·史密斯,TheVentureCity首席数据官 – 访谈系列

大卫·史密斯,也被称为“大卫数据”,是TheVentureCity的首席数据官,该公司是一家在软件驱动型初创企业中进行国际投资并提供运营支持的风险投资平台您能描述一下您在TheVentureCity担任首席数据官的角色以及所涉及的内容吗?我领导一个团队,使用提供的数据评估投资机会

Leave a Comment

LMSYS机构推出Chatbot Arena:一个匿名、随机对战的众包LLM基准测试平台

许多开源项目已经开发了全面的语言模型,可以进行特定任务的训练。这些模型可以对用户的问题和命令提供有用的回答。值得注意的例子包括基于LLaMA的Alpaca和Vicuna,以及基于Pythia的OpenAssistant和Dolly。 尽管每周都有新模型发布,但社区仍然在努力适当地对它们进行基准测试。由于LLM助手的问题通常含糊不清,创建一个可以自动评估其回答质量的基准测试系统是困难的。这里通常需要通过配对比较进行人工评估。基于配对比较的可伸缩、渐进和独特的基准测试系统是理想的。 当前的LLM基准测试系统中很少有满足所有这些要求的系统。像HELM和lm-evaluation-harness这样的经典LLM基准框架提供了研究标准任务的多指标测量。然而,它们并不很好地评估自由形式的问题,因为它们不是基于配对比较的。 LMSYS ORG是一个开发开放、可伸缩和易于访问的大型模型和系统的组织。他们的新工作提出了Chatbot Arena,这是一个众包LLM基准测试平台,具有匿名、随机对战的特点。与国际象棋和其他竞技游戏一样,Chatbot Arena采用了Elo评级系统。Elo评级系统在提供上述理想品质方面显示出潜力。 一周前,他们开放了与许多知名的开源LLM一起的竞技场,开始收集信息。可以在众包数据收集方法中看到LLM的一些真实应用示例。用户可以在竞技场中同时与两个匿名模型聊天,进行比较和对比。  FastChat,这个多模型服务系统,在https://arena.lmsys.org上托管了竞技场。进入竞技场的人将面对与两个无名模型的对话。当用户从两个模型那里接收到评论后,他们可以继续对话或者投票选择自己喜欢的模型。投票结束后,模型的身份将被揭示。用户可以继续与同样的两个匿名模型对话,也可以开始与两个新模型的新战斗。系统记录了所有用户的活动。只有在分析中使用了模型名称的时候,投票才会被隐藏。自一个星期前竞技场上线以来,已经统计了大约7000个合法的匿名投票。 未来,他们希望实现改进的抽样算法、锦标赛流程和服务系统,以适应更多样的模型,并为各种任务提供细粒度的排名。

Leave a Comment