Press "Enter" to skip to content

867 search results for "分类"

支持向量机(SVM)是什么?

支持向量机(SVM)是一种在机器学习领域中使用的监督学习算法。它主要用于执行分类和回归等任务。该算法可以处理各种任务,例如判断电子邮件是否为垃圾邮件、识别手写字体,甚至在图片中检测人脸。它非常适应性强,能处理大量信息和数据中的复杂关系。 SVM的主要任务是根据特征绘制最佳的分隔线(或平面),以区分不同组的事物。就像在数据集中找到不同类别之间的最佳边界一样。因此,无论是对文本、图像还是其他任何东西进行分类,SVM都是机器学习中的首选工具。 SVM的类型 线性支持向量机 当数据可以通过一条直线轻松分为两组时,线性SVM效果最好。想象一下你的数据就像是纸上的点,你可以画一条直线将它们整齐地分成两个不同的类。也就是说,数据应该是完全线性可分的。 非线性支持向量机 当数据无法通过一条直线分类成两组时,我们就会引入非线性SVM。这种情况下,数据不是线性可分的。在这种情况下,非线性SVM可以派上用场。在现实世界中,数据通常杂乱无章,不遵循简单的规律,这时我们就可以使用非线性SVM及其核技巧。 它是如何工作的? 想象一下,你手上有两组事物,比如绿色和蓝色的点,散落在地板上。SVM的任务是找到一条最佳的直线(或者如果你在三维世界中则是一个平面),将这些点分隔成各自的组。 现在,可能有很多条分隔这些点的直线,对吧?但是SVM会寻找一个特殊的直线——与最接近的绿色点到直线的距离和最接近的蓝色点到直线的距离之间有最大距离的直线。这个距离被称为“间隔”,SVM希望使其尽可能大。 那些在定义直线时起着关键作用的最近的点被称为“支持向量”。SVM专注于这些点,以绘制最佳的直线,使两组之间的空间最大化。 但是,如果你的点没有被一条直线整齐地分开呢?如果它们到处都是?这就是SVM可以使用所谓的“核技巧”将问题提升到一个更高维度空间的地方,这样可以绘制出更复杂的分割曲线或曲面。 用例与应用 1. 垃圾邮件过滤:想象一下,你的电子邮箱里有一堆邮件,其中一些是垃圾邮件,一些则不是。支持向量机(SVM)可以用来创建一个智能过滤器,学会区分垃圾邮件和普通邮件。它会查看邮件的各种特征,比如使用的词语,并绘制一条线来将垃圾邮件与非垃圾邮件分开,保持您的邮箱清洁。 2. 手写识别:如果你希望你的计算机识别不同人的手写。SVM可以做到这一点。通过分析手写字母的特征,比如形状和大小,SVM可以绘制线条或曲线来将一个人的手写与另一个人的手写分开,使其在邮政服务等应用中有用于识别数字。 3. 医学诊断:在医学领域,SVM可以帮助诊断疾病。假设你有关于患者的数据,其中一些患有某种疾病,另一些没有。SVM可以分析各种健康指标,并创建一个边界来区分健康患者和患有该疾病的患者。这可以帮助医生进行更准确的诊断。 4. 图像分类:考虑这样一个场景,你有很多图片,其中一些是猫,一些是狗。SVM可以成为一个英雄,创建一个系统,学会根据颜色、形状或图案等特征区分猫和狗。它绘制一条线(或更复杂的边界)来正确分类新的图片。 5. 股票市场预测:如果你对股票市场感兴趣,SVM可以派上用场。通过分析历史股票数据,考虑交易量和价格变动等各种因素,SVM可以创建一个模型来预测股票的涨跌。 参考资料: https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47…

Leave a Comment

约翰霍普金斯大学和圣克鲁兹加利福尼亚大学的研究人员揭示了D-iGPT:图像AI学习方面的突破性进展

自然语言处理(NLP)已经进入了一个转型期,引入了大型语言模型(LLMs),例如GPT系列,为各种语言任务设置了新的性能标准。自回归预训练是这一惊人成就的主要因素之一,这种技术教会模型预测序列中最可能的标记。由于这种基本技术,模型能够吸收语法和语义之间的复杂交互,从而为他们理解语言的能力提供卓越的贡献,就像一个人一样。自回归预训练在NLP之外也在计算机视觉方面起到了重要作用。 在计算机视觉中,自回归预训练起初取得了成功,但随后的发展显示出明显的范式转变,更倾向于BERT风格的预训练。特别值得注意的是,从iGPT的首次结果可以看出,自回归和BERT风格的预训练在各种任务上的表现类似。然而,由于在视觉表示学习方面更加有效,后续的研究更偏向于BERT风格的预训练。例如,MAE表明,可扩展的视觉表示学习方法可能就是简单地预测随机屏蔽像素的值。 在这项研究中,约翰斯·霍普金斯大学和加州大学圣克鲁兹分校的研究团队重新审视了iGPT,并质疑自回归预训练是否能够产生高度熟练的视觉学习者,尤其是在广泛应用时。研究团队在其过程中融入了两个重要的改变。首先,研究团队使用BEiT将照片“分词”为语义标记,考虑到图像本身具有噪声和冗余。这个修改将自回归预测的重点从像素转移到语义标记上,从而更加复杂地理解各个图像区域之间的相互作用。其次,研究团队在生成解码器中添加了一个判别解码器,它自回归地预测下一个语义标记。 对于已看到的像素预测语义标记是这个额外组件的责任。此外,值得注意的是,像CLIP这样以判别方式训练的模型最适合该预训练路径的语义视觉标记。研究团队将这种改进方法称为D-iGPT。通过对各种数据集和任务进行广泛测试,证实了他们所提议的D-iGPT的效能。仅使用ImageNet-1K作为相关数据集,他们的基准模型在可达到86.2%的Top-1分类准确率上超越了之前的最先进技术的0.6%。 此外,他们的大规模模型在3600万个公开可用数据集上实现了89.5%的Top-1分类准确率。D-iGPT在公共数据集上达到了先前最先进的训练水平,尽管使用的训练数据更少,模型尺寸更小。研究团队还在相同的预训练和微调数据集上分析了D-iGPT在语义分割上的表现,发现其优于MAE相等的方法。

Leave a Comment

来自麻省理工学院和FAIR Meta的研究人员发布了RCG(Representation-Conditioned Image Generation):一种在无条件图像生成中开创性的人工智能框架

如何在不依赖人工标注的情况下生成高质量图像? MIT CSAIL和FAIR Meta的这篇论文解决了不依赖人工标注生成高质量图像的挑战。他们提出了一个名为Representation-Conditioned Image Generation(RCG)的新型框架,该框架利用从图像分布经过预训练编码器获得的自监督表示分布。这个框架在无条件生成图像方面取得了优秀的结果,并且在有条件生成图像方面与领先方法一直保持竞争力。 历史上,监督学习主导了计算机视觉,但是像对比学习这样的自监督学习方法缩小了差距。尽管先前的图像生成工作在使用人工标注进行有条件生成方面表现出色,但无条件生成面临挑战。引入的框架RCG通过在没有人工标注的情况下在类有条件和类无条件图像生成方面取得了卓越的成果。 RCG取得了最先进的结果,标志着自监督图像生成的重大进展。 使用自监督教育的Representation Diffusion Model(RDM)可以帮助弥合图像生成中监督学习和无监督学习之间的差距。RCG将RDM与像素生成器集成,从而实现了潜在优势的类无条件图像生成。 RCG框架将图像生成条件化为通过预训练编码器从图像分布获得的自监督表示分布。利用像素生成器对像素进行条件化,RCG通过通过去噪扩散隐式模型进行的表示空间采样来集成RDM的训练。 RCG集成了无需分类器的指导,以改善生成模型的性能,如MAGE所示。像Moco v3这样的预训练图像编码器将表达式规范化为输入到RDM中。 RCG框架在类无条件图像生成方面表现出色,实现了最先进的结果,并在类有条件图像生成方面与领先方法相媲美。在ImageNet 256×256数据集上,RCG达到了3.31的Frechet Inception Distance和253.4的Inception Score,表明生成了高质量的图像。通过对表示进行条件化,RCG显著改善了像ADM,LDM和MAGE等不同像素生成器的类无条件生成,并进一步改善了性能的训练周期。 RCG的自我条件化图像生成方法在各种现代生成模型中具有通用性,始终改善类无条件生成。 RCG框架借助自监督表示分布在类无条件图像生成方面取得了突破性成果。其与多样的生成模型的无缝集成显著改善了它们的类无条件性能,而其不依赖于人工标注的自我条件化方法有望超越有条件方法。RCG的轻量级设计和任务特定的训练适应性使其能够利用大型无标签数据集。 RCG已经被证明是一种非常有效和有前途的高质量图像合成方法。

Leave a Comment

伊利诺大学研究人员推出了Magicoder:一系列针对代码的完全开源大语言模型(LLM)

伊利诺伊大学厄巴纳香槟分校和清华大学的研究团队旨在通过引入Magicoder来解决从开源代码片段生成低偏差、高质量编码挑战的难题。Magicoder在各种编码基准测试中表现优于现有的语言模型,包括Python文本转代码生成、多语言编码和数据科学程序语言模型。 CodeGen、CodeT5、StarCoder和CODELLAMA等知名基础模型已经证明了语言模型在代码生成和理解方面的基本能力。指令微调的提出旨在通过使用指令-响应对来对预训练的语言模型进行微调,SELF-INSTRUCT和Evol-Instruct等方法则用于生成指令微调的合成数据。现有的代码基准测试,如HumanEval、MBPP、APPS和CodeContests,评估语言模型在从自然语言描述中开发单功能程序方面的能力。 Magicoder是一系列完全开源的用于代码的语言模型,使用OSS-INSTRUCT方法在75,000个合成指令数据上进行训练,该方法使用开源代码片段启发语言模型生成高质量的代码指令数据。该方法通过从GitHub获取种子代码片段,促使语言模型生成与种子代码相关的编码问题和解决方案,确保多样性和真实世界的相关性。评估使用HumanEval和MBPP等基准测试,重点关注pass1指标。使用INSTRUCTOR根据嵌入相似性对由OSS-INSTRUCT生成的数据进行分类。为了提高鲁棒性,采用了数据清洗技术,包括净化和提示过滤。 Magicoder以不超过70亿的适度参数量展现了与顶级代码模型竞争性能。使用OSS-INSTRUCT在75,000个合成指令数据上进行训练,Magicoder在Python文本转代码生成、多语言编码和数据科学程序语言建模方面超越了先进的代码模型。增强版MagicoderS进一步改进了代码生成性能,在各种基准测试中超过了类似或更大尺寸的其他模型。 MagicoderS-CL-7B在代码模型中同时实现了前沿结果,展示了强大和优越的代码生成能力。 总之,该研究突出了使用OSS-INSTRUCT的有效性,该方法利用语言模型从开源代码片段中生成编码挑战。经过OSS-INSTRUCT训练的Magicoder在不同的编码基准测试中比其他参数更大的语言模型表现更好。此外,当与Evol-Instruct结合时,它还增强了MagicoderS模型,在HumanEval基准测试中表现出与ChatGPT等领先模型相似的令人印象深刻的性能。该研究建议公开模型权重、训练数据和源代码,以支持未来对于代码的语言模型和扩展OSS-INSTRUCT到更大的基础模型以生成更高质量数据的研究工作。

Leave a Comment

利用实体提取、SQL查询和具有Amazon Bedrock的代理来提升基于RAG的智能文档助手的能力

近年来,由于生成式人工智能(Generative AI)的快速发展,尤其是通过指导微调和强化学习等训练技术引入的大语言模型(LLMs)的性能改善,会话型人工智能(Conversational AI)取得了长足的进步在正确提示的情况下,这些模型可以进行连贯的对话,而无需任何特定任务的训练数据[…]

Leave a Comment

在检索增强生成(RAG)和微调之间,你应该选择什么?

近几个月来,大型语言模型(LLMs)的受欢迎度显著上升。基于自然语言处理、自然语言理解和自然语言生成的优势,这些模型在几乎每个行业中展示了它们的能力。随着生成式人工智能的引入,这些模型已经被训练成可以像人类一样产生文字回应。 通过着名的GPT模型,OpenAI展示了LLMs的强大能力,并为转型发展铺平了道路。通过微调和检索增强生成(RAG)等方法,提高了AI模型的能力,为更精确和上下文丰富的回应提供了答案。 检索增强生成(RAG) RAG将基于检索和生成的模型结合在一起。与传统生成式模型不同,RAG在不改变基础模型的情况下融入有针对性和当前性的数据,使其能够超越现有知识的边界。 RAG的基本思想是基于特定组织或领域数据构建知识库。随着知识库的定期更新,生成式人工智能可以访问当前和上下文相关的数据。这使得模型能够以更精确、复杂和适合组织需求的方式回应用户输入。 大量动态数据被转换为标准格式,并存储在知识库中。然后,使用嵌入式语言模型对数据进行处理,创建数值表示,并保存在向量数据库中。RAG确保AI系统不仅能产生文字,还能使用最新的和相关的数据。 微调 微调是一种通过对经过预训练的模型进行定制以执行指定动作或显示特定行为的方法。它包括采用已经训练过大量数据点的现有模型,并对其进行修改以实现更具体的目标。可以将擅长生成自然语言内容的预训练模型优化为关注制作笑话、诗歌或摘要。通过微调,开发人员可以将庞大模型的整体知识和技能应用于特定的主题或任务。 微调对于提高特定任务的性能尤其有益。通过通过精心选择的数据集提供专业信息,模型在特定任务中变得熟练,能够产生精确和上下文相关的输出。与从头开始的训练相比,微调大大减少了所需的时间和计算资源,因为开发人员可以利用预先存在的信息。该方法使得模型能够通过适应特定领域来更有效地给出集中的答案。 评估微调和RAG时考虑的因素 RAG通过定期从外部源请求最新数据而无需频繁模型重新训练,在动态数据情况下表现异常出色。而微调则缺乏召回的保证,因此不太可靠。 RAG通过从其他来源获取相关数据增强了LLMs的能力,非常适合需要访问外部知识的应用,如文档摘要、开放域问答和能够从知识库检索数据的聊天机器人。而微调外部信息对于经常更改的数据源可能不可行。 RAG阻止了对较小模型的使用。而微调则提高了小型模型的效能,能够实现更快、更便宜的推理。 RAG可能不会根据所获得的信息自动调整语言风格或领域专业化,因为它主要专注于信息检索。通过微调允许调整行为、写作风格或特定领域知识,能够提供与特定风格或专业领域深度匹配的答案。 RAG通常不容易出现错误的信息,它的每个答案都是基于检索到的信息。微调可能会减少错误信息,但当面对新的刺激时,可能仍会造成虚构的反应。 RAG通过将响应生成分为离散阶段,提供了透明度,并提供了检索数据的信息。微调增加了回答背后逻辑的不透明性。 RAG和微调的用例有何不同? LLMs可以用于多种NLP任务的微调,如文本分类、情感分析、文本生成等,其中主要目标是根据输入理解和产生文本。RAG模型在需要访问外部知识的任务情况下表现出色,如文档摘要、开放域问答和能够从知识库检索数据的聊天机器人。 基于训练数据的RAG和Fine-tuning的区别 在对LLM进行Fine-tuning时,虽然它们不专门使用检索方法,但它们依赖于任务特定的训练材料,这些材料通常是与目标任务匹配的标记示例。另一方面,RAG模型被训练用于检索和生成任务。这需要将显示成功检索和使用外部信息的数据与生成的监督数据进行结合。 架构差异 为了对LLM进行Fine-tuning,通常需要使用诸如GPT等预训练模型,并在任务特定数据上对其进行训练。架构不变,只对模型参数进行微小修改,以最大化特定任务的性能。RAG模型具有混合架构,通过将外部存储模块与基于GPT的transformer式LLM相结合,实现了从知识源(如数据库或文档集合)的有效检索。 结论 总之,在人工智能这个不断变化发展的领域中,选择RAG和Fine-tuning之间的方法取决于应用需求。这些方法的组合可能会导致更复杂、更适应性强的AI系统,随着语言模型的不断发展。 参考资料…

Leave a Comment

2024年使用的前5个生成式人工智能框架

介绍 欢迎来到引人入胜的生成式人工智能(Generative AI)框架的领域,这是创新和创造力在数字化领域的交织。生成式人工智能的力量不仅仅是一种技术奇迹。它是一种塑造我们与机器互动和产生内容方式的动态力量。想象一下:只需要一个提示,就能创造故事、图像,甚至整个世界。这不是魔法,而是人工智能的进化。 生成式人工智能不仅仅是一组算法;它是由在线数据的广阔领域驱动的创造力强大动力。想象一下,能够提示人工智能生成文本、图像、视频、声音和复杂的代码。随着GenAI的进一步学习和发展,它在各个行业的应用不断增加。秘密在于训练-复杂的数学和大量的计算能力相结合,教会人工智能预测结果,模仿人类的行为和创造。 进入生成式人工智能世界的旅程涉及解开其工作原理背后的神秘。神经网络如何识别模式以产生新内容?哪些基础模型支持诸如ChatGPT和DALL-E之类的工具?与我们一同探索生成式人工智能的复杂性,探索其用途和功能。介绍这一技术革命前沿的五个框架。这是一段机器给想象力注入生命的旅程,可能性无限,就像他们在数字画布上绘制一样。 提升你的生成式人工智能水平,学习实践。检查我们的 GenAI顶尖计划! 什么是生成式人工智能框架? 生成式人工智能框架是GenAI的支柱,为机器创建多样且与上下文相关的内容提供了基础设施。这些框架作为AI模型(如LLMs、GANs、VAEs)的指导原则,使它们能够理解庞大数据集中的模式。组织可以利用无监督和半监督学习方法的力量,通过使用这些框架来训练AI系统。这种训练为从自然语言处理到图像生成等任务奠定了基础,使机器能够解释提示。 LangChain LangChain是Harrison Chase的创新软件开发框架,专为GenAI专业人员量身打造。它有助于重塑日常任务和项目的格局。LangChain通过强调利用大型语言模型(LLMs)来提升AI系统的能力,简化了应用程序创建过程。基于MIT许可证的开源原则下,LangChain引入了一个标准化的接口,包括代理、内存和链。 LangChain的代理扮演重要角色,使LLMs能够做出明智的决策,为创建动态聊天机器人、游戏和各种应用铺平道路。内存功能非常宝贵,允许在对LLMs进行调用时保留状态。对于像聊天机器人这样的应用程序来说,这一功能成为了保持连贯对话或存储先前查询结果的基石。链条不仅限于单个LLM调用,还便于序列的编排-这对于构建摘要工具、问答系统和需要多方交互的不同应用程序来说是一个福音。 LangChain的数据增强生成功能增加了更多的灵活性,使GenAI专业人员能够根据外部数据生成文本。从编写引人入胜的新闻文章到制作产品描述,这个框架增强了内容生成的能力。 LangChain在各种应用中展示了其能力,包括客户服务和教育的聊天机器人,娱乐和研究的游戏,以及商业和教育的摘要工具和问答系统。它涵盖了各种应用,如内容生成、翻译、代码生成、数据分析和医学诊断。在GenAI专业人员的工具包中,LangChain推动着生成式人工智能不断演进的创新和效率。 LlamaIndex LlamaIndex成为GenAI专业人员武器库中至关重要的工具。它为自定义数据和GPT-4等LLMs之间提供了一个无缝的桥梁。这个创新的库通过简化与数据和LLMs一起工作的复杂过程,显著增强了GenAI专业人员的日常工作和项目。LlamaIndex的多功能实用性在不同阶段得到展现,在数据摄取、结构化、检索和集成方面提供了不可或缺的支持。 首先,LlamaIndex在从各种来源(如API、数据库、PDF或外部应用程序)“摄取”数据方面表现出色,充当勤奋的数据收集者。然后,它进入“构建”阶段,在这个阶段中,它以一种LLMs轻松理解的方式组织数据。这些组织良好的数据成为“检索”阶段的基础,在这个阶段中,LlamaIndex在需要时便于找到和提取正确的数据。最后,它简化了“集成”过程,实现了与各种应用框架的无缝合并数据。 LlamaIndex由三个主要组件组成:用于收集的“数据连接器”,用于组织的“数据索引”和作为翻译器的“引擎”(LLMs)。这种设置使GenAI专业人员在检索增强生成(RAG)方面拥有强大的能力,将LLM的实力与自定义数据相结合。查询引擎、聊天引擎和代理等模块化构建提升了交互到对话水平,实现了动态决策。无论是创建问答系统、聊天机器人还是智能代理,LlamaIndex都是GenAI专业人员的不可或缺的盟友,为RAG企业提供坚实的基础,并通过LLMs和定制数据来超级增强应用。 Jarvis 微软的JARVIS平台引领人工智能创新,为GenAI专业人员提供无与伦比的工具来增强日常工作。JARVIS与ChatGPT和t5-base等AI模型进行协作,实现统一和先进的结果。作为任务控制器,JARVIS简化了工作流程,最大限度地发挥了各种开源大型语言模型(LLMs)在图像、视频、音频等方面的潜力。 JARVIS集成了多模态人工智能,将GPT-4的功能扩展到文本和图像处理。该平台连接到互联网,访问一个强大的模型网络,包括t5-base、stable-diffusion 1.5、Facebook的bart-large-cnn和Intel的dpt-large等20个强大的模型。JARVIS使用户可以提交复杂的多任务查询,指导不同的模型无缝协作执行复杂的任务。例如,生成一张有关外星人入侵的图像,并在此过程中创作相关的诗歌,这个流程变得简化,ChatGPT规划任务,选择适当的模型并执行任务,展示了JARVIS的高效性和协作潜力。 虽然JARVIS的能力是无可否认的突破性,但其使用也需要考虑资源。JARVIS需要至少16GB的VRAM和约300GB的存储空间来运行各种模型。JARVIS需要大量的资源,无法在普通个人电脑上本地运行。然而,尽管有这些限制,JARVIS标志着人工智能发展的重要飞跃,革新了人工智能能力和协作的领域。它重塑了GenAI专业人员与利用人工智能技术的交互方式的潜力是显而易见的,使其成为人工智能发展演进中的关键工具。 Amazon…

Leave a Comment

上海人工智能实验室和麻省理工学院的研究人员公布了层次化门控循环神经网络(RNN):高效长期依赖建模的新领域

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-05-at-3.51.10-PM-1024×594.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-05-at-3.51.10-PM-150×150.png”/><p>上海人工智能实验室和MIT CSAI的研究人员开发了层次化门控循环神经网络(HGRN)技术,它通过将遗忘门加入线性RNN中,解决了增强序列建模的挑战。其目的是使上层能够捕捉长期依赖关系,同时允许下层专注于短期依赖关系,特别是处理非常长的序列时。</p><p>该研究探讨了Transformers在序列建模中的优势,由于并行训练和长期依赖能力,但同时也注意到了使用线性RNN进行高效序列建模的兴趣再度增加,强调了遗忘门的重要性。它考虑了线性递归和长卷积作为处理长序列的自注意力模块的替代方法,并强调了长卷积中的挑战。论文还探讨了RNN在建模长期依赖性和使用门控机制方面的局限性。</p><p>序列建模在自然语言处理、时间序列分析、计算机视觉和音频处理等各个领域都至关重要。在Transformers问世之前,RNN经常被使用,但面临训练速度慢和建模长期依赖关系的挑战。Transformers在并行训练方面表现出色,但对于长序列具有二次时间复杂度。</p><p>该研究提出了用于高效序列建模的HGRN模型,由具有令牌和通道混合模块的堆叠层组成。线性递归层中的遗忘门使得上层能够建模长期依赖性,而下层能够建模局部依赖性。令牌混合模块采用了受状态空间模型启发的输出门和投影。门控机制和动态衰减率解决了梯度消失问题。在语言建模、图像分类和长距离基准测试中的评估结果表明了HGRN的高效性和有效性。</p><p>所提出的HGRN模型在自回归语言建模、图像分类和长距离基准测试中表现出色。在语言任务中,它优于高效变体的原始Transformer、基于多层感知机和基于RNN的方法,与原始Transformer的性能相当。在常识推理和Super GLUE等任务中,它在使用更少令牌的情况下与基于Transformer的模型相匹配。HGRN在处理长期依赖性方面在长距离基准测试中取得了有竞争力的结果。在ImageNet-1K图像分类中,HGRN优于先前的方法(如TNN和原始Transformer)。</p><p>总之,HGRN模型在各种任务和模态中都证明了其高度有效性,包括语言建模、图像分类和长距离基准测试。其使用遗忘门以及对其值的下界设置使得对长期依赖关系的高效建模成为可能。在语言任务中,HGRN优于变体的原始Transformer、基于多层感知机和基于RNN的方法,并在ImageNet-1K图像分类中表现出色,超过了TNN和原始Transformer等方法。</p><p>HGRN模型的未来发展方向包括在各个领域和任务中进行广泛的探索,以评估其泛化能力和有效性。研究不同超参数和架构变化的影响旨在优化模型的设计。通过评估额外的基准数据集并与最先进的模型进行比较,可以进一步验证其性能。将探索辅助注意力或其他门控机制等潜在改进方法,以增强对长期依赖关系的捕捉。将研究更长序列的可扩展性以及并行扫描实现的益处。对可解释性的进一步分析旨在深入了解决策过程并提高透明度。</p>

Leave a Comment

使用由Amazon Comprehend创建的自定义元数据,通过Amazon Kendra智能地处理保险理赔事务

结构化数据是按照固定模式进行定义的数据,例如存储在数据库中的列信息;而非结构化数据则没有具体的形式或模式,例如文本、图像或社交媒体帖子等这两种数据类型不断增长,因为它们被各种组织所生产和使用例如,根据国际数据公司(IDC)的统计,[…]

Leave a Comment

CMU研究人员揭示了扩散-TTA 通过生成反馈提升有区分性的人工智能模型,实现无与伦比的测试适应性

扩散模型用于从复杂的数据分布中生成高质量的样本。鉴别性扩散模型旨在利用扩散模型的原理来进行分类或回归等任务,其中目标是预测给定输入数据的标签或输出。通过利用扩散模型的原理,鉴别性扩散模型具有处理不确定性、对噪声的稳健性和捕捉数据之间复杂依赖关系的潜力等优势。 生成模型可以通过量化新数据点与学习到的数据分布的偏差来识别异常或异常值。它们可以区分正常和异常数据实例,有助于异常检测任务。在传统上,这些生成和鉴别模型被视为相互竞争的选择。卡内基梅隆大学的研究人员在推理阶段将这两个模型耦合起来,以利用生成反演的迭代推理和鉴别模型的拟合能力的好处。 该团队构建了一种基于扩散的测试时间适应(TTA)模型,通过使用图像分类器、分割器和深度预测器的输出来调节图像扩散模型的条件并最大化图像扩散,从而使其适应各个未标记图像。他们的模型类似于编码器解码器架构。一个预训练的鉴别模型将图像编码为假设,如对象类别标签、分割地图或深度地图。这被用作预训练的生成模型的条件生成图像。 扩散-TTA能够有效地适应图像分类器在ImageNet及其变体等已建立基准上的内部和外部分布示例。他们使用图像重构损失对模型进行微调。通过将扩散似然梯度反向传播到鉴别模型权重,对测试集中的每个实例进行适应性处理。他们表明他们的模型优于以前的最先进TTA方法,并且在多个鉴别性和生成性扩散模型变体中都有效。 研究人员还对各种设计选择进行了剖析分析,并研究了扩散-TTA与扩散时间步长、每个时间步长样本数和批量大小等超参数的变化情况。他们还学习了适应不同模型参数的效果。 研究人员表示,扩散-TTA始终优于扩散分类器。他们猜测鉴别模型不会过度拟合生成损失,因为(预训练的)鉴别模型的权重初始化防止其收敛到这个平凡解决方案。 总之,以前已经使用生成模型对图像分类器和分割进行测试时间适应;通过在联合鉴别任务损失和自监督图像重构损失下共同训练扩散-TTA模型,用户可以获得高效的结果。

Leave a Comment

人类活动识别中的深度学习:这项AI研究利用树莓派和LSTM引入了自适应方法,以提高地点无关的准确性

Translate this HTML (keep the HTML code in the result) to Chinese: 人体行为识别(HAR)是一项研究领域,专注于开发基于来自各种传感器收集的数据自动识别和分类人类活动的方法和技术。HAR旨在使智能手机、可穿戴设备或智能环境等机器能够实时理解和解读人类活动。 传统上,使用可穿戴传感器和基于摄像头的方法。可穿戴传感器对用户来说不舒适且不方便。基于摄像头的方法需要侵入性安装,引发隐私问题。现有的HAR技术面临位置依赖性、对噪声敏感性以及在各种应用中识别多样化活动时需要更多灵活性等挑战,从智能家居到医疗保健和物联网(IoT)等应用。UTeM采用的方法提供了精确、适应性强且与位置无关的解决方案。 马来西亚梅尔卡大学(UTeM)的研究人员制定了一种人体活动识别(HAR)方法,以应对传统限制。他们引入了一种利用信道状态信息(CSI)和先进深度学习技术的系统。 该系统结合了信道状态信息(CSI)和长短时记忆(LSTM)网络。该系统提取无线通信信道状态的重要指标,实现实时分类和绝对位置无关的感知。LSTM网络通过对活动特征进行顺序学习,简化识别过程并适应不同人和环境中的活动变化。 研究人员强调,首先使用树莓派4和专用固件进行数据收集和预处理,以获取原始信道状态信息(CSI)数据,然后使用MATLAB进行优化,以提高质量和应用。 长短时记忆(LSTM)网络被用于从CSI数据中提取关键特征,从而实现对复杂人类活动的准确识别。他们对LSTM模型和分类流程进行了严格的训练,其中包括用于模式识别的在线阶段和用于增强性能的离线阶段。 该系统引入了使用LSTM算法的信号分割方法,以准确确定人类活动的起点和终点。 研究人员测试了该系统,并发现它在人类活动识别方面达到了令人印象深刻的97%的准确率。它展示了在适应新环境方面的能力,标志着HAR技术的重大进步。 研究人员强调了他们系统的卓越适应性。它可以轻松融入不同的环境,而无需进行大量的重新训练或主要更改。这种灵活性使其成为各个领域的实用解决方案,有效应对各种实际需求。这种方法代表了HAR技术的重大进步,具有在智能家居、医疗保健和物联网等多个行业产生重大影响的潜力。

Leave a Comment

2024年要使用的前5个生成AI库

介绍 在不断发展的技术领域中,人工智能(AI)已成为一股变革力量。从最初的基本算法到现代机器学习模型的复杂性,AI的发展之路确实是一场革命。现在,随着生成AI库在搜索中的出现,一个引人入胜的篇章展开了。但是,到底什么是genAI呢? 跨入未来,体验生成AI的魅力!与传统模型不同,genAI能够创建新的数据,重塑产业。像ChatGPT这样的工具引领着变革商业格局的道路。探索“2024年的前5个生成AI库”,揭示尖端AI工具的力量和潜力。从重新定义创新到革新用户体验,这些库标志着AI进化的前沿。让我们一起踏上这个激动人心的未来生成AI之旅! 什么是生成AI库? 生成AI库是生成人工智能的基石,作为预训练模型和算法的存储库。本质上,这些库赋予开发者和企业利用AI的创造潜力,而无需从头开始。通过提供学习模式和数据的基础,生成AI库可以生成各种输出,从文本和音乐到视觉。利用这些库可以简化开发过程,促进创新和效率。生成AI库使得广泛范围的应用和行业能够轻松获取先进的AI能力,实现了普惠性。 通过实践学习,提升你的生成AI技能。通过我们的GenAI Pinnacle Program,探索向量数据库在高级数据处理中带来的奇迹! 2024年使用的前5个生成AI库 1. Open AI OpenAI的API是生成AI中的一项突破性工具,为深入参与到生成AI领域的专业人士提供了一种变革性的解决方案。该API以灵活的“输入文本,输出文本”界面脱颖而出,允许生成AI专业人士将其无缝集成到日常工作和项目中。它对于几乎任何英语语言任务都具有适应性,为实验、开发和探索提供了广阔的空间。 该API在理解和执行任务时表现出色,只需少量示例即可。这是生成AI编程的直观选择,使专业人士能够简化工作流程,将精力集中在创造性输出上,而不是复杂的系统问题。该API的灵活性还包括通过任务特定训练来提高性能,使用户可以根据自己提供的数据集或反馈进行定制。OpenAI对简洁性的承诺确保了对广泛用户群体的易用性,而对技术的持续升级则表明了对快速发展的机器学习领域保持步伐的承诺。 此外,OpenAI对负责任的AI使用的强调在其对有害应用的谨慎监控和终止访问中体现出来。私人测试版的发布反映了对用户安全的承诺,并伴随着对语言技术与安全相关方面的持续研究。使用OpenAI的API的生成AI从业者创造了一个有力的工具,为积极的AI系统做出贡献。这个API不仅仅带来收入方面的效益,还推动了通用AI的进步,消除了障碍,推动着生成AI社区朝着无限可能的未来迈进。 2. PandasAI PandasAI是一款革命性的生成AI驱动的数据分析库,它重新塑造了生成AI专业人士日常任务的格局,为数据分析和处理带来了范式转变。建立在广泛使用的Pandas库的基础上,PandasAI通过融合生成AI模型来提高生产力。通过自然语言界面,传统的Pandas任务,如预处理和数据可视化,得到了提升。 PandasAI的吸引力在于它能够将复杂的编码过程转化为自然语言界面。生成AI消除了对广泛编码知识的需求,使数据科学家可以通过与数据集进行对话来查询数据集。这一创新极大地加快了预处理和分析阶段,是传统编码实践的一次离开。该库开启了新的可能性,使得技术和非技术专业人士都能够轻松地与数据集进行交互。 PandasAI的核心是生成式人工智能(GenAI),这是一种通过识别现有数据中的模式来产生多样数据类型的子集。通过利用GenAI,PandasAI引领了一个新时代,用户无需编写复杂的代码,而是可以用自然语言表达他们的意图,并见证他们的指令精确执行。这种转变的方法不仅简化了日常任务,还为生成式人工智能领域的数据分析过程铺平了道路,使其更具包容性和高效性。 3. HuggingFace Transformers HuggingFace Transformers为GenAI专业人士提供了一套改变日常任务和项目的转型工具集。该库提供超过20,000个预训练模型的即时访问,所有这些模型都基于最先进的Transformer架构,为数据科学家、人工智能从业者和工程师们提供了民主化的自然语言处理(NLP)工具。…

Leave a Comment

稳定AI引入对抗扩散蒸馏(ADD):在最少步骤中进行高保真度、实时图像合成的突破性方法

在生成模型中,扩散模型(DMs)扮演了关键角色,促进了在生成高品质图片和视频合成方面的最新进展。可扩展性和迭代性是DMs的两个主要优势;它们使其能够完成诸如根据自由文本线索创建图片等复杂任务。不幸的是,目前迭代推理过程所需的许多样本步骤阻碍了DMs的实时使用。另一方面,生成对抗网络(GANs)的单步形式和固有速度使其独具特色。然而,就样本质量而言,尽管已经做出扩展到大数据集的努力,GANs通常仍然需要更多DMs。 在这项研究中,来自Stability AI的研究人员旨在将GANs的固有速度与DMs的较高样本质量相结合。他们的策略在概念上很简单:研究团队提出Adversarial Diffusion Distillation(ADD),这是一种保持对抽样保真度的通用技术,可以通过将预训练的扩散模型的推理步骤减少到1-4个抽样步骤来增强模型的整体性能。研究团队结合了两个训练目标:(i)等同于评分蒸馏抽样(SDS)的蒸馏损失和敌对损失。 在每次前向传播中,敌对损失鼓励模型直接生成位于实际图片流形上的样本,消除了其他蒸馏技术中常见的模糊等伪影。为了保留大型DMs中所见到的高度组合性并有效利用预训练DM的大量知识,蒸馏损失使用另一个预先训练的(且固定的)DM作为教师。他们的方法还通过在推理过程中不使用无分类器的指导来减少内存需求。与早期的单步GAN-based方法相比,研究团队可以继续迭代开发模型并改善结果。 图1:显示了通过单一操作生成的高保真度照片。使用Adversarial Diffusion Distillation(ADD)训练为每个样本创建了一个单一的U-Net评估。 以下是他们的贡献摘要: • 研究团队提出了ADD,一种仅需1-4个抽样步骤将预训练的扩散模型转换为高保真度、实时图片生成器的技术。研究团队针对他们独特的方法进行了几个设计决策,将敌对训练与评分蒸馏相结合。 • ADD-XL在使用四个抽样步骤时,在5122像素的分辨率下胜过其教师模型SDXL-Base。• ADD可以处理复杂的图像合成,同时仅使用一次推理步骤保持高度逼真。• ADD在性能上明显优于LCM、LCM-XL和单步GANs等强基准。 总之,本研究引入了一种将预训练的扩散模型蒸馏为快速、少步骤的图片生成模型的通用技术:Adversarial Diffusion Distillation。通过使用鉴别器获取真实数据并通过扩散教师获取结构知识,研究团队将敌对训练和评分蒸馏目标相结合,以蒸馏公共的Stable Diffusion和SDXL模型。他们的分析显示,他们的技术击败了所有现有方法,并且在一到两个步骤的超快抽样区间中表现得特别好。此外,研究团队还可以通过多个过程改进样本。与IF、SDXL和OpenMUSE等流行的多步生成器相比,他们的模型在使用四个样本步骤时表现更好。他们的方法为使用基础模型进行实时生成开辟了新的可能性,使得能够在单一步骤中开发高品质照片成为可能。

Leave a Comment

Can't find what you're looking for? Try refining your search: