Press "Enter" to skip to content

四海吧 Posts

到2031年,人工智能芯片的全球市场将以31.8%的巨大复合年增长率增长

根据透明市场研究公司的一份报告,通过雅虎财经,从2022年到2031年,全球人工智能芯片市场将以惊人的31.8%的复合年增长率增长目前,全球人工智能芯片市场在2021年的估值约为455亿美元如果复合年增长率确实实现…

Leave a Comment

SEER 自监督计算机视觉模型的突破?

在过去的十年中,人工智能(AI)和机器学习(ML)取得了巨大的进展如今,它们比以往任何时候都更加准确、高效和有能力现代的人工智能和机器学习模型可以无缝地准确识别图像或视频文件中的对象此外,它们还能够生成与人类智能相媲美的文本和语音[…]

Leave a Comment

“令人着迷的AI帮助人们掌握德语和其他语言的方式”

在过去的几年里,人工智能无疑是一场革命它已经广泛应用于多个领域有趣的是,语言学习是一个充满潜力和吸引力的领域在这里,人工智能的影响是巨大的,并且随着更先进的技术的出现,它的影响还在迅速增长以下是一个简要介绍… 人工智能如何帮助人们掌握德语和其他语言的迷人方式 阅读更多 »

Leave a Comment

“认识RAP和LLM推理器:基于相似概念的两个框架,用于LLM的高级推理”

每一天都带来了大型语言模型(LLMs)的显著进展,这些模型在文本生成、情感分类、文本分类和零样本分类等各种任务中表现出色。它们的能力超越了这些领域,使内容创作、客户服务和数据分析实现自动化,从而彻底改变了生产力和效率。 最近,研究人员还开始探索使用LLMs进行推理的用途和效用。这些模型可以理解复杂的文本信息,并从中进行逻辑推理。LLMs擅长于问题回答、问题解决和决策制定等任务。然而,LLMs仍然不能像人类一样解决对人类来说很容易的问题,比如在给定环境中生成执行任务的行动计划,或者进行复杂的数学、逻辑和常识推理。LLMs在某些任务上面临困难,因为它们没有像人类那样的内部世界模型。这意味着它们无法预测在特定情况下事物的发展情况,或者模拟行动的长期结果。人类拥有内部世界模型,即对环境的心理表示,使得人类能够模拟行动及其对世界状态的影响,从而在复杂任务中进行有意识的计划。 为了解决这些问题,研究人员设计了一种新的推理框架,即基于规划的推理(RAP)。该框架使用一个库,使LLMs能够使用先进的推理算法进行复杂的推理。该框架将多步推理方法视为规划,并搜索最优推理链,以实现“世界模型”和“奖励”之间的最佳探索与开发平衡。除了RAP论文外,研究团队还提出了LLM推理器。LLM推理器是一个专门为语言模型(LLMs)设计的AI库,通过使用先进的算法,使其具备进行复杂推理的能力。它将多步推理视为规划,搜索最有效的推理链,并使用“世界模型”和“奖励”的概念优化探索和开发之间的平衡。你只需要定义一个奖励函数和(可选地)一个世界模型。LLM推理器负责处理其余的事情,包括推理算法、可视化、LLM调用等等! 世界模型将部分解决方案视为状态,并将新的行动/思考附加到状态作为状态转换。奖励函数在评估推理步骤的表现好坏方面起着关键作用。其思想是,具有更高累积奖励的推理链更有可能是正确的。 研究人员对该框架进行了广泛的研究。他们将RAP应用于数学推理和逻辑推理等几个具有挑战性的推理问题。这些任务的实际结果表明,RAP优于几种强基准方法。当应用于LLaMA33B时,RAP超越了GPT-4上的CoT,在计划生成方面实现了惊人的33%相对改进。 在推理过程中,LLM通过不断评估最佳推理步骤(行动)巧妙地构建推理树。为此,它使用其世界模型,这与以不同方式使用的相同LLM相同。通过模拟未来结果,LLM估计潜在奖励,并使用此信息更新其对当前推理步骤的信念。通过探索更好的替代方案和改进决策,它改进了推理过程。该框架提供了先进的推理算法,提供直观的可视化和解释,并与任何其他LLM库兼容。 研究人员强调,在对各种具有挑战性的推理问题进行广泛实验后,RAP优于几种基于CoT的当代推理方法。该框架甚至在某些情况下表现优于先进的GPT-4。RAP在设计奖励、状态和行动方面的灵活性展示了其作为灵活的框架处理各种推理任务的潜力。RAP将规划和推理以创新的方式结合在一起,这种方法有可能彻底改变我们对LLM推理的理解方式,为AI系统实现人类级别的战略思考和规划铺平道路。

Leave a Comment

“人工智能和脑植入装置恢复了瘫痪者的运动和感觉”

在一项开创性的医学壮举中,美国的医生们利用人工智能(AI)和脑植入物为一个四肢瘫痪的男子带来了希望。因潜水事故而从胸部以下瘫痪的Keith Thomas,如今能够再次移动和感觉,得益于Northwell Health’s Feinstein Institutes for Medical Research进行的一项新型临床试验。这一令人难以置信的成就,由一支熟练的研究人员和外科医生团队领导,为数以百万计的瘫痪和神经病患者带来了希望。让我们深入探讨这项开创性技术及其在面对类似挑战的个人生活中的潜力。 还可阅读:亚马逊对决谷歌对决微软:AI革命医疗的竞赛 Keith Thomas:一个希望和坚韧之旅 Keith Thomas的故事,一个失去运动和感觉能力的人,引起了Northwell Health’s Feinstein Institutes医生们的关注。研究人员、工程师和外科医生团队开始了一项任务,利用创新的脑植入物和AI算法恢复他的触觉和运动能力。 还可阅读:世界首个AI动力臂:你需要了解的一切 脑植入物和AI算法的力量 通过几个月的精确脑部功能磁共振成像,医生们确定了负责Thomas手臂运动和触觉感受的特定脑区。在Thomas实时反馈的指导下,经过15小时的开颅手术,将微芯片植入到确定的脑区。 还可阅读:联合国教科文组织对AI芯片植入提出隐私担忧 思维驱动疗法:一种令人难以置信的联系 这项开创性的思维驱动疗法涉及解读Thomas的意图,比如思考握紧他的手。来自脑植入物的电信号传输到计算机,使用非侵入性电极贴片刺激他的前臂和手部肌肉。此外,他的指尖和手掌的微小传感器将触觉和压力信息发送回大脑,恢复触觉感受。 还可阅读:能够将脑活动翻译为文本的AI模型 早期康复迹象 这项开创性研究的结果令人惊叹。在实验室中,Thomas现在可以自由地移动他的手臂并感受到他妹妹握住他手的触感。这种显着的进展增强了他的手臂力量,并触发了自然伤害康复。这种新颖的双重神经旁路方法有可能逆转一些损伤,为未来提供了新的可能性。…

Leave a Comment

2023年最佳40个生成式人工智能工具

ChatGPT – GPT-4 GPT-4 是 OpenAI 的最新 LLM,比其前身更具创造性、准确性和安全性。它还具备多模态能力,即能够处理图像、PDF、CSV等文件。通过引入代码解释器,GPT-4 现在可以运行自己的代码,避免产生幻觉并提供准确的答案。 Bing AI Bing AI 使用 OpenAI 的 GPT-4 模型,能够遍历网络提供准确的回答。它还具有根据用户提示生成图像的能力。 GitHub Copilot GitHub Copilot 是一种 AI 代码补全工具,可以分析代码并提供即时反馈和相关的代码建议。…

Leave a Comment

基于HADAR的新型成像工具让您在黑暗中清晰看见

想象一个世界,在这个世界里,机器人和自动驾驶车辆可以毫不费力地在最黑暗的夜晚中穿行,完全依靠先进的人工智能相机来感知热能特征。这个未来洞察力正在逐渐成为现实,归功于一种创新技术,叫做HADAR(热辅助探测与测距)。HADAR由普渡大学和密歇根州立大学的研究团队开发,有潜力彻底改变机器感知周围环境的方式,为各个行业带来令人兴奋的可能性。让我们深入了解HADAR的世界,探索它重塑我们与人工智能系统互动的能力。 还可以阅读:Red Cat和Athena AI用夜视技术制造智能军用无人机 热能视觉的挑战 热能视觉作为科幻电影的必备元素,一直面临着由于热辐射在环境中的扩散而带来的限制。这种现象导致图像模糊、无纹理,被称为“幽灵影像”。然而,研究团队通过采用机器学习算法来解决这个持久的问题,取得了显著的突破。 利用人工智能解码热能特征 利用人工智能的力量,研究人员训练HADAR来解释商用红外摄像头捕捉到的数据。HADAR现在可以准确地确定物体的物理特性和周围环境,穿透雾霾、烟雾和黑暗等视觉障碍。通过识别温度、物质组成和热辐射模式,HADAR可以创建出详细清晰的图像,无论环境条件如何。 填补鸿沟:夜间的白天清晰度 HADAR的独特方法使其与声纳、雷达和激光雷达等主动模态有所不同,这些模态发送信号并检测反射来推测物体的存在和距离。与这些方法不同,HADAR使用不可见的红外辐射来重建夜间场景,具有与白天相同的清晰度。这一突破可能彻底改变各个行业,从自动驾驶车辆到非接触式安全检查。 还可以阅读:Jeep的下一代人工智能和自动越野驾驶技术 前方道路:克服挑战 尽管HADAR具有巨大的潜力,但它并非没有挑战。这项技术昂贵,需要实时校准,仍然容易受到影响其准确性的环境障碍。然而,研究人员对未来充满乐观,相信这些障碍可以在不久的将来克服,使HADAR进入日常使用。 还可以阅读:人工智能如何改变汽车行业? HADAR带来更美好的未来 HADAR的潜在应用广泛且令人兴奋。随着这项技术的发展,它可能成为自动驾驶汽车、自主机器人和安全检查的人工智能系统中不可或缺的组成部分。通过使机器在最黑暗的夜晚“清晰地”看到,HADAR可以改变行业,提高安全性,为一个更加连接和智能的世界铺平道路。 还可以阅读:滴滴Neuron:未来派无人驾驶机器人出租车 我们的观点 HADAR从科幻世界走向现实,证明了创新和以人工智能为驱动的突破的力量。能够在最黑暗的夜晚看得像白天一样明亮,HADAR已经成为各个领域的改变者。虽然仍然存在挑战,但研究人员对技术的潜力充满决心和信心,为机器能够以无与伦比的准确性感知周围环境的未来铺平了道路,使我们的世界更安全、更高效。随着HADAR朝着广泛应用迈出第一步,我们热切期待夜与日之间的界限变得模糊、人工智能感知无限扩展的那一天到来。

Leave a Comment

这篇来自中国的AI论文提出了HQTrack:一个用于在视频中高质量追踪任何物体的AI框架

视觉目标跟踪是计算机视觉中许多子领域的基础,包括机器人视觉和自动驾驶。该任务旨在可靠地识别视频序列中的目标对象。许多最先进的算法在视觉目标跟踪(VOT)挑战中竞争,因为它是跟踪领域中最重要的比赛之一。 视觉目标跟踪和分割竞赛(VOTS2023)取消了以往VOT挑战所施加的一些限制,使参与者可以更广泛地思考目标跟踪。因此,VOTS2023结合了对单个目标的短期和长期监控以及对多个目标的跟踪,仅使用目标分割作为位置指定。这引入了新的困难,例如精确的掩模估计、多目标轨迹跟踪和对象之间的关系识别。 中国大连理工大学和阿里巴巴达摩院的一项新研究提出了一个名为HQTrack的系统,它代表高质量跟踪。它主要包括一个视频多目标分割器(VMOS)和一个掩模优化器(MR)。为了感知复杂设置中的微小对象,研究人员采用了VMOS,这是DeAOT的增强版本,并在1/8比例上级联了一个门控传播模块(GPM)。此外,他们使用Intern-T作为特征提取器,以提高区分不同类型对象的能力。在VMOS中,研究人员仅保留最近使用的帧在长期记忆中,舍弃旧帧以腾出空间。然而,应用大型分割模型来改进跟踪掩模可能是有用的。复杂结构的对象对SAM的预测尤其具有挑战性,并且在VOTS挑战中经常出现。 使用已经预训练的HQ-SAM模型,团队可以进一步提高跟踪掩模的质量。最终的跟踪结果是从VMOS和MR中选择的,并且使用预测掩模的外包围框作为盒子提示,与原始图像一起输入HQ-SAM以获得优化后的掩模。HQTrack在VOTS2023比赛中以0.615的质量得分获得第二名。

Leave a Comment

Stack Overflow 发布 Overflow 开发者社区与人工智能的融合

Stack Overflow,这个为开发者提供答案和知识的知名平台,迈出了具有重大意义的一步,宣布了其新的路线图,开启了一个全新的时代,以生成式人工智能的整合为标志。这一富有远见的倡议名为OverflowAI,承诺提升平台的能力,改进搜索功能,并为全球的开发者提供无缝体验。 这一变革性计划的核心是引入语义搜索,这是传统词汇搜索方法的强大升级。通过利用向量数据库的潜力,Stack Overflow旨在向用户查询提供更加智能的响应,与他们的研究主题精确对齐。目标是创建一个真正的对话式、以人为本的搜索体验,开发者可以即时访问由GenAI驱动的可靠和准确的解决方案。这种方法的独特之处在于始终专注于信任和归属,确保贡献者的努力得到认可和回报。 OverflowAI的好处不仅限于公共平台,因为这些增强的搜索功能也将集成到Stack Overflow for Teams中。这意味着客户可以快速找到相关的答案,同时利用可信赖的来源,包括Stack Overflow for Teams、公共平台和其他知识库,如Confluence和GitHub。 OverflowAI最令人兴奋的一个方面是为Stack Overflow for Teams引入了“企业知识摄取”。这一突破性功能使用户能够利用现有的、准确和可信赖的内容,在几分钟内建立一个全面的知识库。利用人工智能和机器学习算法,系统将创建初始的标记结构,并根据团队最频繁的查询领域推荐相关的问题和答案。这个由AI驱动的过程高效地启动了一个Stack Overflow社区,使开发者能够专注于策划和完善内容,以确保准确性和相关性。通过投票、编辑、评论和浏览等质量和准确性的指标,所有的知识都可以在内部社区中被发现和重复使用,创建了一个有价值的信息枢纽。 为了进一步提高可访问性,Stack Overflow将Stack Overflow for Teams的知识库与他们的新聊天机器人StackPlusOne无缝集成到了Slack中。这个巧妙的整合允许即时访问最具技术挑战的解决方案,从Teams的实例和Stack Overflow公共平台的经过验证的来源中获取。GenAI以对话形式提供响应,确保组织中非技术性成员也可以轻松理解这些信息。 Stack Overflow不仅将AI整合到平台中,而且还积极培育以AI为中心的知识共享社区。GenAI Stack…

Leave a Comment

用双向LSTM掌握下一个单词预测:全面指南

介绍 识别下一个单词是下一个单词预测的任务,也被称为语言建模。自然语言处理的基准任务之一就是语言建模。在其最基本的形式中,它涉及根据给定的一串词语选择最有可能出现的下一个单词。语言建模在许多不同领域都有各种各样的应用。 学习目标 认识统计分析、机器学习和数据科学中使用的各种模型背后的思想和原则。 学习如何创建预测模型,包括回归、分类、聚类等,以根据数据生成精确的预测和类型。 了解过拟合和欠拟合的原理,并学习如何使用准确率、精确度、召回率等指标评估模型性能。 学习如何预处理数据并确定建模的相关特征。 学习如何使用网格搜索和交叉验证调整超参数并优化模型。 本文作为数据科学博客马拉松的一部分发布。 语言建模的应用 以下是一些值得注意的语言建模应用: 手机键盘文本推荐 智能手机键盘上的一个功能称为手机键盘文本推荐,或者预测文本或自动建议,在您输入时建议单词或短语。它旨在加快输入速度,减少错误,并提供更准确和与上下文相关的建议。 也可阅读:构建基于内容的推荐系统 谷歌搜索自动完成 每次我们使用谷歌等搜索引擎搜索任何内容时,我们会得到许多想法,随着我们不断添加短语,推荐会变得越来越好,与当前搜索更相关。那么,这是如何实现的呢? 自然语言处理(NLP)技术使其成为可能。在这里,我们将使用自然语言处理(NLP)来创建一个预测模型,利用双向LSTM(长短期记忆)模型来预测句子的剩余部分。 了解更多:什么是LSTM?长短期记忆简介 导入必要的库和包 最好导入构建下一个单词预测模型所需的必要库和包。下面是你通常需要的一些库的示例: import pandas as pd import…

Leave a Comment

纽约大学和Meta AI研究人员通过学习用户和已部署模型之间的自然对话,改进社交对话代理,无需额外注释

人类输入是改善社交对话模型的关键策略。在带有人类反馈的强化学习中,当需要许多人类注释来保证令人满意的奖励函数时,学习从反馈中取得了巨大的改进。反馈的来源包括用户对对话转折或对话情节的数字分数、排名或自然语言评论,以及对机器人转折的二元评估。大多数工作有意利用众包工人收集这些信号,因为自然用户可能不愿意被打扰或者如果他们这样做可能提供不准确的信息。 在这项研究中,来自纽约大学和Meta AI的研究人员考虑到他们有很多部署时的对话情节,这些情节展示了模型与真实用户之间的真实讨论。他们试图确定是否可以从这些自然用户讨论中获取任何隐含的指示,并利用这些信号来增强对话模型。这样做有两个原因。首先,尽管他们可能不提供明确的注释,但自然用户最接近未来部署的数据分布。其次,使用先前对话情节中的隐含信号可以节省用于众包的金钱。 图1:方法的总体概述。从人类和机器人之间的对话中获取隐含信号,例如下一个人类转折是否会很长或很短、快乐或不快乐。 更准确地说,他们研究了是否可以调整聊天机器人以使用最佳的隐含反馈信号,如即将到来的人类答案的数量、长度、情感或响应性。他们使用来自BlenderBot在线部署的公开可用的去标识化数据来研究这个问题。使用这些数据,他们训练样本和重新排序模型,比较各种隐含反馈信号。通过自动化和人工判断,他们发现他们的新模型优于基线回复。此外,他们还询问是否支持这些措施会导致不良行为,因为他们的隐含反馈信号是两个生成质量的粗略代理指标。 是的,这取决于使用的信号。特别是,优化更长的讨论长度可能导致模型提出有争议的观点或以敌对或争斗的方式回复。另一方面,优化积极的回应或情绪相对于基线减少了这些行为。他们得出结论,来自人类的隐含反馈是一种有益的训练信号,可以提高整体性能,但所采用的具体动作具有重要的行为影响。

Leave a Comment

预测高风险妇女的癌前变化:一种突破性的基于乳腺X光摄影的深度学习方法

人工智能和深度学习的进步为改善医学诊断和患者护理开辟了新的途径。《放射学:人工智能》杂志上最近发表的一项研究表明,一种基于乳腺摄影的深度学习(DL)模型在检测高风险乳腺癌女性的癌前变化方面具有潜力。这项研究对于提高乳腺癌检测和风险分层的前景具有重要意义,特别是对于易感人群。 该研究侧重于利用一个DL模型,该模型是在大量筛查乳腺摄影图像的数据集上进行训练的。 使用接收者操作特征曲线下面积(AUC)来评估DL模型的性能,以衡量其预测准确性。结果显示出令人期待的结果,DL模型在一年的AUC方面达到了71%,在五年的AUC方面达到了65%,用于预测乳腺癌。尽管传统的乳腺影像报告和数据系统(BI-RADS)系统在一年的AUC方面稍高达到了73%,但DL模型在长期乳腺癌预测方面表现更好,其五年AUC为63%,而BI-RADS为54%。 该研究还深入探讨了影像在预测未来癌症发展方面的作用,进行了镜像实验,评估DL模型在检测早期或癌前变化方面的准确性,这些变化在标准乳腺摄影图像中可能不明显。结果表明,对于影像中存在未来癌症的情况,正向镜像产生了62%的AUC,而负向镜像则显示了51%的AUC,突显了DL模型在检测癌前或早期恶性变化方面的潜力。 一个特别有前景的发现是DL模型在短期风险分层中作为BI-RADS系统的补充。将DL模型的结果与BI-RADS评分结合起来,可以改善区分度,表明DL工具可以增强筛查乳腺摄影图像的评估,并提供更准确的近期风险评估预测。 研究人员还强调了DL模型的训练数据集侧重于低风险高风险女性,警告不要直接将研究结果推广到乳腺癌平均风险的女性。需要进一步研究探索DL模型在不同人群中的适用性以及其在更广泛的患者群体中辅助乳腺癌检测和风险评估的潜力。 总的来说,该研究强调了DL模型在乳腺癌检测和风险分层方面的巨大潜力,特别是对于高风险个体。它为未来的研究提供了铺路,以改进DL模型,拓展其在不同人群中的应用,最终促进乳腺癌诊断和患者预后的改善。随着技术的进步,基于人工智能的解决方案可以革新乳腺癌筛查和管理,实现早期发现和改善患者护理。

Leave a Comment

麻省理工学院和斯坦福大学的研究人员开发出一种机器学习技术,可以高效地学习控制机器人,从而在使用更少数据的情况下实现更好的性能

来自麻省理工学院和斯坦福大学的研究人员引入了一种新颖的机器学习技术,有潜力在动态环境和快速变化条件下彻底改变机器人(如无人机和自动驾驶车辆)的控制。 这种创新的方法将控制理论原则纳入机器学习过程中,从而可以创建更高效和有效的控制器。研究人员的目标是学习系统动力学内在结构,以设计出更优秀的稳定控制器。 该技术的核心是将控制导向结构整合到模型学习过程中。通过从数据中联合学习系统动力学和这些独特的控制导向结构,研究人员能够生成在真实场景中表现出色的控制器。 与传统的机器学习方法需要单独的步骤来推导或学习控制器不同,这种新方法可以直接从学习到的模型中提取出有效的控制器。此外,由于包含了这些控制导向结构,该技术在少量数据的情况下实现更好的性能,因此在快速变化的环境中特别有价值。 这种方法的灵感来自机器人学家如何利用物理学来推导简化的机器人模型。这些手动推导的模型基于系统的物理特性捕捉了基本的结构关系。然而,在复杂的系统中,手动建模变得不可行,研究人员通常使用机器学习来将模型拟合到数据上。现有方法的挑战在于它们忽视了基于控制的结构,而这对于优化控制器性能至关重要。 麻省理工学院和斯坦福大学团队的技术通过在机器学习过程中引入控制导向结构来解决这个限制。通过这样做,他们可以直接从学习到的动力学模型中提取控制器,有效地将基于物理学的方法与数据驱动的学习相结合。 在测试中,新的控制器紧密地跟随期望的轨迹,并优于各种基准方法。值得注意的是,从学习到的模型中派生的控制器几乎与使用精确系统动力学构建的基准控制器的性能相匹配。 该技术还具有数据效率高的特点,在最少的数据点上取得了出色的性能。相比之下,使用多个学习组件的其他方法在数据集较小时性能迅速下降。 这种数据效率对于机器人或无人机需要快速适应快速变化条件的场景尤其有希望,非常适合实际应用。 研究的一个值得注意的方面是其普适性。该方法可以应用于各种动力系统,包括机器人手臂和在低重力环境中运行的自由飞行航天器。 展望未来,研究人员有兴趣开发更可解释的模型,以便识别动力系统的特定信息。这可能会导致性能更好的控制器,进一步推动非线性反馈控制领域的发展。 该研究的专家们赞扬了将控制导向结构作为学习过程中的归纳偏见的贡献。这种概念创新导致了高效的学习过程,产生了具有有效、稳定和强大控制能力的动态模型。 通过在学习过程中引入控制导向结构,这种技术为更高效和有效的控制器打开了令人兴奋的可能性,使我们离机器人在复杂场景中具有出色的技能和适应性的未来更近了一步。

Leave a Comment

中国的一项新的人工智能研究提出了SHIP:一种即插即用的生成式人工智能方法,用于改进现有的微调方法

本文介绍了一种名为合成提示(SHIP)的新方法,用于改进现有的微调方法。 微调:在预训练之后,模型会在一个较小的、特定任务的数据集上进行微调。这涉及到在新数据上继续训练过程,通常使用较小的学习率。其思想是调整模型从预训练中获得的泛化知识,使其更适用于特定任务。 研究人员要解决的问题是某些类别缺乏数据的情况。他们的目标是训练一个生成模型,可以通过提供类别名称合成特征,从而能够为没有数据的类别生成特征。 为没有数据的类别生成特征是指为训练数据集中不存在的类别或类别合成表示的过程。这在收集某些类别的真实数据可能具有挑战性或不可能的情况下特别有用。 研究人员随后使用现成的方法对CLIP进行了原始标记和新合成特征的微调。然而,一个重要障碍是生成模型通常需要大量数据进行训练,这与他们的数据效率目标相矛盾。他们提出利用变分自编码器(VAE)作为框架,相比于需要对抗训练的模型,在低数据场景中更易于训练且更有效。 尽管GAN和VAE都是能够创建新数据样本的生成模型,但它们在架构、目标和训练方法上存在显著差异。GAN以生成高质量、逼真样本而闻名,但训练难度较大。而VAE提供了一个概率框架,在有限数据的情况下更易于处理,但可能不如GAN产生锐利或逼真的样本。 CLIP(对比式语言-图像预训练)是OpenAI开发的一种模型,可以从文本描述中学习理解和生成图像,反之亦然。它已经在大规模数据集上进行了预训练,并具有对齐的视觉和语言表示。预训练的语言编码器有助于生成更逼真的特征。本文旨在通过利用合成数据来增强CLIP微调方法的性能。研究人员在基于新的泛化、跨数据集迁移学习和广义零样本学习的综合实验中进行了全面的实验,取得了最先进的性能。 所提出的模型架构利用VAE框架对特征进行编码和生成,与CLIP集成以提取图像特征并重构它们。在训练过程中,模型学习将特征编码为潜在空间,然后重构它们。在生成阶段,它使用这个学到的编码为新类别合成特征,允许在某些类别没有数据的情况下对CLIP进行微调。基于CLIP的新颖生成器由轻量级MLP和冻结的CLIP文本编码器组成,在转换潜在代码和构建最终提示符进行特征重构方面起到关键作用。 研究人员观察的实验结果: 基于新的泛化:实验在11个不同的图像分类数据集上进行,包括ImageNet、Caltech101、OxfordPets、StanfordCars、Flowers102、Food101、FGVCAircraft、SUN397、DTD、EuroSAT和UCF101。数据集被分为基类和新类,每个基类以16个样本进行训练。评估同时针对基类和新类进行。 广义零样本设置:本文还在更现实的广义零样本设置下评估了基于新的泛化,其中基类和新类的数据混合在测试数据集中。结果表明,以前的方法在新类别中的性能显著下降,但提出的SHIP方法在新类别中的性能继续提高。 与其他方法的比较:结果与其他方法进行了比较,包括CLIP、CoOp、CLIP-Adapter和Tip-Adapter。提出的SHIP方法在各个数据集中的新类别中表现出了改进的性能。 结论: 本文提出了一种新颖的SyntHesIzed Prompts (SHIP)方法,旨在改进现有的微调方法,特别是在某些类别没有数据的情况下。该方法通过为没有数据的类别合成特征,并使用原始标记和新合成特征对CLIP进行微调,实现了各种任务的最先进性能。本文指出了额外的训练成本作为一种限制,并表达了在未来研究中探索SHIP在密集预测任务中的适用性的意愿。 总体而言,本文通过解决某些类别数据稀缺的挑战,并利用合成数据提高CLIP微调方法的性能,在该领域提出了重要贡献。

Leave a Comment