人工智能是未来的浪潮,有可能彻底改变和优化各种公司流程。无论是信息技术(IT)、客户服务、人力资源(HR)、销售和营销等各个部门,人工智能都在日益发挥着重要作用,提高运营速度和效率,抓住潜在机会。 本文详细介绍了由人工智能支持的销售工具。由于需要投入大量精力来识别最佳潜在客户、进行有意义的交流并最终达成交易,因此始终保持销售和业绩的一致性很困难。 这就是人工智能的用武之地:自动化耗时的销售流程。 在最佳人工智能销售工具中,包括: Oliv AI 通过人工智能销售助手Oliv AI,可以跟踪和管理销售流程的采用。Oliv AI会听取数小时的销售录音,识别最成功的发现对话,并确定常见的客户关注和问题,以创建定制的洞察力。它旨在激励销售人员在进行冷呼叫之前进行充分准备。此外,它向销售人员提供实时的对话洞察,指导他们采取下一步智能行动,为客户提供统一的积极购买体验。Oliv AI 保持Salesforce最新状态,并保证良好的CRM卫生情况。此外,它通过将许多销售工具集成到一个地方来简化销售过程。这包括客户关系管理系统、会议记录软件、视频会议和内容管理系统。 Pipedrive Pipedrive的人工智能销售助手通过审查以前的销售数据,推荐何时采取行动来最大化公司收益。这就像拥有一位销售导师,他总是关注你的最佳利益并根据你的表现提供建议。销售助手提供的反馈将所有警报和通知汇总在一个位置,促进更大的公开性和团队合作,同时使所有人保持在同一页面上更加简单。此外,它每周向您提供报告,以查看您的进展,以了解您的结果和表现如何随时间变化。通过使用方便的图表比较结果,您可以确定自己是否落后或朝着目标迈出了巨大的步伐。 Regie AI Regie AI是一款由人工智能驱动的销售外展解决方案,可以快速高效地向前景和客户发送定制的销售信息。这个工具非常适合销售发展人员,以提高入站线索响应率、开放电子邮件率和会议预订率,因为它可以比手动电子邮件序列快10倍创建超个性化的冷电子邮件。通过自动化任务,如起草一次性电子邮件以推动交易,为电话和领英InMails编写自定义脚本,并将经过批准的营销材料整合到消息中,它简化了您的销售代表的流程。 Regie AI不仅自动化销售外展,还帮助您的收入团队批量创建引人入胜的内容,包括博客和社交媒体帖子、电子邮件序列以及活动和邀请的跟进。 Cresta Cresta AI是一款由人工智能驱动的联系中心智能产品,为员工提供自助、实时辅导和后续分析,以确保与客户的每次互动都能算数。像Cresta Agent Assist、Cresta Director、Cresta…
Leave a CommentTag: Uncategorized
深度学习模型,特别是图像分类中的区分外部分布(OOD)的检测,解决了识别与模型的训练任务无关的输入的挑战。它旨在防止模型在(OOD)输入上做出自信但不正确的预测,同时准确地对内部分布(ID)输入进行分类。通过区分ID和OOD输入,OOD检测方法增强了模型在实际应用中的鲁棒性和可靠性。 当前图像分类中对OOD检测评估的一个弱点,特别是有关与ImageNet-1K(IN-1K)相关的数据集,是OOD数据集中存在ID对象。这个问题会导致最先进的OOD检测器将ID对象错误地分类为OOD。因此,OOD检测方法的评估受到影响,导致低估实际的OOD检测性能,并不公正地惩罚更有效的OOD检测器。 最近发表了一篇新论文,作者的目标是解决评估OOD检测方法的限制。他们引入了一个新的测试数据集NINCO,其中包含没有任何来自ImageNet-1K(ID)类的对象的OOD样本。他们还提供了合成的“OOD单元测试”,以评估OOD检测器的弱点。该论文在NINCO上评估了各种体系结构和方法,为模型弱点和预训练对OOD检测性能的影响提供了洞见。其目标是提高OOD检测方法的评估和理解。 作者提出创建一个名为NINCO(无ImageNet类对象)的新数据集,以解决评估OOD检测方法的限制。他们从现有或新采集的数据集中精心选择基础类别,考虑它们的非许可解释,以确保它们不是ImageNet-1K(ID)类别的一部分。作者视觉检查基础类别中的每个图像,以删除包含ID对象或OOD类别中没有对象可见的样本。这个手动清理过程确保了更高质量的数据集。 NINCO由64个OOD类别组成,共有5,879个样本,这些样本来自各种数据集,包括SPECIES,PLACES,FOOD-101,CALTECH-101,MYNURSINGHOME,ImageNet-21k以及从iNaturalist.org和其他网站新采集的数据。此外,作者还提供了11个测试OOD数据集中2715个OOD图像的清理版本,以评估潜在的ID污染。 作者还提出使用OOD单元测试,这是一些简单的、合成的图像输入,旨在评估OOD检测的弱点。他们建议将OOD检测器在这些单元测试上的性能分开评估,并计算失败测试的数量(FPR高于用户定义的阈值),并将其与在类似NINCO的测试OOD数据集上的整体评估一起使用。这些单元测试提供了有关检测器在实践中可能遇到的特定弱点的有价值的见解。总体而言,作者提出NINCO作为评估OOD检测方法的高质量数据集,并建议使用OOD单元测试来获得有关检测器弱点的额外见解。 该论文在NINCO数据集和单元测试上对OOD检测方法进行了详细评估。作者分析了各种体系结构和OOD检测方法的性能,揭示了模型弱点和预训练对OOD检测性能的影响。在评估NINCO数据集时,该研究评估了从timm-library获得的不同IN-1K模型和先进的OOD检测方法。基于特征的技术,如Maha、RMaha和ViM,比MSP基线表现更好。Max-Logit和Energy也相对于MSP表现出明显的增强。性能结果基于所选模型和OOD检测方法而异。预训练被证明具有影响力,因为它有助于提高ID性能,并生成用于OOD检测的更优秀的特征嵌入。 总之,该研究解决了图像分类中评估OOD检测方法的限制。它介绍了NINCO数据集,该数据集包含没有来自ImageNet-1K(ID)类的对象的OOD样本,并提出使用OOD单元测试来评估检测器的弱点。在NINCO上的评估展示了不同模型和OOD检测方法的性能,突出了基于特征的技术的有效性和预训练对OOD检测性能的影响。NINCO通过提供一个干净的数据集和有关检测器弱点的见解来提高OOD检测方法的评估和理解。研究结果强调了改进OOD检测评估的重要性,并了解当前方法的优缺点。
Leave a Comment对于医学专业人员来说,会话式生成人工智能有很大的潜力,但目前的研究仅侧重于文本。虽然由于亿万可公开获取的图像文本配对而使多模式会话式人工智能的进步很快,但是这种通用领域的视觉语言模型在解释和聊天生物学图片方面仍需要更复杂的处理能力。微软研究团队提出了一种低成本的方法,用于教授视觉语言会话助手如何回答有关生物医学图像的自由形式查询。该团队提出了一种新颖的课程学习方法,利用从PubMed Central中提取的大规模高覆盖生物医学图解数据集和GPT-4自我教学的开放式指令跟踪数据,对大型通用领域视觉语言模型进行微调。 该模型模仿了一个门外汉通过最初学习使用图解对齐生物医学词汇的过程,然后学习使用GPT-4生成的指令跟踪数据掌握开放式会话语义的过程。在不到15个小时的时间内(使用八个A100),研究人员可以训练出一款适用于生物医学领域的大型语言和视觉助手(LLaVA-Med)。由于其多模式会话能力和遵循自由形式指令的能力,LLaVA-Med非常适合回答关于生物图像的问题。经过微调后,LLaVA-Med取得了三个基准生物医学视觉问答数据集的最新成果。关于人们如何遵循指令以及LLaVA-Med模型的数据将被公开以推进生物医学领域的多模式研究。 该团队的主要贡献总结如下: 多模式医学训练合规统计。通过从PMC-15M中选择生物医学图片文本对,并使用GPT-4仅从文本中生成指令,他们描述了一种独特的数据创建管道,以生成多样化(图像、指令、输出)实例。 LLaVA-Med。使用自行生成的生物医学多模式指令跟踪数据集,他们提供了一种新颖的课程学习方法,以使LLaVA适应生物医学领域。 开源。生物医学多模式指令跟踪数据集以及用于数据生成和模型训练的软件将公开提供,以促进生物医学多模式学习的进一步研究。 LLaVA-Med的有效性和获得的多模式生物医学指令跟踪数据的准确性是该团队调查的重点。研究人员考虑两种不同的环境来评估研究: LLaVA-Med作为通用生物医学视觉聊天机器人的效果有多好? 与现有技术相比,LLaVA-Med在行业基准测试中的表现如何? 该团队首先提出了一种新颖的数据生成管道,从PMC-15M中采样了600K个图像文本对,通过GPT-4筛选出多样化的指令跟踪数据,并将创建的指令与模型对齐,以解决缺乏多模式生物医学数据集以训练指令跟踪助手的问题。 研究人员随后介绍了一种教授LLaVA-Med课程的新方法。具体而言,他们在广泛的领域中训练LLaVA多模式会话模型,并逐渐将重点转向生物医学领域。训练过程分为两个阶段: 指定生物医学概念词嵌入与大量创新生物视觉概念的相关图像属性对齐。 使用基于生物医学语言图像指令的微调模型,LLaVA-Med展现了令人印象深刻的零样本任务转移能力,促进了自然用户互动。 总的来说 微软研究团队开发了适用于生物医学领域的大型语言和视觉模型LLaVA-Med。他们使用自我教学策略通过语言生成技术GPT-4和外部知识构建了数据筛选管道。然后,他们将模型训练到高质量的生物医学语言-图像指令跟踪数据集上。LLaVA-Med在微调后在三个VQA数据集上的特定指标上打败了早期受监督的SoTA,展现了具有领域知识的出色对话能力。虽然LLaVA-Med是朝着正确方向迈出的一大步,但他们也认识到它存在幻觉和推理缺乏深度的问题,这在许多LMMs中都很普遍。未来的工作将致力于使事物更加可靠和高质量。
Leave a Comment基于文本的视频编辑旨在使用文本提示和现有的视频材料创建新的视频,无需任何手动劳动。这项技术有可能对包括社交媒体内容、营销和广告在内的各种行业产生重大影响。修改后的电影必须准确反映原始视频的内容,保持创建帧之间的时间连贯性,并与目标提示对齐,以在这个过程中获得成功。然而,同时满足所有这些要求可能会很具有挑战性。仅使用大量的文本-视频数据训练文本到视频模型需要大量的计算能力。 零样本和一样本基于文本的视频编辑方法使用了最近大规模文本到图像扩散模型和可编程图片编辑的发展。这些进展没有额外的视频数据,已经展示了对各种文本命令的影片修改的良好能力。然而,经验数据表明,尽管在与文本提示对齐的工作方面取得了巨大进展,但目前技术仍然不能恰当地和适当地处理输出,保持时间上的一致性。清华大学、中国人民大学、盛数和琶洲实验室的研究人员推出了ControlVideo,这是一种基于预训练的文本到图像扩散模型的先进方法,用于忠实可靠的基于文本的视频编辑。 从ControlNet中汲取灵感,ControlVideo通过包括Canny边缘图、HED边框和所有帧的深度图等可视化条件来放大源视频的方向。采用扩散模型预训练的ControlNet处理这些视觉情况。将这些情况与目前在基于文本的视频编辑方法中使用的文本和注意策略进行比较,值得注意的是,它们提供了更精确和适应性更强的视频控制方法。此外,为了提高保真度和时间上的一致性,同时避免过度拟合,扩散模型和ControlNet中的注意模块都经过了精心构建和微调。 更具体地说,他们将这两个模型中的初始空间自我注意力变换为关键帧注意力,将所有帧与所选帧对齐。扩散模型还包括时间注意力模块作为额外的分支,然后是零卷积层,以在微调之前保留输出。他们在相应网络中使用原始空间自我注意权重作为关键帧和时间注意力的初始化,因为观察到不同的注意机制模拟不同位置之间的关系,但始终模拟图像特征之间的关系。 图1展示了ControlVideo在各种控制下的主要结果,例如(a) Canny边缘图,(b) HED边框,(c)深度图和(d)姿势。当涉及替换人物并改变其质量、风格和背景时,ControlVideo可以生成准确可靠的视频。ControlVideo的用户可以通过从各种控制类型中选择,灵活地修改保真度和编辑能力之间的比例。对于视频编辑,许多控制器可以轻松集成。 为了指导未来关于一次调整的视频扩散模型骨干的研究,他们对ControlVideo的基本要素进行了全面的实证研究。该工作调查了自我注意力微调的关键和值设计、参数、初始化技术以及引入时间注意力的本地和全局位置。根据他们的发现,主UNet(除了中间块)可以通过选择一个关键帧作为关键和值、微调WO以及将时间注意力与自我注意力(本研究中的关键帧注意力)相结合来发挥最佳作用。 他们还仔细研究了每个组件的贡献以及总体影响。根据这项工作,他们收集了40个视频文本对进行研究,包括Davis数据集和其他来自互联网的数据集。在许多措施下,他们与基于帧稳定的扩散和SOTA基于文本的视频编辑技术进行了比较。特别是,他们采用SSIM分数衡量保真度,采用CLIP评估文本对齐和时间一致性。他们还进行了用户研究,将ControlVideo与所有基线进行比较。 许多研究结果表明,ControlVideo在保真度和时间一致性方面表现不亚于文本对齐,但明显优于所有这些基准线。他们的实证结果特别突出了ControlVideo创建具有极其逼真视觉质量的电影的吸引力以及在可靠地遵循书面说明的同时保持源材料的能力。例如,ControlVideo在化妆方面成功了,同时又能保留一个人独特的面部特征,这是其他技术都无法做到的。 此外,ControlVideo利用各种控制类型,包括从原始视频中提取不同数量的信息,可以实现视频保真度和可编辑性之间的可定制权衡(见图1)。例如,HED边界提供了原始视频的精确边界细节,适用于紧密控制,如面部视频编辑。姿势包括原始视频的运动数据,使用户在保留运动传输的同时更自由地修改主题和背景。此外,他们展示了如何混合多个控件以从各种控件类型的优势中获益。
Leave a Comment在自然语言处理(NLP)任务中,大型语言模型(LLM)在大规模在线数据集上训练表现出色。通过扩大数据规模,分割任何模型(SAM)在计算机视觉(CV)中显示出了出色的零样本定位能力。 不幸的是,SAM 无法生成语义标签,这是与定位相当的基本任务。多标签图像识别是识别单个图像的多个标签的目标,也称为图像标记。由于图像包含各种标签,包括对象、场景、属性和活动,图像标记是一个重要且有用的计算机视觉问题。 以下是阻碍图像标记的两个主要因素: 高质量数据的广泛收集。目前仍缺乏一个能够半自动或自动注释各类大量照片的高效数据注释引擎,以及一个标准化和全面的标记系统。 建立起足够的开放词汇表和强大的模型,采用高效灵活的模型设计,利用大规模的弱监督数据。 识别任何模型(RAM)是一个强大的图像标记基础模型,由OPPO研究院、国际数字经济学院(IDEA)和AI2机器人的研究人员刚刚推出。在数据方面,RAM可以克服标签系统不足、数据集不足、数据引擎低效和架构限制等问题。 研究人员首先创建了标准的全球命名约定。他们使用学术数据集(分类、检测和分割)和商业标记工具(Google、Microsoft和Apple)来丰富他们的标记系统。通过将所有可用的公共标记与常见的基于文本的标记相结合,标记方法产生6,449个标签,共同解决了绝大部分用例。研究人员表示,可以使用开放集识别来识别其余的开放词汇标签。 自动注释大规模照片使用标签系统是一项具有挑战性的任务。图像标记的提出方法受到了该领域以前的工作的启发,该领域使用大规模的公共图像文本对来训练强大的视觉模型。为了将这些大量的图片文本数据用于标记,团队采用了自动文本语义解析来提取图像标签。通过这种方法,他们可以在不依赖手动注释的情况下,基于图像文本对获得大量的图片标签。 因为互联网来源的图像文本组合往往存在随机噪声,所以团队创建了数据标记引擎来提高注释准确性。为了解决缺少标签的问题,他们采用现有模型来产生补充分类。在处理错误标记区域时,他们确定图像中与不同标签相关的某些部分,然后使用区域聚类方法查找和消除同一类别内的异常值。此外,还删除做出不一致预测的标签,以获得更精确的注释。 RAM通过为标签搜索添加语义上下文,允许对新颖类别进行泛化。RAM的识别能力可以通过这种模型架构为任何视觉数据集提高。通过展示一个在嘈杂的、无注释的数据上训练的通用模型可以击败高度监督的模型,RAM引入了一种新的图像标记范式。RAM需要一个免费且公开可用的没有注释的数据集。RAM的最强大版本只需在8个A100 GPU上训练三天。 据团队表示,RAM仍有改进的空间。这包括运行多个数据引擎迭代、增加骨干参数以提高模型容量,以及扩展训练数据集超过1400万张照片,以更好地覆盖不同领域。
Leave a Comment基于互联网规模数据训练的大型文本到视频模型展现出了从任意编写描述生成高保真电影的非凡能力。然而,微调预训练的巨型模型可能代价高昂,难以将这些模型适应于具有有限领域特定数据的应用,例如动画或机器人视频。Google DeepMind、加州大学伯克利分校、麻省理工学院和艾伯塔大学的研究人员探索了如何在不进行微调的情况下自定义大型预训练文本到视频模型以适应各种下游领域和任务,灵感来自于一个小型可修改组件(如提示、前缀微调)如何使大型语言模型能够执行新任务而不需要访问模型权重。为了解决这个问题,他们提出了Video Adapter,一种通过使用大型预训练视频扩散模型的得分函数作为先验概率来生成特定任务的微小视频模型的方法。实验表明,Video Adapter可以使用预训练模型的参数仅占1.25%,以包含广泛的知识并在特定任务的微小视频模型中保持高保真度。可以使用Video Adapter生成高质量的特定任务的电影,包括但不限于动画、自我中心建模以及模拟和真实世界机器人数据的建模。 研究人员在各种视频创作工作中测试了Video Adapter。在困难的Ego4D数据和机器人Bridge数据上,Video Adapter生成的视频比高质量的预训练大型视频模型具有更好的FVD和Inception Scores,同时使用的参数少达80倍。研究人员定性地证明了Video Adapter可以生成类别特定的视频,如科幻电影和动画电影。此外,研究的作者展示了Video Adapter如何通过建模真实和模拟机器人电影并允许个性化风格化来为弥合机器人的臭名昭着的模拟到实际差距铺平道路。 主要特点 为了实现高质量且多功能的视频合成而无需在预训练模型上进行梯度更新,Video Adapter在采样时将预训练文本到视频模型的分数与领域特定微小模型的分数(仅使用1%参数)组合。 使用Video Adapter可以轻松地将预训练视频模型适应于人类和机器人数据的电影。 在相同的TPU小时数下,Video Adapter获得的FVD、FID和Inception Scores高于预训练模型和特定任务模型。 Video Adapter的潜在用途范围从动漫制作到领域随机化,以弥合机器人中的模拟现实差距。 与从互联网数据预训练的巨型视频模型相反,Video Adapter需要训练具有数量级更少参数的微小领域特定文本到视频模型。Video Adapter通过在采样期间组成预训练和领域特定视频模型的分数来实现高质量和可适应的视频合成。 使用Video…
Leave a Comment如果你在经营一个 Shopify 的在线商店,要想保持领先可谓是十分困难的。在一个不断有最尖端的技术和以人工智能为驱动的商店功能被推出的时代,很难判断哪些部分能够为你的 Shopify 网站提供所需的优势。 好消息是,许多 Shopify 应用程序利用人工智能为你提供个性化支持、基于大数据的决策、机器学习模型、算法等等。 以下是一些值得检查的应用程序: Dialogue AI Automatic Personalization Shopify 的 Dialogue AI Automatic Personalization 旨在提高平台用户的平均订单价值、平均会话持续时间和转化率。它借助人工智能分析客户的在线活动,分析客户的偏好。Dialogue AI 提供相关和互补的商品推荐,以提高订单的平均价值。它会自动生成高利润产品的横幅,以取悦客户并增加销量。你可以使用它制作“如何”视频,向客户展示你的商品如何解决他们的问题。你所要做的就是创建视频、上传内容,让工具把它们放在潜在客户可以快速找到的地方。Dialogue AI 的自动个性化与各种平台和应用程序兼容。 Suggestr…
Leave a Comment在最近发表在《自然机器智能》杂志的一项研究中,荷兰科技大学和瑞士洛桑联邦理工学院的研究人员深入探讨了OpenAI的ChatGPT平台的能力。好奇心促使他们调查这种先进的语言模型是否可以扩展其范围,超越生成诗歌、论文和书籍,协助机器人的设计过程。该团队试图确定在此方式下与人工智能合作的优势和潜在风险。 TU Delft的助理教授Cosimo Della Santina,与来自EPFL的博士生Francesco Stella和Josie Hughes,与ChatGPT展开了对话,重点关注粮食供应的增强。他们共同的头脑风暴会议使他们构思出了番茄收获机器人的想法,这是一个真正有用的创造。 研究人员发现ChatGPT在概念阶段的贡献尤为宝贵,因为它扩展了他们的专业知识。Stella解释说,这种语言模型提供了哪种作物对自动化最具经济可行性的见解。ChatGPT与之交互为设计过程中的明智决策铺平了道路。 此外,在实施阶段,ChatGPT提供了有用的建议,引导研究人员使用硅胶或橡胶作为夹具,以防止番茄被压碎。AI模型还建议采用Dynamixel电机,这是驱动机器人的最佳解决方案。这些协作努力最终导致了一个能够有效收获番茄的机械臂。 虽然研究人员发现协作设计过程丰富而积极,但他们注意到了自己作为工程师角色的变化。他们开始花更多时间进行技术任务,而ChatGPT则承担了共同研究员的角色。该团队探讨了人类和大型语言模型(LLMs)之间不同程度的合作,ChatGPT是其中之一的例子。 在最极端的情况下,AI提供所有输入,人类仅仅是遵循其指导,LLM实际上扮演研究员和工程师的角色。相反,人类则承担管理角色,负责定义设计目标。然而,这种情况在当前的LLMs中尚不可行,其可取性仍然存在争议。 Della Santina提出的一个潜在问题是机器人领域的错误信息和偏见的风险。LLMs基于概率生成响应,如果没有验证或验证不当,可能会导致误导或不准确的信息。研究人员还承认与LLMs合作的重要问题,包括抄袭、可追溯性和知识产权。 通过这种合作开发的番茄收获机器人将成为Della Santina、Stella和Hughes进一步研究机器人领域的有价值工具。此外,他们打算探索AI模型在设计其机器人身体方面的自主性。该团队认为,未来的一个开放性问题在于确定LLMs如何在不妨碍创造性思维和创新的情况下协助机器人开发人员解决21世纪的挑战。 随着研究人员继续利用像ChatGPT这样的AI模型的力量,他们的发现揭示了协作设计过程所涉及的潜在利益和风险。LLMs增强人类专业知识和扩大知识范围的能力是不可否认的。然而,必须谨慎行事,以确保准确性、透明度和保护机器人领域的创造性思维。通过在人类智慧和AI协助之间取得平衡,机器人领域可以应对未来的挑战,同时最小化潜在的风险。
Leave a Comment人工智能在我们日常遇到的所有主要用例和应用中都是革命性的。其中一个领域围绕着大量的音频和视觉媒体。想想所有能够生成有趣视频、艺术性惊人的图像、复制名人声音或只需一键记录整个讲座的人工智能应用程序。所有这些模型都需要大量的数据进行训练。大多数成功的系统都依赖于带注释的数据集来自我教育。 最大的挑战是存储和注释此数据,并将其转换为模型可以摄入的可用数据点。说起来容易做起来难,公司需要帮助每年收集并创建金标准数据点。 现在,来自麻省理工学院、麻省理工-IBM沃森人工智能实验室、IBM研究和其他机构的研究人员已经开发出一种能够有效解决这些问题的开创性技术,即分析未标记的音频和视觉数据。这种模型具有很大的潜力和潜力,可以改善当前模型的训练方式。这种方法与许多模型共鸣,例如语音识别模型、转录和音频创建引擎以及对象检测。它结合了两种自我监督学习体系结构:对比学习和遮蔽数据建模。这种方法遵循一个基本思想:复制人类如何感知和理解世界,然后复制相同的行为。 正如麻省理工学院的博士后Yuan Gong所解释的那样,自我监督学习非常重要,因为如果你看看人类如何收集和学习数据,其中很大一部分是没有直接监督的。目标是在机器中实现相同的过程,使它们能够从未标记的数据中学习尽可能多的功能。这种训练成为可以利用和改进的强大基础,具体取决于用例的监督学习或强化学习。 这里使用的技术是对比音频 – 视觉遮蔽自编码器(CAV-MAE),它使用神经网络从音频和视觉数据中提取和映射有意义的潜在表示。这些模型可以在10秒YouTube剪辑的大型数据集上进行训练,利用音频和视频组件。研究人员声称,CAV-MAE比任何其他先前方法都要好得多,因为它明确强调了音频和视觉数据之间的关联,而其他方法则没有。 CAV-MAE方法包括两种方法:遮蔽数据建模和对比学习。遮蔽数据建模包括: 获取视频及其匹配的音频波形。 将音频转换为频谱图。 遮蔽75%的音频和视频数据。 然后,该模型通过联合编码器/解码器恢复缺失的数据。重建损失,即衡量重建预测和原始音频-视觉组合之间差异的损失,用于训练模型。这种方法的主要目的是将相似的表示映射到彼此靠近的位置。它通过关联音频和视频数据的相关部分来实现,例如连接口部的口型。 将基于CAV-MAE的模型与其他模型进行测试证明非常有启发性。测试是在音频视频检索和音频-视觉分类任务上进行的。结果表明,对比学习和遮蔽数据建模是互补的方法。 CAV-MAE在事件分类方面优于以前的技术,并保持与使用行业级计算资源训练的模型竞争力。此外,多模态数据显着提高了单模态表示的微调和音频事件分类任务的性能。 麻省理工学院的研究人员认为,CAV-MAE代表了自我监督音频-视觉学习进展的突破。他们设想,它的用例可以涵盖动作识别,包括运动、教育、娱乐、摩托车和公共安全,跨语言自动语音识别和音频-视频生成。虽然当前的方法侧重于音频-视觉数据,但研究人员的目标是将其扩展到其他模态,认识到人类感知涉及音频和视觉提示以外的多种感官。 很有意思看到这种方法随着时间的推移表现如何,并且有多少现有模型尝试纳入这种技术。 研究人员希望随着机器学习的进步,像CAV-MAE这样的技术将变得越来越有价值,使模型能够更好地理解和解释世界。
Leave a Comment日历,特别是谷歌日历,既有积极的方面,也有消极的方面。例如,它们可以帮助计划聚会,跟踪个人任务所花费的时间,甚至与朋友保持联系。然而,我们的日程表很容易快速失控。仅凭每周日历上一大堆蓝色复选框来安排行程可能非常让人恼火,这就是我们在这里汇集的原因:分享我们发现的最佳日历资源。 当你考虑到现在美国人平均花费15%到50%的时间在会议上时,很容易看出为什么安排日程可能会成为一场噩梦。以下是一些可以帮助您按时完成更多工作的最佳应用程序。我们的一些首选如下: Calendly Calendly 是默认的会议调度程序,有很好的理由。它使用简单可靠,安装默认包含的工具超出您所需的。Calendly 用户可以通过创建预订页面来“设置并忘记”,在邀请人可以从各种会议格式中选择,查看您的可用性并与您安排会议。这是对于那些收到很多会议请求并希望快速明确地回复的人来说是完美的工具。 Calendar Calendar 是一个完整的日历工具,而不仅仅是一个会议组织者。界面高度类似于 Google 日历,并提供在线和移动格式。它也是一个会议调度程序,因此您可以设置您的预订时间段并向他人发送链接。与将其优秀的约会制作功能锁定在付费墙后面的 Google 不同,Calendar 为您提供所有免费功能。使用免费计划,您可以将应用程序链接到现有日历服务之一,并创建最多两个完全可自定义的安排时间段。 Hive Hive 是一款将您的日历与项目管理数据结合在一个方便的位置的应用程序。Hive 的日历视图可以帮助监控具有严格截止日期的项目。该功能提供了对任何任务的灵活视图。根据您的需要,可以以多种不同的格式显示您的日历。Hive Calendar 还有助于进行高效的会议运作。将您的日历与 Hive 同步可以轻松记录谁将参加会议以及其他相关详细信息。通过将其连接到您的 Google 或 Microsoft…
Leave a Comment尽管现在有越来越多的替代技术,但密码仍然是首选的身份验证方法,这主要是因为密码易于使用和记忆。此外,大多数程序在其他安全措施无法生效时使用密码作为备用计划。密码泄露是组织(和个人)面临的最大风险之一,因为它们非常常见。密码泄漏不仅可以为黑客提供访问系统的权限,还可以让研究人员寻找用户生成密码中隐藏的模式,这些模式可能用于开发和改进密码破解工具。 机器学习(ML)在从大规模密码泄露中提取和学习重要特征方面发挥了(并将继续发挥)重要作用,主要对两个主要领域的研究做出了实质性贡献:(1)密码猜测和(2)密码强度估算算法。同时,一类称为大型语言模型(LLMs)的ML模型在处理和理解自然语言(NLU)方面非常成功。基于Transformer架构的GPT模型、PaLM和LLaMA是这些模型的一些著名示例。 鉴于它们以前的成就,他们问:LLMs能够多好地识别人类生成密码复杂性中隐藏的基本特征和提示?瑞士苏黎世联邦理工学院、瑞士数据科学中心和纽约SRI国际的研究人员提供并仔细评估了PassGPT,这是一种基于LLM的密码猜测模型,为此提供了一种解决方案。PassGPT是一种离线密码猜测模型,基于GPT-2架构,可用于密码猜测和密码强度评估。 与以前的深度生成模型相比,PassGPT猜测到了20%更多未知密码,并展现了对独特泄漏的强大概括能力。此外,他们将向量量化添加到PassGPT中以进行改进。PassVQT是结果架构,可以使生成的密码更加复杂。与先前的深度生成模型创建整个密码不同,PassGPT逐渐对每个字符进行抽样,从而引入了有导向的密码创建的不同问题。在这种技术中,使用任意限制来对生成的密码进行抽样,从而确保更详细(字符级)的搜索空间有导向的探索。最后,PassGPT明确表示了密码的概率分布,与GAN不同。 他们展示了密码概率与现代密码强度估算器之间的一致性:PassGPT赋予更强的密码较低的概率。他们还寻找那些虽然被强度估算器认为是“强”的密码,但是通过生成技术很容易猜测的密码。他们展示了PassGPT的密码概率如何用于提高当前强度估算器的准确性。
Leave a Comment大型语言模型(LLMs)彻底改变了自然语言生成领域。传统的微调方法用于响应下游任务需要访问LLMs的参数,这限制了它们在强大的黑匣子LLMs(如ChatGPT)上的使用,这些LLMs仅提供API。因此,最近的研究重点关注提示技术,通过提供许多任务特定的指示和演示来指导生成结果,证明提示可以显著影响结果,因此需要仔细设计。 虽然提示原则上是一种灵活的方法,但它今天通常使用的方式有些严格。但是在语言学习中并非如此;人们可以通过接受和回应积极和消极的反馈来提高语言技能。 中国东北大学、微软亚洲研究院、微软Azure翻译和NiuTrans研究的一项新研究邀请LLMs重新考虑并学习如何发现其输出中的任何缺陷,以确定决策容量的演变方式。为了在生成之前促进错误识别,他们设计了一种名为“Deliberate then Generate(DTG)”的新提示模板,其中包括指示和可能的输出。 确定候选人是DTG设计的重要部分。使用第二个基准系统的数据是一个简单的选择,因为它的输出通常具有良好的质量,只需要进行小的调整即可有效使用。因此,它无法促进有效的决策。研究人员建议使用与源材料无关的文本,例如随机文本选择或空字符串。由于这种方法成功地触发了LLMs的决策能力,因此DTG可以轻松适应各种文本生产工作,只需要对提示进行轻微修改。从心理学的角度来看,这项工作受到了语言习得的典型案例的启发,该案例在发展语言能力时考虑了负面证据。 团队进行了大量实验,以显示所提出的DTG提示相对于传统提示可靠地增强了GPT3.5(text-DaVinci-003)和GPT4的模型性能。这在七个文本生成任务和20多个数据集中都成立。机器翻译、简化和常识创造只是一些文本生成任务,其中由DTG提示的GPT实现了各种数据集的最先进性能。建议的DTG提示确实允许在生成之前进行决策和错误避免,这一点通过广泛的消融研究和统计误差分析得到证明。 研究人员计划在未来的工作中利用任务特定的领域知识来进一步提高DTG提示的效果。
Leave a Comment通过使用户连接工具和服务,能够遵循图形用户界面(GUI)指令的系统可以自动化繁琐的工作,增加可访问性,并增加数字助手的实用性。 许多基于GUI的数字代理实现都依赖于HTML衍生的文本表示,这些表示并不总是容易获取。人们通过感知视觉输入并使用标准的鼠标和键盘快捷键来使用GUI;他们不需要查看应用程序的源代码来弄清楚程序的工作原理。无论底层技术如何,他们都可以通过直观的图形用户界面快速掌握新的程序。 雅达利游戏系统只是一个例子,说明了一个从仅像素输入中学习的系统可以表现得多么出色。然而,在尝试基于GUI的指令跟随任务时,从仅像素输入中学习时会面临许多障碍,这与通用的低级动作相结合。要对GUI进行视觉解释,必须熟悉界面的结构,能够识别和解释视觉定位的自然语言,识别和识别视觉元素,并预测这些元素的功能和交互方法。 谷歌DeepMind和谷歌介绍了PIX2ACT,这是一个模型,它以基于像素的截屏作为输入,并选择与基本鼠标和键盘控件匹配的操作。研究小组首次证明,一个只有像素输入和通用操作空间的代理可以超过人类众包工作者,并达到使用DOM信息和相当数量的人类演示的最先进代理的性能。 为此,研究人员扩展了PIX2STRUCT。这个基于Transformer的图像到文本模型已经通过大规模在线数据进行了训练,将截图转换为基于HTML的结构化表示。PIX2ACT应用树搜索来反复构建新的专家轨迹进行训练,采用人类演示和与环境的交互的组合。 团队在这里的努力包括创建一个通用的基于浏览器的环境框架,并使用标准的跨域观察和操作格式调整了两个基准数据集MiniWob++和WebShop,以在其环境中使用。使用他们提出的选项(不带DOM的CC-Net),PIX2ACT在MiniWob++上的表现比人类众包工作者高出约四倍。削减实验表明,PIX2STRUCT的基于像素的预训练对PIX2ACT的性能至关重要。 对于基于GUI的指令跟随像素输入,研究结果表明PIX2STRUCT通过屏幕截图解析的预训练的有效性。在行为克隆环境中进行预训练将MiniWob++和WebShop任务得分分别提高了17.1和46.7。尽管与使用基于HTML的输入和任务特定操作的较大语言模型相比仍存在性能劣势,但这项工作为这个环境设置了第一个基准。
Leave a Comment准确地分割多个对象对于各种场景理解应用非常重要,例如图像/视频处理、机器人感知和AR/VR。最近发布了Segment Anything Model (SAM),这是一个广泛的图像分割基本视觉模型。它使用十亿级别的掩码标签进行训练。SAM可以使用一系列点、边界框或粗略掩码作为输入,在多个上下文中分割各种对象、组件和可视结构。它的零-shot分割能力引发了快速的范式变化,因为它们可以在许多应用程序中仅使用一些基本提示。 尽管其表现出色,但SAM的分割结果仍然需要改进。SAM存在两个重要问题:1)粗糙的掩码边缘,经常遗漏细小物体结构的分割,如图1所示。2)在困难情况下,错误的预测、损坏的掩码或显著的不准确性。这通常与SAM的误读细小结构有关,例如图中右上角的风筝线。基本分割方法(如SAM)的应用和效果受到这些错误的严重限制,特别是对于自动注释和图像/视频编辑作业,其中极其精确的图像掩码至关重要。 图1:比较了SAM和我们的HQ-SAM的预测掩码,使用了单个红色框或对象上的多个点的输入提示。具有极其精确边界的HQ-SAM生成明显更详细的结果。在最右边的一列中,SAM误读了风筝线的细小结构,并为输入框提示生成了大量的错误和破损孔。 来自苏黎世联邦理工学院和香港科技大学的研究人员建议HQ-SAM,它保持了原始SAM的强大零-shot能力和灵活性,同时能够预测非常准确的分割掩码,即使在极其困难的情况下(参见图1)。他们建议对SAM进行小的调整,添加少于0.5%的参数,以增加其高质量分割的能力,同时保持效率和零-shot性能。直接调整SAM解码器或添加新的解码器模块会对零-shot分割的一般布局造成严重的影响。因此,他们建议HQ-SAM设计完全保留零-shot效率,与并重用当前学习的SAM结构相集成。 除了原始提示和输出令牌外,他们还创建了一个可学习的HQ-Output Token,馈送到SAM的掩码解码器中。与原始输出令牌相比,他们的HQ-Output Token及其相关的MLP层被教授预测高质量的分割掩码。其次,他们的HQ-Output Token在改进的特征集上运行,以生成精确的掩码信息,而不仅仅是使用SAM的掩码解码器功能。他们将SAM的掩码解码器特征与其ViT编码器的早期和晚期特征图结合使用,以使用全局语义上下文和细粒度的本地特征。 在训练期间,完整的预训练SAM参数被冻结,只更新HQ-Output Token、相关的三层MLP和一个小型特征融合块。学习准确分割所需的是一个具有复杂几何形状的各种对象的精确掩码注释的数据集。使用11M张照片和类似于SAM的模型自动创建的1.1亿个掩码的SA-1B数据集来训练SAM。然而,图1中SAM的性能表明,使用这个大型数据集具有重大的经济后果。它无法产生研究所需的高质量掩码生成。 因此,他们创建了HQSeg-44K,一个新的数据集,包括44K个高精度细粒度图像掩码注释。他们将六个现有的图像数据集与非常精确的掩码注释结合起来,以创建HQSeg-44K,涵盖了1000多个不同的语义类别。由于数据集较小,以及他们简单的集成设计,HQ-SAM可以在8个RTX 3090 GPU上进行训练,时间不到4小时。他们进行了严格的定量和定性实验研究,以验证HQ-SAM的有效性。 他们在来自各种下游任务的九个不同分割数据集上将HQ-SAM与SAM进行了比较,其中有七个在零-shot转移协议下,包括COCO、UVO、LVIS、HQ-YTVIS、BIG、COIFT和HR-SOD。这一彻底的分析表明,与SAM相比,所提出的HQ-SAM可以制造出更高质量的掩模,同时仍具有零-shot能力。他们的GitHub页面上有一个虚拟演示。 通过引入对原始SAM的可忽略开销,他们提出了第一个高质量的零-shot分割模型。 查看论文和GitHub。不要忘记加入我们的23k+ ML SubReddit、Discord频道和电子邮件通讯,在这里我们分享最新的AI研究新闻、酷炫的AI项目等等。如果您对上述文章有任何问题或我们漏掉了任何东西,请随时发送电子邮件至Asif@marktechpost.com 查看AI工具俱乐部中的100个AI工具 这篇文章最初发表在MarkTechPost上。
Leave a Comment谷歌的一组研究人员最近与 Muse 的快速文本到图像模型合作开发了创新的神经网络 StyleDrop。这项开创性的技术允许用户生成忠实地体现特定视觉风格的图像,捕捉细微的差别和复杂性。通过选择具有所需风格的原始图像,用户可以将其无缝地转移到新图像,同时保留所选择的风格的所有独特特征。StyleDrop 的多功能性还可用于与完全不同的图像一起使用,使用户能够将儿童绘画转换成风格化的标志或角色。 StyleDrop 由 Muse 先进的生成视觉转换器驱动,使用用户反馈、生成图像和 Clip 分数的组合进行训练。神经网络是通过最小的可训练参数进行微调的,仅占总模型参数的不到 1%。通过迭代训练,StyleDrop 不断提高生成图像的质量,确保在短短几分钟内获得令人印象深刻的结果。 这个创新工具对于寻求开发其独特视觉风格的品牌来说是非常宝贵的。有了 StyleDrop,创意团队和设计师可以高效地以其所偏爱的方式原型设计想法,使其成为不可或缺的资产。对 StyleDrop 的性能进行了广泛的研究,将其与其他方法(如 DreamBooth、Imagen 上的文本反转和 Stable Diffusion)进行了比较。结果一致展示了 StyleDrop 的卓越性,提供了高质量的图像,紧密地符合用户指定的风格。 StyleDrop 的图像生成过程依赖于用户提供的基于文本的提示。StyleDrop…
Leave a Comment尽管被广泛赞誉为能够生成自然语言文本的能力,但大型语言模型(LLMs)存在数据记忆、偏见和不适当语言等潜在负面影响,这引起了人们对其潜在负面影响的担忧。由于LLMs的复杂性和不断发展的能力,验证和纠正这些担忧是具有挑战性的。在这项研究中,作者提出了ReLM,这是一个通过传统的正则表达式检查和查询LLMs的系统。通过ReLM,许多语言模型评估可以通过将复杂的评估方法简化为正则表达式查询来形式化和实现。 通过对记忆、性别偏见、毒性和语言理解的查询结果,ReLM可以将统计和快速调整覆盖范围扩展到比最先进的即席搜索多达15倍。对于日益增长的LLM验证挑战,ReLM提供了一个有竞争力和广义的起点。 ReLM是第一个允许从整体上描述测试模式集合以直接测量LLM行为的解决方案。ReLM的成功源于使用解空间的紧凑图形表示,该解空间是从正则表达式导出的,然后在执行之前被编译成LLM特定的表示。因此,用户不需要熟悉LLM的内部工作方式;测试产生的结果与如果所有可能的字符串存在于现实世界中一样。除了建立ReLM之外,作者还展示了如何在各种LLM评估任务中使用字符串模式。 Python用户程序可以使用ReLM框架;ReLM公开了这些程序可以使用的特定API。要使用ReLM,软件需要发送一个查询对象和在第三方库(如Hugging Face Transformers(Wolf等,2020))中定义的LLM。正则表达式、LLM决策规则和遍历算法都存储在查询对象中。 在编写代码的同时,ReLM的用户可以将验证任务分为两个部分: 使用正则表达式正式描述一组字符串的子集。 引导引擎通过字符串枚举和评估的过程。 研究人员表明,ReLM可以快速、表达地执行常见查询,从而显著减少LLMs所需的验证工作量。最重要的是: 形式上概述了将正则表达式应用于LLM预测。与可数的多项选择问题不同,正则表达式可以描述具有不确定大小的集合。与有时会产生模糊响应的开放式问题相比,ReLM的结果始终是清晰的。 识别和构建了LLM推理查询的条件和无条件类别。许多令牌序列可以表示一个固定的查询字符串,这激发了一种压缩表示的方法,因为学者在研究无条件生成时已经证明了这一点。他们是第一组使用自动机来容纳这些变体编码的人。 设计和实现了一个有效将正则表达式转换为有限自动机的正则表达式推理引擎。研究人员使用了最短路径和随机图遍历,实现了具有竞争力的GPU利用率和运行时间(几秒钟)。 作者使用GPT-2模型说明了在LLM验证的上下文中,ReLM在评估记忆、性别偏见、毒性和语言理解任务方面的价值。 更多细节可在https://github.com/mkuchnik/relm中找到。 最后 由于自然语言的复杂性和LLMs的不断增长,验证大型语言模型(LLMs)的抽象性变得越来越必要。为了使用LLMs执行验证任务,研究人员提出了ReLM,这是第一个可编程框架。使用ReLM,您可以在正则表达式中编写逻辑查询,然后将其转换为LLM语言中的可执行形式。ReLM可以以比以前的方法节省2.5倍的数据,或以比以前的方法快15倍,或以提供额外见解的方式运行记忆、性别偏见、毒性和语言理解任务。虽然ReLM的结果强烈反对依赖即席LLM验证,但系统地解决这些问题引入了其他困难(例如,从左到右的自回归解码有利于后缀完成)。我们的长期目标包括提高ReLM的查询优化能力并将其带到更多模型系列中。
Leave a CommentGPT模型是OpenAI开发的ChatGPT聊天机器人背后的变压器架构,它基于通过仅几个例子学习任务的概念。这种称为上下文学习的方法,使模型避免了使用数千个输入文本进行微调,只使用特定于任务的示例作为输入就能学习在不同任务上表现良好。针对特定任务微调模型可能非常昂贵,因为GPT是一个具有数十亿参数的“大”语言模型,由于在微调期间需要更新所有模型参数,因此相对而言成本较高。 上下文学习在代码生成、问答、机器翻译等方面得到了有效应用,但在图机器学习任务中仍然存在局限性和挑战。一些图机器学习任务包括识别在社交网络上传播半真半假或虚假新闻的传播者和跨电子商务网站的产品推荐。上下文学习在制定和建模这些任务的过程中面临局限性,无法形成和建模统一的任务表示,使模型能够处理各种任务而无需重新训练或参数调整。 最近,一组研究人员在其研究论文中介绍了PRODIGY,这是一个预训练框架,可实现在图形上下文中学习。PRODIGY(Pretraining Over Diverse In-Context Graph Systems)使用提示图表示形式来制定上下文学习。提示图作为上下文图任务表示,集成了节点、边缘和图级机器学习任务的建模。提示网络将输入节点或边缘与其他标签节点连接,并对提示示例和查询进行上下文化。这种互连表示允许指定各种图形机器学习任务到同一模型中,而不受图形大小的限制。 由斯坦福大学和卢布尔雅那大学的研究人员提出,团队设计了一种图形神经网络架构,专门用于处理提示图,并有效地对图结构化数据进行建模和学习。所提出的设计利用GNN教授提示图的节点和边缘的表示。此外,还引入了一系列上下文预训练目标,以指导学习过程,提供监督信号,使模型能够捕获相关的图形模式并在不同的任务中进行推广。 为了评估PRODIGY的性能和有效性,作者在涉及引文网络和知识图的任务上进行了实验。引文网络代表科学论文之间的关系,而知识图则捕获有关不同领域的结构化信息。使用上下文学习对预训练模型进行了测试,并将结果与硬编码适应性的对比预训练基线和使用有限数据的标准微调进行了比较。PRODIGY在准确性方面平均优于对比预训练基线的硬编码适应性18%。当应用上下文学习时,与标准微调相比,平均提高了33%。 总之,PRODIGY在基于图形的场景中似乎很有前途,如图机器学习应用中的上下文学习。它甚至可以在以前未见过的图形上执行下游分类任务,使其更加有效和有益。
Leave a Comment