Press "Enter" to skip to content

四海吧 Posts

认识这位创造者:软件工程师使用NVIDIA Jetson打造自动驾驶滑板公园

Kirk Kaiser Kirk Kaiser在玩家扮演骑自行车递送报纸并遇到各种障碍的视频游戏《报童》中度过了童年。 这启发了这位软件开发者使用NVIDIA Jetson平台进行边缘人工智能和机器人技术的最新项目 – 自动滑板坡道。 “我想让《报童》的荒谬和乐趣成为我的生活的一部分,”佛罗里达州那不勒斯的狂热滑板运动员Kaiser说,“有一天我和我的狗本吉一起滑板,我突然想到,‘如果我有一个可以带着我滑板的坡道呢?’” 现在,他正在构建这个想法——这项技术可能会导致一个便携式自动滑板公园。 到目前为止,他已经开发出了一种可以将坡道提高并使其与地面保持平衡的电动平台。它可以使用通过蓝牙连接到NVIDIA Jetson Nano Developer Kit的PS4控制器进行操控。 现在,他正在收集数据来训练AI模型,使平台能够识别街道和障碍物,并最终在新的NVIDIA Jetson Orin Nano Developer Kit的帮助下完全自主。 这是一个项目,当他没有沉浸在作为Gitpod开发者关系主管的工作中时,他会做的事情。 关于创作者 Kaiser在年轻时学习了软件工程,并获得了一所专门从事技术的著名高中的奖学金。在那里,他磨练了自己的编程技能,然后在早年花费时间以完全不同的方式看待和体验世界。 18岁时,他背着行囊,在哥斯达黎加的一个野生动物保护区生活了一年,在那里他在一个永久耕作的农场上工作,种植食物和收集雨水饮用。之后搬到佛蒙特州,Kaiser在一个禅佛教徒的农场里耕种了一年,然后穿过了四个州的阿巴拉契亚山脉,走了1000英里的路。…

Leave a Comment

最佳AI销售工具(2023年)

人工智能是未来的浪潮,有可能彻底改变和优化各种公司流程。无论是信息技术(IT)、客户服务、人力资源(HR)、销售和营销等各个部门,人工智能都在日益发挥着重要作用,提高运营速度和效率,抓住潜在机会。 本文详细介绍了由人工智能支持的销售工具。由于需要投入大量精力来识别最佳潜在客户、进行有意义的交流并最终达成交易,因此始终保持销售和业绩的一致性很困难。 这就是人工智能的用武之地:自动化耗时的销售流程。 在最佳人工智能销售工具中,包括: Oliv AI 通过人工智能销售助手Oliv AI,可以跟踪和管理销售流程的采用。Oliv AI会听取数小时的销售录音,识别最成功的发现对话,并确定常见的客户关注和问题,以创建定制的洞察力。它旨在激励销售人员在进行冷呼叫之前进行充分准备。此外,它向销售人员提供实时的对话洞察,指导他们采取下一步智能行动,为客户提供统一的积极购买体验。Oliv AI 保持Salesforce最新状态,并保证良好的CRM卫生情况。此外,它通过将许多销售工具集成到一个地方来简化销售过程。这包括客户关系管理系统、会议记录软件、视频会议和内容管理系统。 Pipedrive Pipedrive的人工智能销售助手通过审查以前的销售数据,推荐何时采取行动来最大化公司收益。这就像拥有一位销售导师,他总是关注你的最佳利益并根据你的表现提供建议。销售助手提供的反馈将所有警报和通知汇总在一个位置,促进更大的公开性和团队合作,同时使所有人保持在同一页面上更加简单。此外,它每周向您提供报告,以查看您的进展,以了解您的结果和表现如何随时间变化。通过使用方便的图表比较结果,您可以确定自己是否落后或朝着目标迈出了巨大的步伐。  Regie AI Regie AI是一款由人工智能驱动的销售外展解决方案,可以快速高效地向前景和客户发送定制的销售信息。这个工具非常适合销售发展人员,以提高入站线索响应率、开放电子邮件率和会议预订率,因为它可以比手动电子邮件序列快10倍创建超个性化的冷电子邮件。通过自动化任务,如起草一次性电子邮件以推动交易,为电话和领英InMails编写自定义脚本,并将经过批准的营销材料整合到消息中,它简化了您的销售代表的流程。 Regie AI不仅自动化销售外展,还帮助您的收入团队批量创建引人入胜的内容,包括博客和社交媒体帖子、电子邮件序列以及活动和邀请的跟进。 Cresta  Cresta AI是一款由人工智能驱动的联系中心智能产品,为员工提供自助、实时辅导和后续分析,以确保与客户的每次互动都能算数。像Cresta Agent Assist、Cresta Director、Cresta…

Leave a Comment

扫描并查看这些酷炫的人工智能生成的二维码

在人工智能(AI)艺术领域,我们见证了令人瞠目结舌的进步,从令人毛骨悚然的逼真 deepfake 视频到令人惊叹的专辑封面等。然而,在这些非凡的创新中,最近的一项发展引人注目,引起人们的想象力:AI 生成的 QR 码。尽管它们看起来似乎没有什么意义,但这些 QR 码已经演变成了迷人的艺术品,吸引眼球并完美地发挥了它们的功能。Reddit 和 Twitter 用户展示了一系列使用 Stable Diffusion 和其他生成 AI 工具设计的 QR 码设计。在继续阅读下文时别忘了扫描它们。 另请阅读:如何使用生成 AI 免费创建美丽的图片? 功能艺术的诞生 QR 码通常与链接到网站或提供信息相关联。Reddit 用户…

Leave a Comment

在内里还是在外面?修复ImageNet外部分布检测评估(论文摘要)

深度学习模型,特别是图像分类中的区分外部分布(OOD)的检测,解决了识别与模型的训练任务无关的输入的挑战。它旨在防止模型在(OOD)输入上做出自信但不正确的预测,同时准确地对内部分布(ID)输入进行分类。通过区分ID和OOD输入,OOD检测方法增强了模型在实际应用中的鲁棒性和可靠性。 当前图像分类中对OOD检测评估的一个弱点,特别是有关与ImageNet-1K(IN-1K)相关的数据集,是OOD数据集中存在ID对象。这个问题会导致最先进的OOD检测器将ID对象错误地分类为OOD。因此,OOD检测方法的评估受到影响,导致低估实际的OOD检测性能,并不公正地惩罚更有效的OOD检测器。 最近发表了一篇新论文,作者的目标是解决评估OOD检测方法的限制。他们引入了一个新的测试数据集NINCO,其中包含没有任何来自ImageNet-1K(ID)类的对象的OOD样本。他们还提供了合成的“OOD单元测试”,以评估OOD检测器的弱点。该论文在NINCO上评估了各种体系结构和方法,为模型弱点和预训练对OOD检测性能的影响提供了洞见。其目标是提高OOD检测方法的评估和理解。 作者提出创建一个名为NINCO(无ImageNet类对象)的新数据集,以解决评估OOD检测方法的限制。他们从现有或新采集的数据集中精心选择基础类别,考虑它们的非许可解释,以确保它们不是ImageNet-1K(ID)类别的一部分。作者视觉检查基础类别中的每个图像,以删除包含ID对象或OOD类别中没有对象可见的样本。这个手动清理过程确保了更高质量的数据集。 NINCO由64个OOD类别组成,共有5,879个样本,这些样本来自各种数据集,包括SPECIES,PLACES,FOOD-101,CALTECH-101,MYNURSINGHOME,ImageNet-21k以及从iNaturalist.org和其他网站新采集的数据。此外,作者还提供了11个测试OOD数据集中2715个OOD图像的清理版本,以评估潜在的ID污染。 作者还提出使用OOD单元测试,这是一些简单的、合成的图像输入,旨在评估OOD检测的弱点。他们建议将OOD检测器在这些单元测试上的性能分开评估,并计算失败测试的数量(FPR高于用户定义的阈值),并将其与在类似NINCO的测试OOD数据集上的整体评估一起使用。这些单元测试提供了有关检测器在实践中可能遇到的特定弱点的有价值的见解。总体而言,作者提出NINCO作为评估OOD检测方法的高质量数据集,并建议使用OOD单元测试来获得有关检测器弱点的额外见解。 该论文在NINCO数据集和单元测试上对OOD检测方法进行了详细评估。作者分析了各种体系结构和OOD检测方法的性能,揭示了模型弱点和预训练对OOD检测性能的影响。在评估NINCO数据集时,该研究评估了从timm-library获得的不同IN-1K模型和先进的OOD检测方法。基于特征的技术,如Maha、RMaha和ViM,比MSP基线表现更好。Max-Logit和Energy也相对于MSP表现出明显的增强。性能结果基于所选模型和OOD检测方法而异。预训练被证明具有影响力,因为它有助于提高ID性能,并生成用于OOD检测的更优秀的特征嵌入。 总之,该研究解决了图像分类中评估OOD检测方法的限制。它介绍了NINCO数据集,该数据集包含没有来自ImageNet-1K(ID)类的对象的OOD样本,并提出使用OOD单元测试来评估检测器的弱点。在NINCO上的评估展示了不同模型和OOD检测方法的性能,突出了基于特征的技术的有效性和预训练对OOD检测性能的影响。NINCO通过提供一个干净的数据集和有关检测器弱点的见解来提高OOD检测方法的评估和理解。研究结果强调了改进OOD检测评估的重要性,并了解当前方法的优缺点。

Leave a Comment

元信息 (Meta) 发布了令人兴奋的人工智能工具,将在其平台上推出:聊天机器人、照片修改器等等!

Facebook 的母公司 Meta Platforms 展示了其正在开发的创新 AI 工具。这些工具已经向员工展示,包括 ChatGPT 类似的 Messenger 和 WhatsApp 聊天机器人,能够与不同的人物进行对话。 Meta 的高管还公布了 Instagram 的即将推出的功能,如基于文本的照片修改和表情符号贴纸创建。这个预览表明 Meta 的意图是为其每月 38 亿用户提供自己的生成式 AI 工具,追随谷歌、微软和 Snapchat 等竞争对手的脚步。…

Leave a Comment

什么是对话式人工智能的关键区别?

介绍 在今天的世界中,您可能已经观察到,即使是孩子们也被Alexa吸引,驱使他们播放自己喜爱的音乐或电视节目。看到这些小人类使用最新技术之一而不知道它的工作原理是令人惊讶的。这就是人工智能的这个子类型的特殊之处——对话型人工智能。对话型人工智能使计算机和软件应用能够像人类一样听取、理解和回应。试试使用Microsoft的Cortana、Apple的Siri和Google的Bard来理解我们的话。或者前往OpenAI的ChatGPT,这是最新的、最轰动人心的对话型人工智能,它知道一切(直到2021年)。 在此之前,让我们先了解一下这些对话型人工智能模型是如何工作的。此外,我们将讨论它们的交流方式以及它们如何理解您的回应。 什么是对话型人工智能? 基本上,对话型人工智能是一种人工智能(AI)技术,模拟人类对话。它使计算机和软件应用程序能够使用口语/书面语言以类似于人类的方式与人类进行协作。这些系统可以以各种形式实现,例如聊天机器人、虚拟助手、语音激活智能设备和客户支持系统。 对话型人工智能如何工作? 对话型人工智能工作流程是一系列不同的过程。一个典型的对话型人工智能的工作方式如下。 交互式用户界面:它具有一个界面,用户可以输入文本。或者,ASR(自动语音识别)系统可以记录用户的语音并将其转换为文本。 自然语言处理:然后使用NLP技术从用户输入中提取意图,并将其转换为结构化数据进行分析。 自然语言理解(NLU):NLU专注于从用户的输入中提取意图和上下文。它涉及分析信息以确定用户的目标或所需操作。 自然语言生成(NLG):使用自然语言生成(NLG)生成响应进行对话。NLG用于推断上述过程并生成与人类对话的响应。 自然语言理解(NLU) 顾名思义,自然语言理解(NLU)是一种利用计算机软件理解用户输入的人工智能分支。它有助于弥合用户语言和系统处理和适当响应的能力之间的差距。 准确和上下文感知的语言理解的重要性 随着人工智能的进步,越来越多的公司在其运营中采用基于AI的技术。客户服务和管理是AI采用日益增加的领域之一。因此,能够准确分析客户情感和语言的AI正面临上升趋势。这减少了需要人类专业人员与客户互动并花费大量人力小时尝试理解他们的需求。 对话型人工智能系统中的NLU技术 NLU是所有对话型人工智能系统的重要组成部分。为了分类意图、提取实体并理解上下文,NLU技术通常与机器学习一起使用。它使用监督学习、命名实体识别和深度学习。 监督学习:通常使用带标签的训练数据进行NLU模型的训练。训练数据包括用户输入及其相应的意图和实体示例。使用这些数据,NLU模型学会识别输入和所需输出之间的模式和关系。 命名实体识别(NER):NER是一种特定的NLU技术,用于识别和分类文本中的命名实体。它提取实体,如名称、日期、组织或预定义类别。 深度学习:各种NLU任务利用循环神经网络(RNN)和变压器捕捉输入数据中更复杂的模式。它有助于有效地理解意图并提取实体。 智能虚拟助手(IVAs) 您是否与Siri、Cortana或Alexa互动过?如果是的话,那么您一定熟悉虚拟助手是什么。即使您没有,您至少也听说过它们。它们是高级对话型人工智能系统,可以模拟人类交互,协助用户完成各种任务并提供个性化的帮助。 虚拟助手在提供人类化互动方面的作用 虚拟助手在当今现实世界中有很多用途。以下是其中一些。 上下文感知:…

Leave a Comment

一位Spice Money高级数据科学家和机器学习工程师的旅程

介绍 认识Tajinder,一位经验丰富的高级数据科学家和ML工程师,在数据科学这个快速发展的领域中脱颖而出。Tajinder对于解开复杂数据集中隐藏的模式的热情推动了有影响力的结果,将原始数据转化为可操作的智能。在本文中,我们探讨Tajinder的鼓舞人心的成功故事。从卑微的开始到有影响力的人物,展示了坚定的执着、技术娴熟和真正的热情,利用数据推动实现现实世界的结果。 在领先的金融科技公司Spice Money中,Tajinder利用他的数据科学专业知识革命了业务的各个方面。他的贡献优化了内部流程,增强了客户体验,带来了收入,并推动了整体业务增长。Tajinder的经历证明了数据科学和机器学习与正确的心态和决心相结合时的巨大潜力。 图片 让我们进行高级数据科学家的面试吧! AV:请介绍一下自己。简单介绍一下你的教育经历吧。它是如何引领你走向现在的角色的? Tajinder:当然!大家好,我叫Tajinder,是一名高级数据科学家和机器学习工程师。我的教育之旅始于计算机科学的学士学位,我在这里建立了编程、算法和软件开发的坚实基础。 我开始我的职业生涯是作为一名DB开发人员,参与各种软件工程和数据工程项目。在这个角色中,我在数据库管理、查询优化以及创建报告和管理信息系统(MIS)方面积累了丰富的经验。在处理这些项目的过程中,我发现了自己对数据科学领域的浓厚兴趣。 受到对数据分析和探索的热情驱使,我决定深入研究数据科学领域。我开始了自学之旅,学习和掌握了统计分析、机器学习算法和数据可视化技术等领域的知识。为了进一步提高我的技能,我还修读了数据科学和机器学习的其他课程和认证。 随着我不断扩展自己的专业知识,我开始将自己的知识和技能应用于实际问题中。通过实践经验,我磨练了自己在数据预处理、特征工程和模型开发方面的技能。同时,我还熟练掌握了Python、R、TensorFlow和scikit-learn等工具和框架。 随着时间的推移,持续学习使我在数据科学领域承担越来越具有挑战性的角色。我参与了各种项目,从预测建模和客户细分到深度学习系统和异常检测。通过这些经验,我深入了解了数据科学流程的端到端,从数据采集和预处理到模型部署和监控。 目前的角色 作为一名高级数据科学家和ML工程师,我将我的计算机科学、软件工程和数据科学的广泛知识结合起来,设计和实施尖端解决方案。我乐于应对复杂的问题,从数据中发掘有价值的见解和知识,并开发可扩展的机器学习系统,为企业带来有意义的影响。 图片 AV:是什么激励你追求数据科学的职业?你是如何开始进入这个领域的? Tajinder:最初,我被作为DB开发人员和参与创建报告和管理信息系统(MIS)的经历吸引到数据科学领域。与数据一起工作引发了我的好奇心,并让我意识到从大型数据集中提取有价值的见解和知识的巨大潜力。我被使用数据驱动方法解决复杂问题和做出明智决策的想法所吸引。 为了开始进入数据科学领域,我采取了积极的方法。我参与自学,探索各种在线资源、教程和涵盖统计学、机器学习和数据可视化等主题的教科书。我还参加了在线课程,并追求了来自知名机构的认证,以系统化我的知识并在这个领域获得坚实的基础。 同时,我通过个人项目和参加Kaggle比赛寻求实际经验。这些平台提供了在实际场景中应用技能的机会。然后,与其他数据爱好者合作,从社区的集体知识和专业知识中学习。通过参与不同的项目,我在数据预处理、特征工程、模型开发和评估方面获得了宝贵的实践经验。 AV:您在进入数据科学领域时面临了哪些挑战?您是如何克服这些挑战的? Tajinder:在进入这个领域时,我遇到了一些挑战,其中一些与您提到的挑战相一致。让我们深入了解我的挑战以及我如何克服它们。 将问题定义为数据科学问题:最初,我很难将现实世界的问题转化为明确定义的数据科学问题。理解使用数据分析和机器学习可以解决哪些方面需要深入了解问题领域,并与领域专家合作。 为了克服这个挑战,我采取了积极主动的方法。我与主题专家、利益相关者以及在问题领域拥有专业知识的同事进行讨论。通过积极倾听和学习他们的见解,我更好地了解了问题背景,并确定了数据驱动解决方案的机会。我还寻求了经验丰富的数据科学家的指导,帮助我有效地制定问题。这种协作方法有助于弥合技术专业知识和领域知识之间的差距,使我能够更有效地识别和解决数据科学问题。 一个主要的挑战是获得概率论和统计学概念的坚实基础。为了克服这个问题,我花了大量的时间进行自学,并在Udemy上注册了课程,加深了我对统计分析和概率论的理解。 另一个障碍是获得实施机器学习解决方案的实际经验。为了解决这个问题,我参加了机器学习黑客马拉松,主要是在Kaggle和MachineHack上。…

Leave a Comment

Pandas AI:利用人工智能的力量来改变数据分析

在今天的数据驱动世界中,从大量信息中提取有价值的洞见的能力在各个行业中至关重要。人工智能(AI)在各个领域中推动了重大进展,包括数据分析。Pandas AI是流行的Python库Pandas的扩展,正在革新我们探索和理解数据的方式。本文探讨了Pandas如何使用AI和ML来塑造数据分析的未来。 通过AI自动化赋能分析师 Pandas AI通过将AI和机器学习算法纳入数据分析任务中,扩展了著名的Pandas库的功能。通过自动化重复和耗时的过程,分析师可以将重心转移到更高层次的分析和决策上,从而提高生产力和效率。 优化数据分析工作流程 数据清理、预处理和特征工程是数据分析流程中至关重要的步骤。Pandas AI通过自动化这些任务来简化它们,节省了大量时间和精力。分析师可以利用AI算法的强大功能来优化他们的工作流程并确保数据质量。 加速探索性数据分析 探索性数据分析(EDA)是发现数据中的洞见和模式的关键阶段。Pandas AI通过自动化数据探索来加速该过程,使分析师能够高效地发现隐藏的关系和异常。通过获得更深入的洞见,分析师可以做出更明智的决策。 智能缺失数据填充和特征工程 缺失数据是数据分析中常见的挑战。Pandas AI利用AI算法根据数据模式和关系智能填充缺失值。此外,它通过识别和生成捕捉数据中复杂交互和非线性的新变量来自动化特征工程。这确保了全面的分析,同时最大限度地减少了数据间隙。 与机器学习的无缝集成 Pandas AI与机器学习库无缝集成,使分析师能够构建预测模型并从数据中提取更深入的洞见。它通过自动化模型选择、超参数调整和评估来简化机器学习工作流程。分析师可以尝试不同的算法,评估它们的性能,并确定适用于他们特定问题的最准确的模型。 道德考虑和负责任的分析 虽然Pandas AI提供了巨大的潜力,但解决潜在的挑战和道德考虑是很重要的。自动化数据分析任务引发了透明度、问责和偏见等问题。分析师必须在解释和验证AI生成的结果时谨慎行事。他们仍然负责基于工具提供的洞见做出关键决策。 我们的看法 Pandas AI通过利用人工智能的力量,正在革新数据分析领域。通过自动化耗时的任务、加速数据探索和简化机器学习工作流程,Pandas AI使分析师能够高效地提取有价值的洞见。然而,负责任地使用AI至关重要,分析师必须确保结果的透明度、验证和解释。随着我们步入越来越数据中心的未来,Pandas AI将在转变数据分析方面发挥关键作用。它还将塑造我们如何利用人工智能做出有影响力的决策。

Leave a Comment

微软的AI Bing聊天现在可以响应语音命令

微软是人工智能领域的领导者之一,今天宣布了一项突破性的消息。用户现在可以在Bing聊天中利用人工智能的力量,通过语音指令进行通信。这一令人兴奋的发展将沟通提升到了新的高度,使用户可以简单地说出他们的问题,而不是打字。在本文中,我们将探讨微软最新的创新以及它如何改变我们与人工智能互动的方式。 另请阅读:微软通过Bing聊天的大规模更新再次打击了谷歌 基于语音的通信 微软在Bing聊天中引入了一项具有突破性的功能,使用户可以通过语音指令进行通信。在聊天中简单地点击麦克风图标,用户现在可以用自己的声音提出问题并开始对话,消除了打字的必要性。 将对话提升到新的水平 在最近的一篇博客文章中,微软表示,它热衷于利用语音输入来促进智能手机聊天。现在,该公司通过直接将麦克风图标并入Bing聊天中,进一步提升了用户的体验。这种增强功能表明微软致力于实现无缝和轻松的通信。 多语言支持和扩展 Bing聊天中的语音指令功能最初可用于德语、中文、英语和法语等语言。微软计划在未来扩大语言支持范围,涵盖各种不同的语言。这种包容性确保全球用户都可以从基于语音的通信中受益。 另请阅读:印度语言的多语言文本转语音模型 语音回复和语音转文本支持 用户不仅可以通过语音指令提出问题,还可以用自己的声音回复。Bing聊天支持语音转文本技术,允许用户以自己独特的语调回答问题。这一创新功能为对话增加了个人化的触感,增强了用户体验。 增强的视觉和扩展的聊天限制 微软继续增强Bing聊天的功能。将人工智能工具整合到Bing中,为Bing聊天开创了Image Creator by Bing。这一功能对于与旅行相关的查询特别有用,为用户提供了视觉效果和相关链接以获取详细信息。此外,每次Bing聊天的转数从20增加到30,每天的转数也显著增加到了300。 无缝对话连续性 微软确保Bing聊天中的对话和交流不受时间或数量的限制。新的聊天限制适用于正在进行的聊天和存储在聊天历史记录中的过去交流。用户可以重访以前的对话,从上次离开的地方继续,创造出一个无缝和不间断的通信体验。 拥抱创新 自从2月份首次推出以来,微软的Bing聊天就受到了赞誉。这家软件巨头不断推出新的令人兴奋的功能,吸引用户的注意力。最近的新增功能,如侧边栏聊天和与Windows 11搜索的集成,进一步巩固了Bing聊天作为一款顶级通信工具的地位。微软对创新的承诺是显而易见的,它引入了尖端的先进技术,以增强用户满意度。 另请阅读:微软在其年度活动“Build 2023”上宣布了多项人工智能进展 我们的观点 微软的基于人工智能的Bing聊天通过整合语音指令,使用户可以轻松地与平台互动,从而彻底改变了通信方式。Bing聊天具有多语言支持、语音转文本功能、增强的视觉效果和扩展的聊天限制,提供了沉浸式和便捷的体验。随着微软不断推进人工智能技术的边界,用户可以期待更多令人兴奋的功能和进步。拥抱语音的力量,解锁与Bing聊天的新一级通信。

Leave a Comment

微软AI发布LLaVA-Med:一个高效训练的大型语言和视觉助手,革新生物医学研究,在不到15小时内提供先进的多模式对话

对于医学专业人员来说,会话式生成人工智能有很大的潜力,但目前的研究仅侧重于文本。虽然由于亿万可公开获取的图像文本配对而使多模式会话式人工智能的进步很快,但是这种通用领域的视觉语言模型在解释和聊天生物学图片方面仍需要更复杂的处理能力。微软研究团队提出了一种低成本的方法,用于教授视觉语言会话助手如何回答有关生物医学图像的自由形式查询。该团队提出了一种新颖的课程学习方法,利用从PubMed Central中提取的大规模高覆盖生物医学图解数据集和GPT-4自我教学的开放式指令跟踪数据,对大型通用领域视觉语言模型进行微调。 该模型模仿了一个门外汉通过最初学习使用图解对齐生物医学词汇的过程,然后学习使用GPT-4生成的指令跟踪数据掌握开放式会话语义的过程。在不到15个小时的时间内(使用八个A100),研究人员可以训练出一款适用于生物医学领域的大型语言和视觉助手(LLaVA-Med)。由于其多模式会话能力和遵循自由形式指令的能力,LLaVA-Med非常适合回答关于生物图像的问题。经过微调后,LLaVA-Med取得了三个基准生物医学视觉问答数据集的最新成果。关于人们如何遵循指令以及LLaVA-Med模型的数据将被公开以推进生物医学领域的多模式研究。 该团队的主要贡献总结如下: 多模式医学训练合规统计。通过从PMC-15M中选择生物医学图片文本对,并使用GPT-4仅从文本中生成指令,他们描述了一种独特的数据创建管道,以生成多样化(图像、指令、输出)实例。 LLaVA-Med。使用自行生成的生物医学多模式指令跟踪数据集,他们提供了一种新颖的课程学习方法,以使LLaVA适应生物医学领域。 开源。生物医学多模式指令跟踪数据集以及用于数据生成和模型训练的软件将公开提供,以促进生物医学多模式学习的进一步研究。 LLaVA-Med的有效性和获得的多模式生物医学指令跟踪数据的准确性是该团队调查的重点。研究人员考虑两种不同的环境来评估研究: LLaVA-Med作为通用生物医学视觉聊天机器人的效果有多好? 与现有技术相比,LLaVA-Med在行业基准测试中的表现如何? 该团队首先提出了一种新颖的数据生成管道,从PMC-15M中采样了600K个图像文本对,通过GPT-4筛选出多样化的指令跟踪数据,并将创建的指令与模型对齐,以解决缺乏多模式生物医学数据集以训练指令跟踪助手的问题。 研究人员随后介绍了一种教授LLaVA-Med课程的新方法。具体而言,他们在广泛的领域中训练LLaVA多模式会话模型,并逐渐将重点转向生物医学领域。训练过程分为两个阶段: 指定生物医学概念词嵌入与大量创新生物视觉概念的相关图像属性对齐。 使用基于生物医学语言图像指令的微调模型,LLaVA-Med展现了令人印象深刻的零样本任务转移能力,促进了自然用户互动。 总的来说 微软研究团队开发了适用于生物医学领域的大型语言和视觉模型LLaVA-Med。他们使用自我教学策略通过语言生成技术GPT-4和外部知识构建了数据筛选管道。然后,他们将模型训练到高质量的生物医学语言-图像指令跟踪数据集上。LLaVA-Med在微调后在三个VQA数据集上的特定指标上打败了早期受监督的SoTA,展现了具有领域知识的出色对话能力。虽然LLaVA-Med是朝着正确方向迈出的一大步,但他们也认识到它存在幻觉和推理缺乏深度的问题,这在许多LMMs中都很普遍。未来的工作将致力于使事物更加可靠和高质量。

Leave a Comment

美国国会采取行动:两项新法案提议对人工智能进行监管

针对人工智能(AI)的快速发展及其对社会的影响,美国参议员提出了两项跨党派法案,旨在解决围绕这一变革性技术的重要问题。这些拟议立法反映了人们对透明度、问责制和维护美国竞争优势的日益关注。以下是这两项法案的概述及其对AI监管和全球领导力的潜在影响。 另请阅读:中国提出的AI法规动摇了该行业 促进政府AI使用的透明度 参议员Gary Peters、Mike Braun和James Lankford提出了一项跨党派法案,以确保美国政府机构在使用AI技术时的透明度和问责制。该拟议立法将要求机构在与个人互动时披露其使用AI的情况。此外,该法案还规定建立一种上诉程序,供个人挑战AI系统所做决定。将人类置于驾驶座上显示该法案坚持政府AI使用中的公平和问责制原则。 维护美国在AI领域的竞争优势 参议员Michael Bennet、Mark Warner和Todd Young提出了一项跨党派措施,以保持在新兴技术中的竞争优势。该法案旨在建立一个全球竞争分析办公室,致力于确保美国在AI发展方面保持领先地位。这种积极的方法旨在防止中国等竞争对手在半导体、量子计算和AI等战略领域超越美国。该法案旨在通过优先投资和创新来保护美国作为技术领袖的地位。 另请阅读:微软领导先锋:紧急呼吁AI规则以维护我们的未来 应对AI的崛起 这些法案反映了立法者日益认识到需要新的法规来应对AI所带来的挑战。今年早些时候,AI程序ChatGPT广泛使用,引起了人们对这项技术的重视。随着AI的不断进步,立法者意识到需要采取积极的措施来管理其部署并减轻潜在风险。 另请阅读:著名AI先驱认为由于AI人类处于风险之中 教育立法者AI知识 参议院多数党领袖Chuck Schumer安排了三次关于AI的简报,以进一步装备立法者所需的知识和见解。这些简报涵盖各种主题,包括AI的概述、实现美国领导地位的战略以及有关国防和情报影响的保密会议。通过提供全面的教育和促进知情决策,国会旨在具备对技术及其影响的充分理解,以应对与AI相关的挑战。 我们的意见 美国国会提出两项跨党派法案表明,人们越来越认识到需要监管AI并保持美国的全球竞争力。通过强调透明度、问责制和建立专门机构,这些法案旨在有效地应对AI的复杂性。在国会采取措施应对AI崛起的同时,必须在促进创新的同时维护个人的权利和利益。通过知情决策和积极措施,美国可以引领更好地利用人工智能的潜力。

Leave a Comment

了解ControlVideo:一种用于文本驱动视频编辑的新型AI方法

基于文本的视频编辑旨在使用文本提示和现有的视频材料创建新的视频,无需任何手动劳动。这项技术有可能对包括社交媒体内容、营销和广告在内的各种行业产生重大影响。修改后的电影必须准确反映原始视频的内容,保持创建帧之间的时间连贯性,并与目标提示对齐,以在这个过程中获得成功。然而,同时满足所有这些要求可能会很具有挑战性。仅使用大量的文本-视频数据训练文本到视频模型需要大量的计算能力。 零样本和一样本基于文本的视频编辑方法使用了最近大规模文本到图像扩散模型和可编程图片编辑的发展。这些进展没有额外的视频数据,已经展示了对各种文本命令的影片修改的良好能力。然而,经验数据表明,尽管在与文本提示对齐的工作方面取得了巨大进展,但目前技术仍然不能恰当地和适当地处理输出,保持时间上的一致性。清华大学、中国人民大学、盛数和琶洲实验室的研究人员推出了ControlVideo,这是一种基于预训练的文本到图像扩散模型的先进方法,用于忠实可靠的基于文本的视频编辑。 从ControlNet中汲取灵感,ControlVideo通过包括Canny边缘图、HED边框和所有帧的深度图等可视化条件来放大源视频的方向。采用扩散模型预训练的ControlNet处理这些视觉情况。将这些情况与目前在基于文本的视频编辑方法中使用的文本和注意策略进行比较,值得注意的是,它们提供了更精确和适应性更强的视频控制方法。此外,为了提高保真度和时间上的一致性,同时避免过度拟合,扩散模型和ControlNet中的注意模块都经过了精心构建和微调。 更具体地说,他们将这两个模型中的初始空间自我注意力变换为关键帧注意力,将所有帧与所选帧对齐。扩散模型还包括时间注意力模块作为额外的分支,然后是零卷积层,以在微调之前保留输出。他们在相应网络中使用原始空间自我注意权重作为关键帧和时间注意力的初始化,因为观察到不同的注意机制模拟不同位置之间的关系,但始终模拟图像特征之间的关系。 图1展示了ControlVideo在各种控制下的主要结果,例如(a) Canny边缘图,(b) HED边框,(c)深度图和(d)姿势。当涉及替换人物并改变其质量、风格和背景时,ControlVideo可以生成准确可靠的视频。ControlVideo的用户可以通过从各种控制类型中选择,灵活地修改保真度和编辑能力之间的比例。对于视频编辑,许多控制器可以轻松集成。 为了指导未来关于一次调整的视频扩散模型骨干的研究,他们对ControlVideo的基本要素进行了全面的实证研究。该工作调查了自我注意力微调的关键和值设计、参数、初始化技术以及引入时间注意力的本地和全局位置。根据他们的发现,主UNet(除了中间块)可以通过选择一个关键帧作为关键和值、微调WO以及将时间注意力与自我注意力(本研究中的关键帧注意力)相结合来发挥最佳作用。 他们还仔细研究了每个组件的贡献以及总体影响。根据这项工作,他们收集了40个视频文本对进行研究,包括Davis数据集和其他来自互联网的数据集。在许多措施下,他们与基于帧稳定的扩散和SOTA基于文本的视频编辑技术进行了比较。特别是,他们采用SSIM分数衡量保真度,采用CLIP评估文本对齐和时间一致性。他们还进行了用户研究,将ControlVideo与所有基线进行比较。 许多研究结果表明,ControlVideo在保真度和时间一致性方面表现不亚于文本对齐,但明显优于所有这些基准线。他们的实证结果特别突出了ControlVideo创建具有极其逼真视觉质量的电影的吸引力以及在可靠地遵循书面说明的同时保持源材料的能力。例如,ControlVideo在化妆方面成功了,同时又能保留一个人独特的面部特征,这是其他技术都无法做到的。 此外,ControlVideo利用各种控制类型,包括从原始视频中提取不同数量的信息,可以实现视频保真度和可编辑性之间的可定制权衡(见图1)。例如,HED边界提供了原始视频的精确边界细节,适用于紧密控制,如面部视频编辑。姿势包括原始视频的运动数据,使用户在保留运动传输的同时更自由地修改主题和背景。此外,他们展示了如何混合多个控件以从各种控件类型的优势中获益。

Leave a Comment