Press "Enter" to skip to content

四海吧 Posts

介绍 IDEFICS:一个开放的最先进的视觉语言模型的再现

我们很高兴发布 IDEFICS(Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS),这是一个开放获取的视觉语言模型。IDEFICS基于Flamingo开发的最新视觉语言模型,Flamingo最初由DeepMind开发,尚未公开发布。与GPT-4类似,该模型接受任意的图像和文本输入序列,并输出文本结果。IDEFICS仅基于公开可用的数据和模型(LLaMA v1和OpenCLIP)构建,并提供两个变种——基础版本和指导版本。每个变种在90亿和800亿参数规模上都可用。 开发先进的AI模型应该更加透明。我们的目标是通过IDEFICS的复现和提供AI社区与Flamingo等大型专有模型相匹配的系统来推动透明度。因此,我们采取了重要的步骤,为这些AI系统带来透明度:我们仅使用公开可用的数据,我们提供了探索训练数据集的工具,我们分享了构建此类工件的技术教训和错误,并在发布之前通过对抗性提示评估了模型的有害性。我们希望IDEFICS能够为多模态AI系统的更加开放的研究提供坚实的基础,与OpenFlamingo等模型一起,后者是Flamingo在90亿参数规模下的另一个开放复现。 在Hub上尝试演示和模型! 什么是IDEFICS? IDEFICS是一个拥有800亿参数的多模态模型,它接受图像和文本序列作为输入,并生成连贯的文本作为输出。它可以回答关于图像的问题,描述视觉内容,创建基于多个图像的故事等。 IDEFICS是Flamingo的开放复现版本,在各种图像-文本理解基准测试中与原始闭源模型在性能上可比。它有两个变种——800亿参数和90亿参数。 我们还提供了针对对话使用案例进行调优的版本idefics-80B-instruct和idefics-9B-instruct。 训练数据 IDEFICS是在一系列公开可用的数据集上进行训练的:维基百科、公共多模态数据集和LAION,以及我们创建的一个新的包含1150亿标记的数据集,称为OBELICS。OBELICS包含从网络上抓取的1.41亿个交错的图像-文本文档,并包含3.53亿张图像。 我们提供了OBELICS的交互可视化,可以使用Nomic AI来探索数据集的内容。 IDEFICS的架构、训练方法和评估细节,以及关于数据集的信息,都可以在模型卡和我们的研究论文中找到。此外,我们还记录了模型训练中的技术见解和经验教训,提供了对IDEFICS开发的有价值的视角。 道德评估 在项目开始时,我们通过一系列讨论制定了一个道德宪章,该宪章将帮助指导项目期间的决策。该宪章阐明了价值观,包括自我批评、透明度和公平性,我们一直努力追求在项目和模型发布中贯彻这些价值观。 作为发布过程的一部分,我们通过对模型进行对抗性提示,使用可能引发我们不希望模型产生的响应的图像和文本来进行内部评估,以评估其潜在的偏见(这个过程称为红队测试)。…

Leave a Comment

NVIDIA通过新的DLSS 3.5推出了增强人工智能的实时光线追踪,用于游戏和应用程序

在全球最大的游戏会议Gamescom上,AI在游戏领域的最新进展成为焦点,NVIDIA推出了一系列技术,首先是DLSS 3.5,这是其突破性AI神经渲染技术的下一个步骤。 DLSS 3.5是NVIDIA最新的基于AI的图形技术创新,是秋季热门光线追踪游戏的图像质量升级版,包括《赛博朋克2077:幻影自由》、《艾伦·韦克2》和《带有RTX的传送门》等作品。 但NVIDIA并未止步于此。DLSS将进一步应用于更多AAA大作;AI技术将为非玩家角色(NPC)增添情感;Xbox Game Pass游戏将登陆GeForce NOW云游戏服务;GeForce NOW服务器也将进行升级。 DLSS 3.5引入光线重建技术 最重要的消息是DLSS 3.5引入了光线重建技术,这是一项开创性的功能,提升了所有GeForce RTX GPU的光线追踪图像质量,超越了传统手动调优的去噪器,采用了NVIDIA超级计算机训练的AI网络。 结果可以改善反射、全局光照和阴影等光照效果,创造出更具沉浸感和逼真度的游戏体验。 在光线追踪计算机图形中,去噪用于填补缺失的像素,以更高效地合成最终图像。NVIDIA DLSS 3.5的训练数据比DLSS 3多5倍,因此它可以识别不同的光线追踪效果,并在何时使用时间和空间数据方面做出更明智的决策。 DLSS于2019年2月首次发布,经过一系列重大升级,提高了图像质量和性能。 光线重建现在已经成为DLSS 3.5的一部分,该技术套件由GeForce RTX GPU上的Tensor…

Leave a Comment

即将到来:NVIDIA DLSS 3.5用于Chaos Vantage、D5 Render、Omniverse和热门游戏标题

编辑注:本文是我们每周的NVIDIA Studio系列的一部分,该系列庆祝特色艺术家,提供创意技巧,并演示NVIDIA Studio技术如何改进创意工作流程。我们还在深入探讨新的GeForce RTX 40系列GPU功能、技术和资源,以及它们如何显著加速内容创作。 Gamescom,一年中最大的游戏盛会,将于明天在德国科隆开幕,但游戏玩家和内容创作者可以在本周在NVIDIA Studio中找到一些最新的创新、工具和AI技术。 在正式开幕的前夕,NVIDIA宣布了NVIDIA DLSS 3.5,其中包括光线重建功能——这是一个新的神经渲染AI模型,可以创建比传统渲染方法更美丽、更真实的射线追踪视觉效果,用于实时3D创意应用和游戏。 NVIDIA RTX Remix是一个免费的基于NVIDIA Omniverse构建的修改平台,现在可供使用,它为经典游戏的#RTXON修改提供了工具和分享机会。我们还宣布了《半条命2 RTX:RTX Remix项目》,这是一个由Valve的《半条命2》社区重制项目,该游戏是有史以来评分最高的游戏之一。 本周的NVIDIA Studio系列还展示了数字艺术家Diyor Makhmudov受到了非凡的游戏系列《巫师》的启发的3D作品。 Reallusion软件发布了iClone Omniverse Connector的更新版本,包括项目的实时同步和对OpenUSD的增强导入功能,从而实现更快、更高效的工作流程。在最新版本的《进入Omniverse》系列中了解更多信息。 最后,我们呼吁所有视频编辑者报名参加位于俄勒冈州波特兰的首届达芬奇解决方案活动ResolveCon,活动将于8月25日至27日举行。现场参与者有机会赢取包括新的GeForce RTX GPU在内的赠品,而虚拟参与者可以观看由NVIDIA…

Leave a Comment

“Paytm利用人工智能保障印度经济:革新金融安全”

在一次具有开创性的举措中,印度金融领域的格局将被重新定义。印度著名品牌Paytm的母公司One 97 Communications Ltd正准备推出一款印度规模的人工智能系统。Paytm的首席执行官Vijay Shekhar Sharma揭示了这一旨在帮助金融机构检测和打击风险和欺诈的努力。通过这一雄心勃勃的举措,Paytm旨在在金融科技领域引起轰动,推动印度朝着安全、创新和强劲增长的未来迈进。 另请阅读:印度如何利用尖端人工智能应对支付欺诈 进步之路:Paytm的引领之旅 Paytm的旅程的核心是创新的传承。Vijay Shekhar Sharma在给股东的信中强调了该品牌在将移动支付引入印度方面的开创性角色。从重新构想QR码到革命性的Soundbox技术,Paytm的贡献推动了数字支付的大规模采用,将印度定位在金融科技创新的前沿。 引领技术革命 印度在金融科技领域的增长潜力是无与伦比的。Vijay Shekhar Sharma将印度设想为潜在的支付技术、软件和硬件出口国。随着预计有5亿支付消费者和1亿商家即将到来,印度正站在一个前所未有的数字转型时代的风口上,这是由Digital India等倡议和对开放和可扩展支付生态系统的监管支持推动的。 Paytm的影响力不仅限于支付。该公司的贷款平台已经起飞,助力发放了约1500亿卢比的贷款。该品牌的商家订阅基数已经增至800万,由PoS系统和引领行业的Soundbox等创新设备驱动。后者通过QR码宣布成功的UPI支付,在整个行业产生了涟漪效应。 另请阅读:印度央行采用对话式人工智能和脱机支付 人工智能革命:揭示Paytm的杰作 Paytm雄心勃勃的目标是构建一个具有全国范围的尖端人工智能系统。这个强大的人工智能基础设施使金融机构能够检测潜在的风险和欺诈行为。同时,它还旨在保护它们免受人工智能进展带来的新威胁。Paytm对人工智能的投资还包括开发人工通用智能软件堆栈,与该品牌对技术领导力的承诺保持一致。 Paytm的人工智能努力超越了国界。通过在印度构思和打造这个变革性的人工智能系统,Paytm希望提升印度的技术实力,并创造一项在全球舞台上有前景的资产。利用印度的技术实力造福于世界的愿景凸显了Paytm对超越国界的创新的承诺。 另请阅读:使用人工智能轻松进行KYC注册 规划未来之路:Paytm对未来的愿景 Paytm的影响力不仅限于支付和信贷。该品牌的前瞻性观点还包括创建符合监管指导原则的小额移动信贷解决方案。尽管最近其向印度央行申请支付聚合商许可证遭到了挫折,但Paytm仍坚定地致力于为印度的数字革命做出贡献,同时专注于构建长期盈利的商业模式。 Vijay…

Leave a Comment

麻省理工学院的研究人员利用深度学习和物理学修复运动干扰的MRI扫描

核磁共振成像(MRI)扫描是一种使用大型磁铁、无线电波和计算机来清晰显示身体内部结构的测试。医疗保健提供者使用MRI来评估、诊断和监测多种医疗状况。 虽然X射线和CT扫描各有优点,但MRI扫描具有更好的软组织对比度和高质量成像。尽管提供了出色的软组织对比度和高质量成像,MRI仍然容易受到运动干扰的影响,即使细微的运动也可能引入破坏性的图像伪影。这些伪影会影响医学图像的准确性,导致医生无法准确判断患者的问题,进而可能导致治疗效果不佳。 即使是短暂的扫描也可能因微小的运动而受到影响,这对MRI图像产生独特的影响。与相机模糊不同,MRI运动伪影可以扭曲整个图像。 根据华盛顿大学放射学研究的数据,大约有15%的脑MRI扫描受到运动的影响,需要进行额外的扫描。这种需要重复成像的要求导致医院每台扫描仪每年约花费115,000美元,以获得在各种MRI模式下具有诊断可靠性的图像。 为了解决这个问题,麻省理工学院的研究人员采取了重要的步骤,利用深度学习技术。他们使用深度学习找到了一个解决方案。他们将深度学习与物理学相结合,取得了惊人的结果。 他们的方法是在不改变扫描过程的情况下,通过计算构建一个无运动的图像来从受运动干扰的数据中恢复。采用这种综合方法的意义在于能够保持所得图像与实际测量结果之间的一致性。 未能实现这种对齐可能导致模型生成所谓的“幻觉”——看似真实的图像,实际上偏离了实际的物理和空间属性。这种差异有可能改变诊断结果,准确的医学图像表达的重要性凸显出来。 展望未来,他们强调了进一步研究更复杂的头部运动和影响各种身体部位的运动的激动人心的潜力。例如,在胎儿MRI方面,挑战在于应对快速和不可预测的动作,这超出了基本的平移和旋转模型的能力。这凸显了需开发更复杂的策略以考虑复杂的运动模式,为增强MRI在各种解剖情况下的应用提供了一个有希望的途径。

Leave a Comment

谷歌AI研究提出了一种使用大型语言模型(LLMs)进行个性化文本生成的通用方法

随着基于人工智能的技术在内容生成方面的应用增多,个性化文本生成引起了广泛关注。为了创建适用于特定受众、创作环境和信息需求的生成系统,它们必须能够提供个性化的回应,考虑到额外的上下文,例如用户已经写过的文档。 研究人员已经在多种场景下研究了定制文本的创建,例如评论、聊天机器人和社交媒体。大多数现有的工作提出的模型都是针对特定任务的,并依赖于领域特定的特征或信息。如何创建一种通用的策略,可以在任何情况下使用,得到的关注较少。大型语言模型(LLMs)在许多文本生成任务中日益突出,这要归功于生成式人工智能的兴起,特别是通过像ChatGPT1和Bard2这样的聊天机器人。然而,很少有研究探讨如何赋予LLMs这种能力。 最近,Google的研究提供了一种通过利用广泛的语言资源来生成独特内容的通用方法。他们的研究受到了一种常见的写作指导方法的启发,该方法将借用外部资源进行写作过程分解为更小的步骤:调研、源评估、总结、综合和整合。 为了训练个性化文本生成的LLMs,团队采用了类似的方法,采用了多阶段多任务结构,包括检索、排序、摘要、综合和生成。具体而言,他们利用当前文档的标题和第一行创建一个问题,并从个人上下文的二级存储库中获取相关信息,例如用户之前编写的文档。 接下来,他们对排名结果进行摘要,根据相关性和重要性对其进行排序。除了检索和摘要,他们还将检索到的信息综合成关键要素,然后将其输入到大型语言模型中生成新的文档。 在语言教学领域,人们普遍观察到阅读和写作技能相互发展。此外,研究表明,个体的阅读水平和阅读量可以通过作者识别活动来衡量,这与阅读能力相关。这两个发现促使研究人员创建了一个多任务环境,其中他们添加了一个辅助任务,要求大型语言模型识别特定文本的作者,以提高其阅读能力。他们希望通过给模型提供这个挑战,它将能够更准确地解释所提供的文本,并产生更引人入胜和量身定制的写作。 团队使用了三个公开可用的数据集,包括电子邮件往来、社交媒体辩论和产品评论,以评估所建议模型的性能。在所有三个数据集上,多阶段多任务框架相对于几个基准模型都显示出了显著的增益。

Leave a Comment

语言模型的未来:拥抱多模态以提升用户体验

人工智能正在进步,得益于超级有益和高效的大型语言模型的引入。基于自然语言处理、自然语言生成和自然语言理解的概念,这些模型能够使生活变得更轻松。从文本生成和问题回答到代码补全、语言翻译和文本摘要,LLM已经走过了很长的路。随着OpenAI最新版本的LLM,即GPT 4的开发,这一进步为模型的多模态性的进展打开了道路。与以往版本不同,GPT 4可以接受文本和图像的输入。 未来变得更加多模态,这意味着这些模型现在可以像人类一样理解和处理各种类型的数据。这种变化反映了我们在现实生活中的沟通方式,它涉及了结合文本、图像、音乐和图表以有效地表达意义。这一发明被视为用户体验的重要改进,可与此前聊天功能产生的革命效果相媲美。 在最近的一条推文中,作者强调了多模态在语言模型的用户体验和技术困难方面的重要性。字节跳动在实现多模态模型的承诺方面处于领先地位,这要归功于其著名的平台TikTok。他们使用文本和图像数据的组合作为其技术的一部分,并且通过这种组合驱动了各种应用,例如目标检测和基于文本的图像检索。他们方法的主要组成部分是离线批处理推理,它为200TB的图像和文本数据生成嵌入,从而可以在集成向量空间中处理各种数据类型而没有任何问题。 多模态系统实施过程中的一些限制包括推理优化、资源调度、弹性以及所涉及的数据和模型的规模庞大。字节跳动使用了灵活的计算框架Ray,该框架提供了许多工具来解决多模态处理的复杂性问题。Ray的能力提供了大规模模型并行推理所需的灵活性和可扩展性,尤其是Ray Data。该技术支持有效的模型分片,可以将计算任务分布在不同的GPU甚至同一GPU的不同区域上,从而保证即使是太大无法放在单个GPU上的模型也能够高效地处理。 迈向多模态语言模型开启了人工智能驱动互动的新时代。字节跳动使用Ray提供有效且可扩展的多模态推理,展示了这种方法的巨大潜力。人工智能系统理解、解释和响应多模态输入的能力必将影响人们与技术互动的方式,随着数字世界变得越来越复杂和多样化。与Ray等先进框架合作的创新企业正在为人工智能系统能够理解我们的语音和视觉线索铺平道路,实现更丰富、更类似人类的互动。

Leave a Comment

“文本转语音(TTS)和人工智能(AI)中的道德考虑:数据安全重点关注”

人工智能(AI)和自然语言处理(NLP)技术的快速发展已经导致了高度复杂的应用程序的创建,例如文本转语音(TTS)系统这些由深度学习算法驱动的系统具有将文本输入转换为自然音质人类语音的能力,从而彻底改变了娱乐、教育、无障碍和客户服务等行业然而,…文本转语音(TTS)和人工智能(AI)的伦理考虑:重点关注数据安全阅读更多 »

Leave a Comment

2023年最佳人工智能电子表格工具

当与其他数据源(包括营销数据平台)结合使用时,Excel 可以快速提供宝贵的洞察力。虽然大多数人认为它是一款电子表格程序,但它是一款功能强大的计算工具,能够解决复杂的问题。 然而,在充分使用之前,需要掌握许多复杂的公式。成为精通 Excel 所需的大量信息阻止了大多数用户发挥该程序的全部潜力。 这种情况只有在某些情况下才会发生。随着人工智能(AI)的出现,Excel 用户不再需要记住数百个冗长的 Excel 公式来进行复杂的计算和全面的洞察。 让我们来看看一些 Excel 的 AI 工具。 Botsheets Botsheets 是一个能够自动将讨论转化为电子表格的 AI 程序。通过将 Google Sheet 链接到用户的客户消息渠道,用户可以使用连接的 Google Sheet 中的列标题指示…

Leave a Comment

这篇AI论文介绍了一个包含超过260亿个三元组的综合RDF数据集,涵盖了所有科学学科的学术数据

由于科学出版物的增加,跟上最新研究变得越来越困难。例如,仅在2022年就记录了超过800万篇科学文章。研究人员使用各种技术,从搜索界面到推荐系统,来研究连接的知识实体,如作者和机构。将基础学术数据建模为RDF知识图(KG)是一种高效的方法。这样可以更容易地进行标准化、可视化和与链接数据资源的关联。因此,学术KG对于将以文档为中心的学术材料转化为链接和可自动化的知识结构至关重要。 然而,现有学术KG存在以下一种或多种限制: 它们很少包括每个学科的全面作品列表。 它们经常只涵盖特定领域,如计算机科学。 它们更新频率较低,使得许多研究和商业模型过时。 它们常常有使用限制。 即使它们符合这些标准,它们也不符合RDF等W3C标准。 这些问题阻碍了科学KG的广泛部署,如全面的搜索和推荐系统,或用于量化科学影响力。例如,Microsoft学术知识图(MAKG)及其RDF后代无法更新,因为Microsoft学术图在2021年被终止。 创新的OpenAlex数据集旨在弥补这一差距。然而,OpenAlex的数据不符合链接数据原则,也无法以RDF形式访问。因此,OpenAlex不能被视为KG,这使得语义查询、应用集成和连接到新资源变得困难。乍一看,它似乎是将科学文章的学术信息纳入Wikidata的一种简单方法,从而支持WikiCite运动。除了特定的模式外,数据量已经如此庞大,以至于Wikidata查询服务的Blazegraph三元组存储接近其容量限制,无法集成任何内容。 本文介绍了Karlsruhe Institute of Technology和Metaphacts GmbH的研究人员引入的非常大规模的学术领域RDF数据集SemOpenAlex,其中包括论文、作者、来源、机构、思想和出版商。SemOpenAlex拥有约2.49亿篇来自各个学术领域的论文和超过260亿个语义三元组。它建立在他们的综合本体论上,并引用了其他LOD源,包括Wikidata、Wikipedia和MAKG。他们提供了一个公共的SPARQL接口,以便快速有效地使用SemOpenAlex与LOD云进行集成。此外,他们提供了一个复杂的语义搜索界面,使用户能够实时检索数据库中包含的实体及其语义关系的信息(例如,通过显示共同作者或作者最重要的概念,这些概念是通过语义推理而不是直接包含在数据库中推断出来的)。 他们还提供了完整的RDF数据快照,以便进行大规模数据分析。他们利用AWS创建了一个流水线,可以定期更新SemOpenAlex而完全没有任何服务中断,这是由于SemOpenAlex的规模和集成到SemOpenAlex中的科学文章数量的增加。此外,他们还使用先前存在的本体论尽可能地保证系统的互操作性,符合FAIR原则,并为将SemOpenAlex与Linked Open Data Cloud集成打开了大门。通过提供每月更新,使得可以持续监测作者的科学影响力、跟踪获奖研究以及其他使用其数据的用例,他们填补了MAKG终止后的空白。他们通过免费和无限制地提供SemOpenAlex,使来自许多学科背景的研究团队能够访问其提供的数据并将其纳入研究中。目前已经存在SemOpenAlex的初始应用案例和生产系统。 总体而言,他们做出了以下贡献: 1. 他们使用流行的词汇为SemOpenAlex开发本体论。 2. 在https://semopenalex.org上,他们以RDF形式生成SemOpenAlex知识图,包含260亿个三元组,并向公众提供了所有SemOpenAlex的数据、代码和服务。 3. 通过使所有URI可解析,他们使SemOpenAlex能够参与到Linked…

Leave a Comment

使用Amazon SageMaker Clarify在临床环境中解释医疗决策

在这篇文章中,我们展示了如何使用Amazon SageMaker Clarify来改进临床环境中的模型可解释性在医学领域中使用的机器学习(ML)模型的可解释性变得越来越重要,因为为了获得认可,这些模型需要从多个角度进行解释这些角度包括医学、技术、法律和最重要的——患者的角度在医学领域中,基于文本开发的模型在统计学上已经变得准确,然而,为了为每个病人提供最佳护理,临床医生在伦理上要求评估与这些预测相关的弱点为了让临床医生能够根据每个病人的情况做出正确的选择,这些预测的可解释性是必需的

Leave a Comment

英伟达首席科学家比尔·达利将在Hot Chips发表主题演讲

Bill Dally是世界上最杰出的计算机科学家之一,也是NVIDIA研究工作的负责人。他将在Hot Chips大会的主题演讲中描述推动加速计算和人工智能的力量。Hot Chips是一年一度的领先处理器和系统架构师聚会。 Dally将详细介绍GPU芯片、系统和软件的进展,这些进展为各种应用带来了前所未有的性能提升。演讲将展示如何利用混合精度计算、高速互连和稀疏性等技术将推动生成式人工智能的大语言模型提升到新的水平。 “现在是成为计算机工程师的非常激动人心的时刻,” Dally在2月份入选硅谷工程理事会名人堂时如是说道。 Dally的主题演讲将于8月29日上午9点PT开启Hot Chips的第三天。可以在线注册参加虚拟活动。位于帕洛阿尔托的斯坦福大学的现场活动已经售罄。 Dally的职业涵盖近四十年,他开创了许多构成当今超级计算机和网络架构的基础技术。作为NVIDIA研究部门的负责人,他领导着一个由全球300多名发明家组成的团队,致力于发明各种应用的技术,包括人工智能、高性能计算、图形和网络。 在2009年加入NVIDIA之前,他曾担任斯坦福大学计算机科学系主任长达四年之久。 Dally是美国国家工程院的院士,也是美国艺术与科学院、电气和电子工程师学会以及计算机协会的会士。他撰写了四本教科书,发表了250多篇论文,拥有120多项专利,并获得了IEEE Seymour Cray奖、ACM Eckert-Mauchly奖和ACM Maurice Wilkes奖。 NVIDIA在Hot Chips的更多演讲 在另一场Hot Chips演讲中,NVIDIA网络副总裁Kevin Deierling将描述NVIDIA BlueField DPUs和NVIDIA Spectrum网络交换机在根据不断变化的网络流量和用户规则分配资源方面的灵活性。…

Leave a Comment

2023年最佳人工智能演示工具

现代演示软件已远远超越了PowerPoint的静态幻灯片和基本过渡效果。人工智能(AI)已经融入演示软件,提供更智能的设计建议、增强的功能和个性化功能,以吸引观众。本文介绍了当今最顶尖的人工智能(AI)驱动演示工具及其如何改变我们与观众互动和传递内容的方式。无论您是经验丰富的专业人士还是刚刚入门,您都可以了解更多关于这些AI驱动产品的功能。 Gamma Gamma推出了一款新产品,简化了文档、演示和网站。该平台的AI生成器是核心,它可以快速从头开始创建基本的演示或文档,为用户提供了一个坚实的基础。用户赞扬Gamma能够以新颖的方式传递信息,摆脱了静态PowerPoint幻灯片的限制。其有用的功能使演讲者能够顺利进行演示。它的“一键”视觉改进是一个突出的功能。用户可以通过单击一次完全改变演示或文档的视觉风格,省去了幻灯片掌握和组件对齐的耗时任务。该平台对设计的关注保证了内容始终与品牌标准一致,并且视觉上令人愉悦。 SlidesAI SlidesAI是一个演示创作程序,旨在帮助用户轻松创建看起来专业的演示。该程序强调用户友好性,允许演讲者以文本或计划涵盖的材料摘要开始演讲。SlidesAI因其基于文本输入创建演示的能力而与众不同。定制功能提供的各种字体和颜色选项使其适用于各种品牌和个人。 Decktopus Decktopus是一种基于云的软件服务,提供快速灵活的演示开发工具。最引人注目的一个方面是丰富的可定制模板。每个模板都可以以不同的方式进行定制,从更改布局到选择不同的字体。Decktopus还包括一个基于AI的内容助手,以补充其设计功能。使用此功能可以节省时间,同时制作出传达信息效果的精美演示。Decktopus的实时协作功能是其更实用的功能之一。团队可以共同创建演示,减少重复工作并确保统一性。 Slidesgo Slidesgo是一个新的网站,提供专为业务、教育、营销和医疗保健优化的Google Slide主题和PowerPoint模板。用户可以选择广泛的演示主题、格式、视觉风格、配色方案等选项,打造完全符合他们需求的演示。Slidesgo凭借其丰富的可定制演示模板而脱颖而出。此外,该软件的人工智能演示创建功能简化了开发过程,对于忙碌的专业人士来说是一个节省时间的选择。 iA Presenter iA Presenter通过以文本用户界面为中心来提供一种全新的演示方式。故事是这个尖端工具布局的核心,有助于从文本到视觉的平滑过渡。iA Presenter的“Turbostart”是一个突出的功能。这个功能消除了第一次演示的紧张感。用户可以通过导入预先存在的数据(如电子邮件、笔记和推文)避免从零开始。因为该软件的编辑器是基于文本的,您可以立即使用已经编写好的内容,节省创建幻灯片所需的时间。iA Presenter的编辑过程也非常直观。该工具允许用户轻松地在多个幻灯片之间拆分或合并内容,以灵活地发展故事。当正文材料和幻灯片标题之间有明确的界限时,演示更有可能成功。 Pitch Pitch的主要重点是促进业务增长,因此它致力于简化演示制作、协作和共享过程。Pitch在减少演示创建和修订方面的速度是一个重要的特点。借助该软件直观的编辑工具和实时分析,可以做出更好的决策。Pitch在用户定制方面依赖很重。用户可以选择预制模板或从头开始创建自己的模板,包括品牌的颜色和字体。该软件还允许对每个幻灯片的演示风格进行轻松定制,有助于保持演示中的统一品牌形象。创建可在后续项目中使用的模板是任何团队的时间和人力节省者。 Ludus Ludus的基于Web的服务是专为当今的艺术家而设计的。该平台的用户将欣赏到访问和整合Web资源到他们的演示文稿中是多么简单。Ludus最吸引人的特点之一是协作创意团队可以如何轻松地组织演示文稿。由于软件具备协作功能,控制团队的工作流程变得更简单。由于Ludus认识到每个团队成员的才能的价值,它允许创建专门的工作描述。因此,每个人都可以将他们的精力用在最有益处的地方,提高产出和信心。 ClassPoint ClassPoint被设计用于改进标准的PowerPoint演示文稿。它专门针对教职工,帮助他们将乏味的PowerPoint转变为令人兴奋、以受众为中心的体验。ClassPoint最显著的特点之一是其互动性。演讲者可以在PowerPoint中进行投票和使用白板工具,从而引起观众的兴趣。此外,AI生成的问题可以用于征求观众的反馈,从而实现更具互动性和合作性的课堂环境。ClassPoint是一个一体化解决方案,无需在PowerPoint之外使用其他教学工具。教育工作者可以借助学生互动功能,通过增强平台与熟悉的PowerPoint界面一起进行互动课堂。这种策略旨在通过减轻教师处理多个软件程序的负担来简化课堂体验。 Piggy Piggy是一家位于特拉维夫的公司,提供适用于现代化的解决方案,具有灵活的界面,可制作各种形式的数字娱乐。Piggy成立两年,由一个13人的团队运营,致力于改进数字自我表达的技术水平。Piggy是一个灵活的移动软件,可用于各种用途,包括文档和演示文稿的创建、图片相册制作和网站开发。该应用程序通过设计互动内容(如问卷和故事),强调用户的主动性。然后用户可以下载、嵌入或分享内容。 Beautiful.ai…

Leave a Comment

谷歌AI推出CHITA:一种基于优化的方法,用于大规模修剪预训练神经网络

如今神经网络在语言、数学和视觉等领域取得了令人瞩目的成果。然而,这些网络通常采用复杂的结构,运行起来资源密集。在资源有限的情况下,比如可穿戴设备和智能手机,将这些模型交付给用户可能是不切实际的。修剪预训练网络意味着删除其部分权重,同时确保其效用的减少对于降低推理成本来说是可以忽略不计的。典型神经网络中的每个权重都指定了两个神经元之间的连接。在减少后,输入将经过一个更易处理的链接子集,从而减少所需的处理时间。 CHITA(组合无海塞矩阵迭代阈值算法)框架是由麻省理工学院和谷歌的研究人员开发的一种用于大规模网络修剪的有效优化策略。该方法基于先前的研究,使用二阶海塞矩阵中的局部二次函数近似损失函数。与其他方法不同,他们利用了一个简单但关键的洞察力,使他们能够在不计算和存储海塞矩阵的情况下解决优化问题(因此在CHITA中称为“无海塞矩阵”),从而高效地处理大规模网络。 为了进一步减少回归重构,他们提出了一种使用主动集策略、改进的步长选择和其他技术来加速收敛到所选择支持的新方法。与稀疏学习文献中广泛使用的迭代硬阈值技术相比,该方法产生了显著的收益。该框架可以将具有420万个参数的网络稀疏化到20%。 以下是贡献的总结: 基于损失函数的局部二次近似,研究人员提出了CHITA,一种用于网络修剪的优化框架。 他们提出了一种受限稀疏回归重构,以消除存储大型稠密海塞矩阵的内存开销。 CHITA在获取稀疏回归高质量解的过程中,严重依赖于一种新颖的IHT方法。通过利用问题的结构,他们提供了加速收敛和提高修剪性能的解决方案,例如一种新颖且有效的步长选择策略以及对支持权重的快速更新。与标准网络修剪算法相比,这可以将性能提升一千倍。 研究人员还展示了模型和数据集性能的改进。 一种用于计算的高效修剪公式 通过仅保留原始网络中的一部分权重,可以得到各种修剪候选。设k表示用户设置的保留权重参数集。在所有可能的修剪候选中(即,仅保留k个权重的权重子集),选择损失最小的候选。这是将修剪视为最佳子集选择(BSS)问题的逻辑公式。 CHITA避免了显式计算海塞矩阵,同时利用了其所有信息,通过采用修剪问题的重新制定版本(带有二次损失的BSS)。这是通过利用经验费舍尔信息矩阵是低秩的事实而实现的。这种新形式可以被视为稀疏线性回归问题,其中网络中神经元的权重表示回归系数。 适应于良好缩放的优化算法 在不超过k个回归系数为零的稀疏性要求下,CHITA将修剪转化为线性回归问题。研究人员正在考虑调整流行的迭代硬阈值(IHT)技术来解决这个问题。在IHT的梯度下降更新后,所有不在Top-k(即具有最大幅度的k个系数)中的回归系数都被置零。在大多数情况下,IHT通过同时优化权重并迭代地检查可能的修剪选择来提供满意的答案。 总之,研究人员提出了CHITA,一种基于唯一的、无海塞矩阵约束回归公式和组合优化技术的网络修剪框架。单阶段方法在提高运行时间和内存利用率的同时,实现了与先前方法相当的结果。此外,多阶段策略可以提高模型的准确性,因为它是基于单阶段方法构建的。他们还展示了通过将修剪技术引入现有的逐步修剪框架中可以实现具有最先进准确性的稀疏网络。

Leave a Comment

使用大型语言模型进行自主视觉信息获取

由Google研究团队的学生研究员Ziniu Hu和研究科学家Alireza Fathi发布 针对多模态输入的大型语言模型(LLMs)适应性方面,如图像字幕、视觉问答(VQA)和开放词汇识别等任务取得了巨大进展。尽管取得了这样的成就,但当前最先进的视觉语言模型(VLMs)在信息查询数据集(如Infoseek和OK-VQA)上的性能表现不佳,这些数据集需要外部知识来回答问题。 需要外部知识回答问题的信息查询查询示例。图片来自OK-VQA数据集。 在“AVIS:利用大型语言模型进行自主视觉信息查询”中,我们介绍了一种在视觉信息查询任务上取得最先进结果的新方法。我们的方法将LLMs与三种类型的工具集成在一起:(i)用于从图像中提取视觉信息的计算机视觉工具,(ii)用于检索开放世界知识和事实的网络搜索工具,以及(iii)用于从与视觉上相似的图像相关的元数据中获取相关信息的图像搜索工具。AVIS使用LLM驱动的规划器在每个步骤中选择工具和查询。它还使用LLM驱动的推理器分析工具输出并提取关键信息。一个工作记忆组件在整个过程中保留信息。 回答复杂视觉信息查询问题时AVIS生成的工作流示例。输入图像来自Infoseek数据集。 与以前的工作相比 最近的研究(例如Chameleon、ViperGPT和MM-ReAct)探索了将工具添加到LLMs以进行多模态输入。这些系统遵循两阶段过程:规划(将问题分解为结构化程序或指令)和执行(使用工具收集信息)。尽管在基本任务中取得了成功,但这种方法在复杂的现实场景中常常失败。 还出现了将LLMs应用为自主代理的兴趣激增(例如WebGPT和ReAct)。这些代理与环境互动,根据实时反馈进行调整,并实现目标。然而,这些方法不限制可以在每个阶段调用的工具,导致了巨大的搜索空间。因此,即使是当今最先进的LLMs也可能陷入无限循环或传播错误。AVIS通过人类决策的指导LLM使用来解决这个问题。 通过用户研究指导LLM决策 对于Infoseek和OK-VQA等数据集中的许多视觉问题,即使对于人类来说也是具有挑战性的,通常需要各种工具和API的帮助。下面是来自OK-VQA数据集的一个示例问题。我们进行了用户研究以了解使用外部工具时的人类决策过程。 我们进行了一项用户研究,以了解在使用外部工具时的人类决策过程。图片来自于OK-VQA数据集。 用户配备了与我们的方法相同的一套工具,包括PALI、PaLM和网络搜索。他们收到输入图片、问题、检测到的物体裁剪图以及链接到图像搜索结果的按钮。这些按钮提供了关于检测到的物体裁剪图的多样信息,例如知识图谱实体、相似图像标题、相关产品标题和相同的图像标题。 我们记录用户的行为和输出,并将其用作我们系统的指导,有两个关键方面。首先,通过分析用户所做决策的顺序,我们构建了一个转换图(如下所示)。该图定义了不同的状态,并限制了每个状态下可用的行动集合。例如,在初始状态下,系统只能执行以下三个动作之一:PALI标题、PALI VQA或者物体检测。其次,我们使用人类决策的例子来指导我们的规划器和推理器,提供相关的上下文实例,以增强我们系统的性能和效果。 AVIS转换图。 总体框架 我们的方法采用一种动态的决策策略,旨在响应视觉信息查询。我们的系统有三个主要组件。首先,我们有一个规划器,用于确定下一步的行动,包括适当的API调用和需要处理的查询。其次,我们有一个工作内存,用于保存从API执行获得的结果的信息。最后,我们有一个推理器,其作用是处理API调用的输出。它确定获得的信息是否足以产生最终的响应,或者是否需要进行额外的数据检索。 规划器在每次需要决策哪个工具要使用和发送给它的查询时,执行一系列步骤。基于当前状态,规划器提供一系列可能的后续行动。可能的行动空间可能非常大,使得搜索空间难以处理。为了解决这个问题,规划器参考转换图来排除不相关的行动。规划器还排除了之前已经执行过并存储在工作内存中的行动。 接下来,规划器收集一组相关的上下文示例,这些示例是从用户研究中先前由人类做出的决策中组合而成的。利用这些示例和保存有从过去工具交互中收集的数据的工作内存,规划器制定一个提示。然后将该提示发送给LLM,LLM返回一个结构化的答案,确定下一个要激活的工具和要发送给它的查询。这种设计允许规划器在整个过程中被多次调用,从而促进逐步回答输入查询的动态决策。 我们使用推理器分析工具执行的输出,提取有用的信息,并决定工具输出属于哪个类别:信息性的、无信息的或最终答案。我们的方法利用LLM进行推理,适当的提示和上下文示例。如果推理器得出结论准备提供答案,它将输出最终响应,从而完成任务。如果它确定工具输出无信息,它将返回给规划器,在当前状态下选择另一个行动。如果它发现工具输出有用,它将修改状态并将控制权转交回规划器,在新状态下做出新决策。 AVIS采用动态决策策略来响应视觉信息查询。 结果 我们在Infoseek和OK-VQA数据集上评估了AVIS。如下所示,即使是强大的视觉语言模型,如OFA和PaLI,在Infoseek上进行微调后也无法获得高准确性。我们的方法(AVIS)在没有进行微调的情况下,在该数据集的未知实体拆分上实现了50.7%的准确性。…

Leave a Comment

这篇来自中国的AI论文提出了一种在具有物理场景约束的具体任务中进行基于地面规划的任务规划代理(TaPA)

我们在日常生活中如何做决策?我们常常根据我们的常识有偏见。那么机器人呢?他们能根据常识做出决策吗?成功完成人类指令需要具备常识的具体化代理。由于对实际世界更多细节的需求,现有的LLMs产生了不可行的行动序列。 北京国家信息科学与技术研究中心和自动化学院的研究人员提出了一种在具有物理场景约束的具体化任务中的任务规划代理(TaPA)。这些代理通过将LLMs与视觉感知模型对齐,根据场景中现有的对象生成可执行计划。 研究人员声称,TaPA能够在不限制任务类型和目标对象的情况下生成具体化的计划。他们首先创建了一个多模态数据集,其中每个样本是一个视觉场景、指令和相应计划的三元组。从生成的数据集中,他们通过根据场景的对象列表预测动作步骤来微调预训练的LLaMA网络,进一步将其指定为任务规划器。 然后,具体化代理有效地访问站立点以收集RGB图像,为多视角图像的开放词汇探测器提供足够的各种视图信息。这个整体过程允许TaPA根据场景信息和人类指令逐步生成可执行的动作。 他们如何生成多模态数据集?其中一种方法是利用视觉语言模型和大规模多模态模型。然而,由于缺乏大规模的多模态数据集来训练规划代理,在现实室内场景中创造和实现具体化任务规划是具有挑战性的。他们使用GPT-3.5结合提供的场景表示和设计提示来生成用于微调规划代理的大规模多模态数据集。 研究人员通过预训练的LLMs训练了任务规划器,并构建了包含80个室内场景、15K条指令和行动计划的多模态数据集。他们设计了几种图像收集策略,以探索周围的3D场景,如随机位置的位置选择标准和旋转相机以获取每个位置选择标准的多视角图像。受到聚类方法的启发,他们将整个场景分成几个子区域,以提高感知的性能。 研究人员声称,TaPA代理的生成行动计划的成功率要高于最先进的LLMs,包括LlaMA和GPT-3.5,以及大规模多模态模型如LLaVA。与LLaVA和GPT-3.5相比,TaPA能更好地理解输入对象列表,幻觉案例的百分比分别减少了26.7%和5%。 研究人员声称,他们收集的多模态数据集的统计数据表明,这些任务比传统的指令跟踪任务更加复杂,实施步骤更长,需要进一步进行优化的新方法。

Leave a Comment