Press "Enter" to skip to content

7458 search results for "t"

使用大型语言模型进行自主视觉信息获取

由Google研究团队的学生研究员Ziniu Hu和研究科学家Alireza Fathi发布 针对多模态输入的大型语言模型(LLMs)适应性方面,如图像字幕、视觉问答(VQA)和开放词汇识别等任务取得了巨大进展。尽管取得了这样的成就,但当前最先进的视觉语言模型(VLMs)在信息查询数据集(如Infoseek和OK-VQA)上的性能表现不佳,这些数据集需要外部知识来回答问题。 需要外部知识回答问题的信息查询查询示例。图片来自OK-VQA数据集。 在“AVIS:利用大型语言模型进行自主视觉信息查询”中,我们介绍了一种在视觉信息查询任务上取得最先进结果的新方法。我们的方法将LLMs与三种类型的工具集成在一起:(i)用于从图像中提取视觉信息的计算机视觉工具,(ii)用于检索开放世界知识和事实的网络搜索工具,以及(iii)用于从与视觉上相似的图像相关的元数据中获取相关信息的图像搜索工具。AVIS使用LLM驱动的规划器在每个步骤中选择工具和查询。它还使用LLM驱动的推理器分析工具输出并提取关键信息。一个工作记忆组件在整个过程中保留信息。 回答复杂视觉信息查询问题时AVIS生成的工作流示例。输入图像来自Infoseek数据集。 与以前的工作相比 最近的研究(例如Chameleon、ViperGPT和MM-ReAct)探索了将工具添加到LLMs以进行多模态输入。这些系统遵循两阶段过程:规划(将问题分解为结构化程序或指令)和执行(使用工具收集信息)。尽管在基本任务中取得了成功,但这种方法在复杂的现实场景中常常失败。 还出现了将LLMs应用为自主代理的兴趣激增(例如WebGPT和ReAct)。这些代理与环境互动,根据实时反馈进行调整,并实现目标。然而,这些方法不限制可以在每个阶段调用的工具,导致了巨大的搜索空间。因此,即使是当今最先进的LLMs也可能陷入无限循环或传播错误。AVIS通过人类决策的指导LLM使用来解决这个问题。 通过用户研究指导LLM决策 对于Infoseek和OK-VQA等数据集中的许多视觉问题,即使对于人类来说也是具有挑战性的,通常需要各种工具和API的帮助。下面是来自OK-VQA数据集的一个示例问题。我们进行了用户研究以了解使用外部工具时的人类决策过程。 我们进行了一项用户研究,以了解在使用外部工具时的人类决策过程。图片来自于OK-VQA数据集。 用户配备了与我们的方法相同的一套工具,包括PALI、PaLM和网络搜索。他们收到输入图片、问题、检测到的物体裁剪图以及链接到图像搜索结果的按钮。这些按钮提供了关于检测到的物体裁剪图的多样信息,例如知识图谱实体、相似图像标题、相关产品标题和相同的图像标题。 我们记录用户的行为和输出,并将其用作我们系统的指导,有两个关键方面。首先,通过分析用户所做决策的顺序,我们构建了一个转换图(如下所示)。该图定义了不同的状态,并限制了每个状态下可用的行动集合。例如,在初始状态下,系统只能执行以下三个动作之一:PALI标题、PALI VQA或者物体检测。其次,我们使用人类决策的例子来指导我们的规划器和推理器,提供相关的上下文实例,以增强我们系统的性能和效果。 AVIS转换图。 总体框架 我们的方法采用一种动态的决策策略,旨在响应视觉信息查询。我们的系统有三个主要组件。首先,我们有一个规划器,用于确定下一步的行动,包括适当的API调用和需要处理的查询。其次,我们有一个工作内存,用于保存从API执行获得的结果的信息。最后,我们有一个推理器,其作用是处理API调用的输出。它确定获得的信息是否足以产生最终的响应,或者是否需要进行额外的数据检索。 规划器在每次需要决策哪个工具要使用和发送给它的查询时,执行一系列步骤。基于当前状态,规划器提供一系列可能的后续行动。可能的行动空间可能非常大,使得搜索空间难以处理。为了解决这个问题,规划器参考转换图来排除不相关的行动。规划器还排除了之前已经执行过并存储在工作内存中的行动。 接下来,规划器收集一组相关的上下文示例,这些示例是从用户研究中先前由人类做出的决策中组合而成的。利用这些示例和保存有从过去工具交互中收集的数据的工作内存,规划器制定一个提示。然后将该提示发送给LLM,LLM返回一个结构化的答案,确定下一个要激活的工具和要发送给它的查询。这种设计允许规划器在整个过程中被多次调用,从而促进逐步回答输入查询的动态决策。 我们使用推理器分析工具执行的输出,提取有用的信息,并决定工具输出属于哪个类别:信息性的、无信息的或最终答案。我们的方法利用LLM进行推理,适当的提示和上下文示例。如果推理器得出结论准备提供答案,它将输出最终响应,从而完成任务。如果它确定工具输出无信息,它将返回给规划器,在当前状态下选择另一个行动。如果它发现工具输出有用,它将修改状态并将控制权转交回规划器,在新状态下做出新决策。 AVIS采用动态决策策略来响应视觉信息查询。 结果 我们在Infoseek和OK-VQA数据集上评估了AVIS。如下所示,即使是强大的视觉语言模型,如OFA和PaLI,在Infoseek上进行微调后也无法获得高准确性。我们的方法(AVIS)在没有进行微调的情况下,在该数据集的未知实体拆分上实现了50.7%的准确性。…

Leave a Comment

2023年最佳人工智能金融工具

DataRails  DataRails是一个为财务规划和分析提供数据整合和报告自动化的FP&A平台。您可以继续使用现有的Excel电子表格和经济模型,因为它是为它们而设计的。DataRails可以与您现有的系统集成,如ERP、CRM和会计软件。然后,它将所有内容编译到一个地方,让您一目了然地了解财务状况。DataRails可以用作预算工具。您可以使用它来查看您的结果与预测的比较,并相应进行调整。DataRails还可以用于提供未来财务结果的准确预测。它允许您建模各种效果并检查它们的经济后果。使用DataRails,您可以制作每个人都可以看到和使用的报告。它还可以用于快速自动化报告过程。DataRails提供许多以图形方式呈现信息的选项。这有助于与相关方共享财务信息。 Domo  Domo是一个提高业务决策的数据体验平台。Domo与您现有的系统集成,进行实时分析,并以易于理解的格式提供结果。Domo支持与无数云端和本地数据库以及SaaS程序的集成。Domo的报告和探索功能使挖掘数据和发现有趣模式变得容易。Domo的数据可视化工具使您能够轻松构建和共享图表、图形和仪表板。Domo的可行动洞察功能通过建议和通知为您提供了处理数据的工具。Domo可以帮助您快速访问和评估数据,从而使您更高效地处理数据。Domo的数据分析能力将帮助您做出更明智的选择。Domo通过交换信息和想法促进数据项目的团队合作。Domo的集中平台可以简化您的数据管理和分析流程,节省时间和金钱。 Booke AI Booke AI是一种由人工智能驱动的会计自动化解决方案,旨在节省会计师的时间和精力。使用光学字符识别技术,可以实时提取发票、账单和收据的信息,并自动分类交易类型。Booke AI还支持与Xero、Quickbooks Online(QBO)和QBD的双向接口,为您提供与首选会计软件的流畅连接。Booke AI提供的协作和客户沟通选项非常出色。用户可以快速轻松地管理大量文件,查找和修复不一致性,并创建动态报告。该平台还提供了适用于Xero和QuickBooks的Chrome扩展,使您更容易标记属于特定类别的交易或标记不明确的未分类银行交易。凭借Booke AI,无需不必要的电话或电子邮件,得益于直观的界面和有效的沟通选项。该平台的错误检测技术确保会计准确无误,并使用户能够追踪和纠正会计错误变得简单。 Rebank  金融和法律数据库Rebank利用人工智能按国家和货币分类交易。它处理国际交易的财务和税务要求,并确保在每个国家都完全遵守。Rebank是为进行国际贸易的企业提供可靠的转账解决方案,除了其交易分类功能。Rebank通过自动生成转账协议、贷款协议和当地税务文件来简化资产转移,包括现金、商品等。重要的是,Rebank确保其生成的所有文件符合每个国家的相关法律,使交易具有牢固的法律基础。 Nanonets Flow Nanonets Flow平台运用人工智能简化乏味的财务操作,具有先进性。自动处理繁琐的任务使财务专家可以专注于战略规划和公司扩展。Nanonets Flow从发票、收据和银行对账单等纸质文档中提取有用数据的能力非常强大。为节省时间并避免手动输入带来的错误,它使用先进技术准确获取和组织财务数据。Nanonets Flow不仅限于简单的文本挖掘,它还可以轻松与现有的经济系统和会计软件进行接口,自动化操作和管理工作流程。这个全面的工具提高了银行业人士的生产力、效率和财务结果。 Planful Predict Planful Predict是FP&A软件中用于高级财务和业务执行人员使用的模块。它取代了繁重的手工过程,如数字处理和报告,以实现更快、更精确的决策。Predict利用人工智能和机器学习来整合FP&A数据,并提供准确的业绩和业务驱动建议。Planful Predict:Signals帮助企业解决财务薄弱环节,而Datarails…

Leave a Comment

斯坦福大学的研究人员破译了自然视觉的密码,新模型揭示了眼睛如何解码视觉场景

感官神经科学领域的一个基本目标是理解支配自然视觉场景处理的神经编码的复杂机制。在神经科学中,一个基本但尚未解决的问题是多种细胞类型的相互作用如何在自然环境中发展神经回路。眼睛已经进化出使用广泛的内部神经元来传递关于自然视觉场景的信息,这对将视觉信息传递到大脑非常重要。 视网膜的功能主要基于对其对闪光灯和噪声等人工刺激的反应的研究。这些可能无法准确地代表视网膜如何解释实际的视觉数据。尽管已经使用这些方法检测到不同的计算,但这超过50种不同类型的内部神经元如何 contributing to retinal processing的复杂性尚未完全理解。在最近的研究论文中,一组研究人员通过展示一个三层网络模型能够以惊人的精度预测自然场景对视网膜的反应,取得了重要的进展,几乎超出了实验数据的范围。研究人员希望了解大脑如何处理自然视觉场景,因此他们将重点放在了视网膜上,视网膜是向大脑发送信号的眼部的一部分。 该模型的可解释性,即理解和检查其内部组织的能力,是其关键特征之一。直接包括在模型中的内部神经元的反应与单独记录的反应之间存在着很强的相关性。这表明模型捕捉到了视网膜内部神经元活动的重要方面。当模型仅在自然场景上训练时,它成功地再现了各种运动分析、适应性和预测编码现象。另一方面,通过白噪声训练的模型无法再现同一组事件,支持检查自然场景以理解自然视觉处理的观点是必要的。 团队使用的一种方法将模型的节细胞的计算分解为模型的内部神经元的个体贡献。通过这种方法,可以自动生成有关内部神经元与各种时空响应模式的相互作用以产生视网膜计算的新理论,从而阐明预测事件的发生。 对于自然图像序列,图像以每秒30帧的速度进行抖动处理,每秒进行修改,并采用模拟固定眼动数据的随机行走模式。这种方法产生了一种时空刺激,更接近视网膜功能的环境。 总之,团队发现三层神经处理,类似于视网膜的结构,对于复制准确的反应至关重要。该模型成功预测了真实的视网膜节细胞对自然图像和随机噪声的反应。仔细设计的模型通过特定的层精确地模拟了这些细胞的行为。因此,这项研究使我们能够理解视觉系统如何解释世界,为了解主导自然视觉的复杂过程提供了见解。

Leave a Comment

视频编辑不再是一项挑战:INVE是一种能够实现交互式神经视频编辑的人工智能方法

你能想象没有图片编辑的互联网吗?所有那些有趣的表情包、花哨的Instagram照片、迷人的风景等等都将消失。那将不是一个有趣的互联网,不是吗? 自从数码相机问世以来,图片编辑一直是许多人的热情所在。在最初的时候,我们有一些简单的编辑工具,但是现在,你几乎可以将图片中的任何东西变成任何东西而不费吹灰之力。图像编辑工具在近年来有了显著的进步,这要归功于所有这些强大的人工智能方法。 然而,当谈到视频编辑时,它落后了。视频编辑通常需要技术专长和复杂的软件。你需要深入研究像Premier和FinalCut Pro这样的复杂工具,并且尝试自己调整每一个细节。难怪视频编辑现在是一个高薪技能。另一方面,甚至可以在移动应用上进行图像编辑,结果对普通用户来说已经足够了。 想象一下,如果交互式视频编辑能够变得像图像编辑一样用户友好,那将有无限的可能性。想象一下,你可以告别技术复杂性,迎接全新的自由!是时候见识一下INVE了。 INVE(交互式神经视频编辑器)是一个解决视频编辑问题的AI模型,正如其名称所示。它提出了一种让非专业用户轻松进行复杂视频编辑的方法。 INVE的主要目标是使用户能够以简单直观的方式对视频进行复杂编辑。该方法基于分层神经图谱表示,其中包括视频中每个对象和背景的2D图谱(图像)。这些图谱允许进行局部和一致的编辑。 视频编辑由于一些固有的挑战而繁琐。例如,视频中的不同对象可能会独立移动,需要精确定位和仔细组合,以避免不自然的伪影。此外,编辑单个帧可能会导致不一致和可见的故障。为了解决这些问题,INVE引入了一种使用分层神经图谱表示的新方法。 这个想法是将视频表示为一组2D图谱,每个移动对象一个图谱,背景一个图谱。这种表示允许进行局部编辑,保持整个视频的一致性。然而,以前的方法在双向映射方面存在困难,很难预测特定编辑的结果。此外,计算复杂性妨碍了实时交互式编辑。 INVE可以保持一帧上的编辑的一致性。来源:https://arxiv.org/pdf/2307.07663.pdf INVE学习了图谱和视频图像之间的双向映射。这使用户可以在图谱或视频本身中进行编辑,提供了更多的编辑选项,并更好地理解编辑在最终视频中的感知效果。 此外,INVE采用了多分辨率哈希编码,显著提高了学习和推理速度。这使用户能够享受真正的交互式编辑体验。 INVE正向映射管道的概述。来源:https://arxiv.org/pdf/2307.07663.pdf INVE 提供了丰富的编辑操作词汇,包括刚性纹理跟踪和矢量素描;它使用户能够轻松实现他们的编辑愿景。新手用户现在可以利用交互式视频编辑的能力,而不被技术复杂性所困扰。这使得视频编辑,比如给移动的汽车添加外部图形,调整背景森林的色调,或者在道路上画画,可以轻松地将这些编辑传播到整个视频。

Leave a Comment

使用Google AI解锁上下文的力量:前缀LM和因果LM在上下文学习中的对决

特洛伊战争是著名的,阿喀琉斯通过一次次战胜赫克托尔王子,永远地铭刻了他的名字在历史上,但是如今,在人工智能快速发展的领域中,利用上下文提高学习和理解能力的探索已经成为主角。两个竞争者,prefixLM和causalLM,已经进入战场,进行上下文学习的较量。在这两个语言模型巨头之间的战斗中,它们处理上下文的方式将决定机器学习的学习结果。 挑战者和征服者 prefixLM和causalLM都装备了独特的理论框架进入战场。PrefixLM穿戴着无限制的注意力盔甲,允许所有上下文样本自由交流。它将每个样本视为前缀,并在战斗中对前n个位置进行全面关注。 在战场的另一边,causalLM持有自回归注意力的武器,这是一种限制上下文样本与其未来对应物相互作用的机制。这种策略保持了线性的学习轨迹,防止未来的情节影响学习过程。这是一种专注的方法,但它是否真正捕捉到了上下文的本质呢?它能否战胜PrefixLM对于ICL的强大方法? 战斗开始 为了将理论与实践分开,一系列的合成数值任务成为证明场地,依赖于softmax变换器。线性回归、非线性回归和多类分类构成了prefixLM和causalLM交锋的战场。当尘埃落定时,结果回声着经验证据的声音。 在线性回归任务中,两个模型的训练误差都呈现线性衰减率,这证明了它们的学习能力。然而,当测试误差浮出水面时,局势发生了变化。CausalLM的测试误差明显较大,引起了观众的疑虑。罪魁祸首是什么?CausalLM自回归的性质限制了上下文示例之间的相互关注,导致了次优结果。 冠军从灰烬中崛起 根据经验结果指引的路径,PrefixLM成为上下文学习的冠军。它开放式的方法,使得多样化的上下文样本能够交流,似乎是关键所在。无论是线性回归、非线性回归还是多类分类,PrefixLM始终展示了其优越性,证明了它的上下文能力不可否认。 当这场巨人之间的战斗落幕时,PrefixLM高耸而立,挥舞着全面理解上下文的旗帜。CausalLM虽然勇敢,但也许需要重新审视在上下文领域的策略。这场战斗凸显了PrefixLM确实是今天的冠军,未来将迎来新的挑战者在人工智能的战斗中。 要以更数学的方式深入分析PrefixLM的胜利,请参阅研究论文。

Leave a Comment

利用深度学习进行纳米阵列的开发:一种能够设计能够产生特定结构颜色的纳米孔阵列的新的人工智能方法

颜色的多样性随着两种或更多颜色的组合而增加。光与微小纳米结构相互作用,产生多种颜色的内在模式。光谱还与孔洞相互作用,形成一种称为纳米孔阵列的系统。这也可以区分光现象并获得结构性颜色。其主要目的是将结构性颜色植入人造材料中。这种颜色的主要优点是随着时间的推移不会退化。研究人员仍然面临创建导致指定颜色的纳米级阵列的问题。这属于计算机视觉的广泛范畴。 重庆大学的研究团队设计了一个新系统,可以将这些纳米孔阵列增强为结构性颜色。他们还使用了各种机器学习模型来设计这个系统。为了预测这些阵列的结构性颜色,研究人员开发了两个深度学习模型CSC和CSS。这些模型允许形成纳米孔阵列,从而产生所需的颜色。准确率、F1得分、召回率、精确度和百分比准确率等参数非常显著。研究团队表示,这些结果是基于对这些阵列的模拟得出的。这些结果已经转化为实验现实,并在很大程度上得到了增强。 这些结果被用于进一步评估,并获得了准确率和F1得分等测试数据集的参数。预测模型被创建用于预测通过先前使用的深度学习模型增强的数据。该模型还旨在弥补各种应用和理论概念之间的理论差距。纳米孔阵列还用于包含多样数据的高密度存储。 这项研究展示了一种用于实现纳米阵列的结构颜色和光谱的深度学习模型。该方法的可扩展性很有前景,因为它可以处理更大的数据集。它还可以实现适应不同材料的复杂结构。这项研究将简单地操纵纳米阵列及其等离子应用。

Leave a Comment

世界上最大的广告商拥抱人工智能的力量:广告领域的范式转变

在可能重塑广告格局的举措中,一些世界知名的广告商正在利用生成式人工智能(AI)的潜力。雀巢和联合利华等公司正在引领这一变革之旅,利用ChatGPT和DALL-E等先进的AI技术。这些生成式AI工具提高了效率,降低了成本,并彻底改变了产品营销。 还阅读:Microsoft Azure推出企业AI ChatGPT 揭开广告中的人工智能革命 领导这一人工智能革命的是全球巨头雀巢和联合利华。这些行业巨头大胆采用生成式人工智能,旨在开启产品广告的新方式。到目前为止,这些以AI为动力的战略已经证明在速度、成本效益和潜在范围方面都具有优势。这一转变正值这些公司为广告可能的未来常态做好准备之际。 还阅读:18个必备的营销自动化工具,以简化您的营销工作! 生成式AI的兴起:为创新铺平道路 生成式AI不仅仅是一个流行词,它是一个引发各行各业共同想象力的革命性概念。这项技术能够根据历史数据创作内容,以前所未有的方式推动创新。营销团队设想了一个未来,在生成式AI的帮助下,广告将实现广泛的创意可能性,重新定义广告的成就。 还阅读:Meta的AI工具为营销人员自动生成面向特定受众的副本 开创广告的新时代 生成式AI重塑广告格局的潜力引起了行业领导者的关注。广告商们寄望于AI生成原始文本、图像和计算机代码的能力,超越传统的分类和识别技术。随着对AI技术的投资不断增加,很明显,广告受到的转型影响将是革命性的。 应对挑战:平衡创新和责任 然而,这次对人工智能的大胆尝试并非没有挑战。随着企业涉足生成式AI,人们对安全性、版权侵权和潜在数据固有偏见的担忧逐渐浮出水面。这凸显了在利用AI潜力和确保道德、负责任实施之间需要保持微妙平衡的必要性。 虽然AI驱动的自动化具有强大的吸引力,但重要的是要认识到,在可预见的未来,人类仍将是创意过程中不可或缺的一部分。AI和人类创造力之间的相互关系至关重要,因为人类提供了AI可能缺乏的监督和上下文理解。 还阅读:面向数据驱动型营销人员的前14个营销分析工具 成功故事:展示生成式AI在广告中的影响 全球最大的广告代理公司WPP正在领先展示生成式AI在广告中的实际效益。WPP与雀巢和世界食品公司合作,推出了AI驱动的广告活动,取得了非常创新的成果。此外,他们还大幅降低了成本。该机构的首席执行官马克·里德(Mark Read)强调通过虚拟制作实现的惊人节约,使看似不可能成为现实。 WPP与世界食品公司在印度的合作是AI驱动的广告潜力的证明。一项以宝莱坞巨星沙鲁克·汗(Shah Rukh Khan)为特色的广告活动在各个平台上获得了9400万次观看。这个成功故事展示了AI在创意和高效制作之间的桥梁作用,为广告的未来提供了一瞥。 雀巢全球首席营销官奥德·高顿(Aude Gandon)提供了AI在营销中的实际应用见解。通过ChatGPT 4.0和Dall-E…

Leave a Comment

可插拔衍射神经网络(P-DNN):一种通过级联元表面来识别各种任务的通用范例,可以通过切换内部插件来应用

深度学习方法是一种灵感来自人脑的机器学习技术,它在图像处理、图像识别、语音识别和语言翻译等各个领域都有应用。然而,它严重依赖于电子计算机,而电子计算机存在计算限制,并且由于冯·诺依曼体系结构的缘故,导致性能瓶颈和高能耗。光学神经网络通过优化光的使用方式来解决这些问题,实现高速、并行和高能效的计算。 作者们提出了P-DNN作为解决ONNs可重构性问题的创新方案。与传统方法需要在出现新任务时进行完整的重新训练不同,P-DNN可以通过在网络中交换可插入值来切换识别任务。这个特性增强了网络设计的灵活性,同时有效减少了计算资源和训练时间的消耗。研究人员使用了两层级的级联元表面来演示该方法,分别使用手写数字和时尚作为输入。 P-DNN架构包括一个公共的预处理层和备选的任务特定分类层。该系统基于光的衍射理论进行训练,每个层级的光神经元通过元表面中的元原子来表示。训练阶段涉及使用随机梯度下降和误差反向传播方法来优化元表面组件的参数。该文章强调了迁移学习的优化流程,使系统能够在各种分类任务中实现高准确性。该文章使用P-DNN框架展示了数字和时尚分类任务的结果。模拟和实验任务都显示出高准确性,两个任务都超过了90%。 可插拔式衍射神经网络充分利用光学神经网络,解决了传统深度学习的局限性。它可以适应一系列特定任务,不仅限于分类任务。它们为真实任务(如自动驾驶中的实时物体检测和显微镜成像中的智能物体过滤)提供了高能效、高计算能力的系统。

Leave a Comment

这项人工智能研究提议使用技术从一张单一图像中重建出一个逼真的3D穿衣人体,包含详细的全身几何形状和高质量的纹理

高保真度 对于许多增强现实和虚拟现实应用,包括游戏、社交网络、教育、电子商务和沉浸式远程会议,3D数字人是必不可少的。许多方法专注于从一张照片中重建一个3D着装人物,以便更容易从现成的野外照片中创建数字人。然而,由于缺乏非可见位置的观测,这个问题似乎并不明确,尽管早期技术已经取得了一些进展。它未能使用明显的视觉线索(如颜色和法线估计)来预测不可见部分(如背面),这导致了模糊的纹理和平滑的几何形状。因此,从不同角度观察这些重建时,会出现差异。多视图监督是这个问题的一个可行解决方案。但是只用一张图像作为输入,这可能吗?在这里,他们提出了TeCH作为一种潜在的解决方案。Tech将从输入图片中获取的文本信息与定制的文本到图片扩散模型(即DreamBooth)相结合,以指导重建过程,与以往主要研究明显的前端信号与非可视区域之间的关系的研究不同。 他们特别将单个输入图像中的语义信息分离为主题的独特和精细的外观,这对于文字来准确描述是困难的: 1)使用服装解析模型(即SegFormer)和预训练的视觉语言VQA模型(即BLIP),对输入图像中的描述性语义提示进行明确的解析。这些提示包括对颜色、服装风格、发型和面部特征的具体描述。 2)定制的文本到图像(T2I)扩散模型将难以描述的外观信息隐式地确定为主题的独特外观和细粒度特征,并嵌入到特殊的标记”[V]”中。他们使用基于原始观测的多视图分数蒸馏采样(SDS)重建损失以及从现成的法线估计器获得的正则化来优化基于这些信息源的3D人体,以提高重建的3D人体模型的保真度,同时保持其原始身份。 图1显示了TeCH如何从一张照片中创建一个逼真的、3D着装的人物。 来自浙江大学、马克斯智能系统研究所、穆罕默德·本·扎耶德人工智能大学和北京大学的研究人员提出了一种基于DMTet的混合3D表示,以以合理的价格表达高分辨率的几何形状。为了准确地描绘身体的一般形状,我们的混合3D表示将显式四面体网格与隐式的RGB和有符号距离函数(SDF)场结合起来。他们首先优化这个四面体网格,提取以网格表示的几何形状,然后在两阶段优化过程中优化纹理。Tech使得可以使用统一的颜色方案和图案重新创建着装人物的准确3D模型,具有精确的全身几何形状和丰富的纹理。 因此,它使得包括角色动画、新视角渲染和形状和纹理操作在内的许多下游应用更容易实现。在涵盖各种姿势(CAPE)和服装(THuman2.0)的3D着装人类数据集上进行定量测试时,Tech在渲染质量方面表现出色,根据对真实世界照片和感知研究的定性评估,Tech优于SOTA方法。代码将公开供研究目的使用。

Leave a Comment

INVE:通过交互式人工智能魔法,革新视频编辑

你能想象一个没有图像编辑的世界吗?有趣的表情包、令人惊叹的风景和迷人的Instagram照片将失去魅力在哪里?幸运的是,这不是我们生活的现实。图像编辑已经成为我们数字生活的重要组成部分,让我们能够将普通图像转化为非凡的作品。但是视频呢?视频编辑一直是一个挑战,需要技术能力和复杂的软件。现在,准备好告别那些复杂性,拥抱AI驱动的交互式视频编辑与INVE打个招呼吧。 还阅读:2023年可用的11个AI视频生成器:将文本转化为视频 释放AI的力量:从图像到视频的旅程 从早期的数码相机到现在,图像编辑已经演变成一种艺术形式。曾经执行基本编辑的工具现在已经变成了能够将普通事物变成非凡之作的AI驱动的向导。然而,当涉及到视频编辑时,进展却较慢。与可以在手机上进行的图像编辑不同,视频编辑通常需要专业软件和专业知识。 还阅读:NVIDIA的Neuralangelo将2D视频转化为惊人的3D作品! 通过INVE缩小差距:让每个人轻松编辑视频 想象一个世界,视频编辑变得像调整图像一样易于使用。在一个技术术语和复杂工具退居次要位置,你的创造力得以展翅的世界中,INVE(交互式神经视频编辑器)诞生了。INVE不仅仅是一个工具,它是视频编辑的一场革命。设计成使复杂的视频编辑变得轻而易举,INVE使用先进的AI方法,赋予非专业人士创作出非凡视频内容的能力。这种魔法是通过分层神经图谱表示实现的,这个概念将视频编辑转变为了无限可能的游乐场。 还阅读:如何成为AI视频编辑师?最佳工具、技术和更多 揭秘INVE的天才:它如何施展魔法 视频编辑一直是一个充满挑战的谜题。移动物体、不一致的帧率和故障的恐惧一直困扰着即使是最有经验的编辑人员。但是INVE带来了新的视角。它引入了分层神经图谱表示的概念,将视频编辑变得更加直观。想象一下像画家在画布上创作杰作一样编辑视频的情景。INVE通过将视频表示为一组2D图谱(每个移动对象一个,背景一个)来将这个梦想变为现实。这种方法让你可以进行局部编辑,同时保持视频的一致性。 还阅读:HumanRF允许单个摄像头从不同视角捕捉视频 INVE的突破性成就 INVE不仅仅停留在基本功能上。它解决了其他方法困扰的挑战。曾经是障碍的双向映射成为了一种优势。INVE学习了图谱和视频图像之间的关联,提供了广泛的编辑选项。你可以选择编辑图谱还是视频本身。此外,等待编辑渲染完成可能令人沮丧。INVE采用了多分辨率哈希编码来提高学习和推理速度。现在,你可以在实时互动的编辑体验中尽情享受,不再有延迟。 赋予创造力:INVE丰富的编辑词汇 INVE的编辑语言是多样而包容的。刚性纹理跟踪、矢量化素描等等使用户能够毫不费力地展现他们的创意愿景。从为汽车增加外部图形到在道路上进行素描,你的编辑在整个视频中无缝传递。 我们的看法 有了INVE在手,视频编辑跨入了未来。技术复杂性和编辑软件的知识不再是障碍,你的创造力是唯一的限制。告别费时费力的视频编辑时代,迎接拥有INVE的互动AI魔法时代。改变你的视频,吸引你的观众,成为你自己视觉故事的导演。是时候拥抱这场革命了。是INVE的时代。 图片来源:https://arxiv.org/pdf/2307.07663.pdf

Leave a Comment

AI自动化与性别差异:AI可能对女性工人产生更大的影响

随着人工智能(AI)的不断发展,工作的未来正在重新塑造。人们普遍担心由于AI自动化而失去工作,但最近的一项研究揭示了一个令人担忧的趋势 – AI可能会取代更多女性员工而不是男性员工。麦肯锡全球研究所进行了一项名为“生成AI和美国未来工作”的研究,该研究揭示了AI自动化对美国就业市场的潜在影响。本文深入探讨了该研究的发现,揭示了AI可能不成比例地影响女性就业前景以及保障她们未来所需采取的措施。 还阅读:AI浪潮:稳定AI首席执行官预测印度开发人员将在2年内失去工作 AI对美国就业市场的影响 麦肯锡报告预测,到2030年,以AI为驱动的自动化将导致美国约1200万个职业转型,因为AI取代了涉及数据收集和重复任务的工作。这引发了对潜在的失业和需要进行职业再培训的担忧。 还阅读:OpenAI首席执行官Sam Altman:随着AI证明其实力,工作岌岌可危 性别差异 该研究的一个重要发现是,AI自动化预计将对女性的就业产生比男性更大的影响。传统上由女性主导的职业,如办公室支持、客户服务和餐饮服务,更容易受到AI干扰。报告指出,由于AI自动化,女性需要转换到新的职业的可能性比男性高1.5倍。 易受影响的职业 客户服务代表和办公室支持人员非常容易受到AI自动化的影响。报告发现,美国80%的客户服务代表和60%的办公室支持人员是女性。这些职业涉及重复任务和数据处理,使其适合由AI系统自动化。 还阅读:人工智能的迅速崛起导致失业:科技行业受到数千人影响 工资差距的担忧 AI自动化对女性工人的影响具有深远的意义。低薪工作的女性比那些高薪职位的女性更有可能需要转换职业,这一数字高达14倍。这尤其令人担忧,因为女性已经面临着约22%的性别工资差距。 保护女性工人的紧急措施 该研究呼吁改变招聘实践,敦促雇主优先考虑技能和能力而不是学历。从被忽视的人群中招聘,如农村工人和残障人士,可以扩大人才库。此外,提供与不断变化的需求相一致的培训对于准备工人迎接以AI为驱动的未来至关重要。 还阅读:ChatGPT窃取文案和技能工作:如何在人工智能未来中保持就业 在AI过渡中抓住机遇 麦肯锡关于AI对美国就业市场影响的报告指出,劳动力中正在发生不可避免的变化。虽然AI可能威胁某些职业,但它也为新兴领域的创造工作机会。需要复杂问题解决、批判性思维、创造力和高级技术技能的岗位将会有需求。女性和男性员工都应该专注于提升自己的技能,以利用这些新兴机会。 还阅读:AI无法替代的工作 我们的观点 AI自动化的崛起是劳动力中一股具有变革性的力量,但它也可能加剧性别差距。麦肯锡报告的发现提醒雇主和决策者采取积极措施,保护女性员工免受AI自动化的影响。通过优先考虑基于技能的招聘、投资培训和促进多样性与包容性,我们可以创造一个AI使所有人受益的未来,为男性和女性创造平等的竞争环境。关键在于拥抱AI的潜力,并赋予工人适应和在不断变化的工作环境中蓬勃发展的能力。

Leave a Comment

事实表和维度表的区别

将庞大的数据集组织成易于访问的结构至关重要。星型模式提供了一种有效的方法,包括两个关键要素:事实表和维度表。维度表环绕着一个中央的事实表,形成星型或雪花形状。对这些组件之间的明确区分需要全面掌握它们各自的概念和角色,以确保对它们特定目的的充分理解。现在让我们来探讨一下这两者之间的区别! 事实表与维度表 参数 事实表 维度表 基本 包含与业务事件相关的定量数据 为事实表中的数据提供描述性上下文和属性 创建顺序 在维度表之后创建 首先创建 组成部分 事实、度量和测量 描述性属性 组件数量 较少的属性和更多的记录 较少的记录和更多的属性 标记方式 粒度或原子级别 词汇、完整性、详细程度 层次结构 不存在 存在 在星型模式中的位置 中间…

Leave a Comment

“人工智能能够在一分钟内破解大多数密码以下是如何保护您的密码免受人工智能攻击的方法”

人工智能(AI)正在引领下一波革命性的技术变革。尽管AI的能力令人着迷,但人们对其潜在风险的担忧也在增加。虽然像ChatGPT这样的AI聊天机器人处于前沿,只需一个提示就可以简化任务,但像PassGAN这样的工具却增加了网络安全风险。随着人们接受人工智能,了解潜在的网络安全风险以及如何在这个不断发展的领域中保护自己至关重要。本文讨论了如何使用AI工具来破解密码以及如何保护自己免受此类攻击的方法。 还阅读:黑客使用WormGPT攻破电子邮件安全 AI的惊人力量 AI进入我们的日常生活,带来了令人敬畏和担忧之处。虽然AI能够为增长和创新带来巨大机遇,但它也有一定的弱点需要解决。最近,人们开始关注AI在破解网络安全(尤其是密码)方面的潜力。最近的一项研究发现,AI能够在不到60秒的时间内破解一些最常用的密码。 还阅读:FraudGPT:AI驱动的网络犯罪工具的惊人崛起 揭示威胁 AI动力密码破解工具所带来的威胁程度令人震惊。网络安全公司Home Security Heroes进行了一项全面的研究,揭示了AI在这个领域的强大能力。他们的研究结果显示,专门的AI工具,特别是AI动力的PassGAN(密码生成对抗网络),不仅可以破解密码,而且可以以惊人的效率进行破解。 还阅读:黑客在DEF CON上用恶作剧揭示了AI的漏洞 巧妙的方法论 开创性的PassGAN工具利用了生成对抗网络(GAN)这一机器学习技术。它从过去的数据泄露中学习真实密码的模式和分布,使其能够创建多个组合来尝试在最短时间内破解用户的密码。 令人恐惧的统计数据 该研究的结果对所有互联网用户而言是个警钟。令人震惊的是,超过一半(51%)的常用密码可以在不到60秒的时间内被破解。情况迅速升级-在一个小时内,这个百分比跳至61%。更令人不安的是,71%的密码可以在一天内被破解,令人惊讶的是,81%的密码可以在一个月内被破解。 还阅读:中国黑客入侵微软云,潜伏一个多月未被察觉 加强你的防御 考虑到这个令人不安的现实,保护您的数字存在从未如此重要。该研究强调,长度少于七个字符的密码,即使包含符号,也可以在不到六分钟的时间内解锁。无论多么复杂,一个包含数字、大写字母、小写字母和符号的六个字符的密码都可以被像PassGAN这样的AI立即破解。 还阅读:谷歌推出面向网络安全的生成式AI AI无法破解的密码类型:力求无敌 然而,还没有完全失去希望。该研究强调,超过18个字符的密码是抵御AI工具的理想防御措施。如果密码纯粹是数字,AI将花费近一年的时间来破解它。或者,一个包含数字、小写字母、大写字母和符号组合的18个字符的密码将令AI为之困惑整整六万亿年-也就是六百万亿年! 如何保护密码免受AI攻击 为了增强对人类和AI威胁的防御,制定密码时请遵循以下最佳实践: 长度至关重要:选择至少15个字符的密码。 混合使用:结合大写字母、小写字母、数字和符号。…

Leave a Comment

研究:具有社交意识的时间因果解码推荐系统

由Google Research的研究工程师Eltayeb Ahmed和高级研究科学家Subhrajit Roy发布 阅读对年轻学生有很多好处,比如更好的语言和生活技能,而且阅读的乐趣已被证明与学业成就相关。此外,学生通过阅读报告表明情绪健康得到改善,也有更好的常识和对其他文化的更好理解。在线和离线阅读材料数量庞大,找到适合年龄、相关和有吸引力的内容可能是一项具有挑战性的任务,但帮助学生做到这一点是促使他们参与阅读的必要步骤。提供学生相关阅读材料的有效推荐有助于保持学生的阅读兴趣,这就是机器学习(ML)的用武之地。 ML在构建各种数字内容的推荐系统中得到广泛应用,范围从视频到书籍到电子商务商品。推荐系统在各种数字平台上被用于帮助用户发现相关且有吸引力的内容。在这些系统中,根据用户喜好、用户参与度以及推荐项,ML模型经过训练以为每个用户推荐项目。这些数据为模型提供了强有力的学习信号,使其能够推荐可能感兴趣的项目,从而提高用户体验。 在“STUDY: 社会感知时间因果解码推荐系统”中,我们提出了一种在教育环境中针对有听觉障碍学生的有声书内容推荐系统,考虑到阅读的社交性质。我们与教育非营利组织Learning Ally合作开发了STUDY算法,旨在通过学校全员订阅计划为学生提供有声书籍,推广阅读。通过利用Learning Ally图书馆中丰富的有声书籍,我们的目标是帮助学生找到合适的内容,提升他们的阅读体验和参与度。受到“一个人的同伴当前在读什么对他们找到有趣的阅读材料有重大影响”的事实的启发,我们共同处理在同一教室里的学生的阅读参与历史。这使得我们的模型能够从学生所在社交群体(在本例中是教室)中获得当前流行的实时信息。 数据 Learning Ally拥有一个大型的针对学生的有声书籍数字图书馆,非常适合构建社交推荐模型以帮助提高学生的学习成果。我们获得了两年的匿名化有声书籍消费数据。所有学生、学校和分组的数据均经过匿名化处理,仅由Google生成的随机ID标识,无法追溯到真实实体。此外,所有可能识别的元数据仅以聚合形式共享,以保护学生和机构免受重新识别。数据包括学生与有声书籍的互动的时间戳记录。对于每个互动,我们有一个匿名化的学生ID(包括学生的年级水平和匿名化的学校ID)、有声书籍标识符和日期。虽然许多学校将同一年级的学生分配到多个教室,但我们利用这些元数据做出简化的假设,即同一学校和同一年级水平的学生在同一个教室。虽然这为构建更好的社交推荐模型提供了基础,但重要的是要注意,这并不能使我们重新识别个人、班级群体或学校。 STUDY算法 我们将推荐问题构建为点击率预测问题,在此问题中,我们建模用户在特定项目上与用户特征和项目互动历史序列之间的条件概率。先前的工作表明,Transformer模型是适用于建模这个问题的广泛使用的模型类别,这是由Google Research开发的。当每个用户独立处理时,这变成了一个自回归序列建模问题。我们使用这个概念框架来建模我们的数据,然后将这个框架扩展为创建STUDY方法。 虽然这种点击率预测方法可以建模一个个用户过去和未来的项目偏好之间的依赖关系,并且可以在训练时学习跨用户的相似性模式,但它不能在推理时建模不同用户之间的依赖关系。为了认识到阅读的社交性质并解决这个缺点,我们开发了STUDY模型,它将每个学生阅读的多个书籍序列连接成一个单一序列,从多个学生在同一个教室中收集数据。 然而,这种数据表示需要仔细处理,以便可以由transformers模型建模。在transformers中,注意力掩码是控制哪些输入可以用于为哪些输出提供预测的矩阵。使用先前序列中的所有令牌来提供输出的预测模式导致传统上在因果解码器中找到的上三角形注意力矩阵。然而,由于输入到STUDY模型的序列没有时间顺序,尽管其各个子序列是有序的,标准的因果解码器不再适合此序列。当尝试预测每个令牌时,模型不允许关注序列中在其之前的每个令牌;其中一些令牌可能具有较晚的时间戳,包含的信息在部署时将不可用。 在这个图中,我们展示了通常在因果解码器中使用的注意力掩码。每一列代表一个输出,每一行代表一个输入。在特定位置的矩阵条目的值为1(显示为蓝色)表示模型在预测相应列的输出时可以观察到该行的输入,而值为0(显示为白色)表示相反。 STUDY模型基于因果变压器,通过用基于时间戳的灵活注意力掩码替换三角形矩阵注意力掩码,允许在不同子序列之间进行注意力。与常规变压器相比,后者不允许在不同子序列之间进行注意力,并且在序列内部具有三角形矩阵掩码,STUDY在序列内部保持因果三角形注意力矩阵,并且具有依赖于时间戳的序列之间的灵活值。因此,序列中任何输出点的预测都受到相对于当前时间点的过去发生的所有输入点的影响,无论它们在序列中的当前输入之前还是之后出现。这种因果约束非常重要,因为如果在训练时不强制执行,模型可能会学习使用未来的信息进行预测,而这在实际部署中是不可用的。 在(a)中,我们展示了一个顺序自回归变压器,具有因果注意力,它逐个处理每个用户;在(b)中,我们展示了一个等效的联合前向传递,其结果与(a)相同;最后,在(c)中,我们展示了通过在注意力掩码中引入新的非零值(显示为紫色),我们允许信息在用户之间流动。我们通过允许预测基于较早时间戳的所有交互,无论交互是否来自同一用户,来实现这一点。 实验 我们使用Learning Ally数据集训练了STUDY模型,并与多个基准模型进行了比较。我们实现了一个自回归点击率变压器解码器,我们称之为“Individual”,一个k最近邻基准模型(KNN),以及一个可比较的社交基准模型,社交注意力记忆网络(SAMN)。我们使用第一个学年的数据进行训练,使用第二个学年的数据进行验证和测试。 我们通过测量用户实际交互的下一个项目在模型的前n个推荐中的时间百分比来评估这些模型,即hits@n,对于不同的n值。除了在整个测试集上评估模型之外,我们还报告了模型在两个比整个数据集更具挑战性的测试集子集上的得分。我们观察到学生通常会在多个会话中与有声读物进行交互,因此仅仅推荐用户最后阅读的书籍将是一个强大的平凡推荐。因此,第一个测试子集,我们称之为“非连续”,是指我们只关注每个模型在学生与与之前交互不同的书籍进行推荐时的性能。我们还观察到学生会重读他们过去阅读过的书籍,因此可以通过限制为每个学生推荐仅限于他们过去阅读过的书籍来实现对测试集的强大性能。尽管向学生推荐旧的喜爱书籍可能有价值,但推荐系统的很大价值来自于推荐用户新的、未知的内容。为了衡量这一点,我们在测试集的子集上评估模型,其中学生第一次与某个标题进行交互。我们将这个评估子集命名为“新颖”。…

Leave a Comment

2023年使用的10个最佳AI图像生成工具

到2023年,最好的AI图像生成器要复杂和先进得多,促进了独特的设计。设计师们可以使用无缝解决方案来应对时间限制和创意障碍,从而打开无限创意可能的王国。本文将研究2023年的前10个AI图片生成器工具,为设计师提供创造视觉震撼内容的新自由。让我们一起探索当今的AI图片生成技术如何改变创意产业。 什么是AI图像生成器? 通常被称为AI图像生成器的是一种利用学习现有数据的模式来创建或生成新图像的AI技术。这种图像生成器的其他技术名称包括AI驱动的图像合成工具或生成对抗网络(GAN)。 生成对抗网络由两个神经网络组成,一个是生成器,另一个是判别器。这两个网络同时进行竞争性的过程。生成器创建新鲜图像,判别器将其与数据集进行比较。由于生成器越来越逼真的视觉效果,它积累经验后可以在艺术、设计、娱乐等各个领域得到广泛应用。 AI图像生成器如何帮助设计师? 设计师们通过AI图像生成器可以获得各种好处: 可访问性:AI生成的图片可以使那些没有实质性设计经验的人更容易获得内容制作和设计工具。 艺术协作:借助AI技术,设计师和艺术家可以合作创作将人类创新与AI生成特征相结合的混合艺术作品。 增强创造力:AI图像生成器可以作为动力的源泉,鼓励设计师们在限制之外探索,尝试新颖的设计方法。 探索风格:设计专业人员可以尝试许多艺术和审美风格,从而扩大他们的创意可能性。 创意生成:设计师可以快速产生各种设计概念和变体,探索新鲜的概念和角度。 个性化和定制:设计师可以应用人工智能来生成根据特定客户、受众或品牌原则定制的个性化视觉效果。 时间效率:通过自动化单调的流程,AI生成器可以大大加快设计过程,使设计师能够集中精力进行更富有想象力和战略性的工作。 视觉原型:设计师可以在进行大量手动设计工作之前,借助AI生成器产生的视觉原型和模型来可视化想法。 前10个AI图像生成器 以下是2023年前10个经过仔细评估的AI图像生成器的列表: 工具名称 应用 免费使用 起始高级价格 最佳用途 Jasper Art 无 7天试用…

Leave a Comment

Can't find what you're looking for? Try refining your search: