Press "Enter" to skip to content

四海吧 Posts

Binny Gill,Kognitos的创始人兼首席执行官 – 采访系列

Binny Gill拥有丰富多样的工作经验,涵盖了多个职位和公司Binny目前是Kognitos公司的创始人兼首席执行官,该公司致力于使编程变得易于接触,并帮助企业优化运营和客户体验Binny在计算机科学领域是一位多产的发明家,拥有近100项专利,并相信[…]

Leave a Comment

AI客户服务 | 前十个应用案例

无论对于任何公司,客户查询都是无穷无尽的。随着问题的增多或为了熟悉公司的产品,每家公司都努力降低响应时间并加快解决过程的速度。在这种情况下,与传统的人工智能系统相比,基于生成式人工智能(Generative AI)的系统更高效。生成式人工智能能够生成与传统人工智能系统不同的新颖数据。它利用大型语言模型(LLMs)和深度学习技术来解释自然对话的响应。目前正在进行更多的研究和进展,以便更容易理解复杂的查询,其中只有一小部分通过当前基于聊天机器人的客户查询可见。 使用生成式人工智能在客户服务中的好处 响应时间改善:引入生成式人工智能可以减少客户的等待时间,提供迅速的响应,并旨在即时解决问题。 可扩展性和24/7可用性:通过使用人工智能进行可扩展的操作,消除了雇佣多个人处理客户的繁琐过程,最大程度地减少了工作量和成本,使其成为一种可持续、可扩展的选择。它还消除了时间限制。它确保在工作时间以外和没有员工的情况下提供支持。 增强个性化:通过更快的提供和全天候可用性,进一步提升了客户体验。与人类相比,客户得到了更高效的回应,这几乎是我们所有人都见证过的。 回应的一致性:通过人工智能生成的回应,客户可以获得解决方案的一致性和准确性。他们可以保持统一的语气和信息输出。 来源:Hubspot 了解有关生成式人工智能工具的全部信息,如何使用它们,它们如何帮助您的日常工作生活等。参加我们独家的生成式人工智能项目! 选择用于客户服务的生成式人工智能 每个公司的一般客户服务和人工智能客户服务都因其业务而异。技术专长、使用案例和预算等因素是关键的决定因素。逐步行动的步骤应该是首先了解不同的生成式人工智能模型,然后选择适合需求的正确模型。 不同的生成式人工智能模型 语言模型(例如GPT-3) 这是一个带有预训练功能的旧版本,用于生成模仿人类文本。GPT-3是一种功能多样的人工智能,可以进行多个应用的精细调整。在客户服务中,它更适用于回答常见问题、生成书面内容和提供信息。语言模型易于通过API获得,并支持多种语言。然而,它们可能需要一定数量的数据和专业知识来对特定的客户服务任务进行精细调整。 聊天机器人和虚拟助手 这些是专门设计用于端到端的对话客户互动。它们可以由规则或自然语言处理模型提供动力。聊天机器人和虚拟助手用于处理常规查询、自动化客户互动和提供即时响应。它们可以根据品牌的语气和风格进行定制。这些类型的生成式人工智能提供实时客户支持,可以处理大量查询,并与消息平台集成。它们可能难以回应复杂的查询。 定制的生成式模型 定制化是指为公司特定的客户服务任务训练人工智能模型。定制化可能依赖于现有框架,也可能从零开始。人工智能客户服务的应用是在独特的客户服务需求中。由于基于公司的训练,这些生成式人工智能可以灵活控制特殊任务。创建过程涉及技术专长,并需要投入时间和金钱。 选择适合您的客户服务需求的正确模型 上述类型展示了不同公司的不同需求。因此,选择正确的模型也是主观的。分析以下步骤有助于做出合乎逻辑的决策: 了解需求,包括要处理的查询类型和要执行的具体任务 了解可用的资本、资源和技术专长的可用性 查看可用数据及其适用于不同模型的情况 考虑可扩展性,以满足增长预期 检查生成式模型是否符合您的测试和评估参数…

Leave a Comment

人工智能中的最佳优先搜索

人工智能已经成为我们生活的一部分,并在我们的日常活动中提供帮助。无论是计算机、设备还是其他设备,基于人工智能的算法模型都有助于简化我们的任务和时间管理。在人工智能领域中,一种特定的算法是最佳优先搜索。它像一个智能探险者,帮助计算机程序在每一步做出正确的决策选择正确的路径。人工智能中的最佳优先搜索使我们的任务变得简单,减少了工作和时间的投入,从而实现高效的决策和更快的目标实现。 什么是最佳优先搜索? 最佳优先搜索(Best First Search)是一种遵循特定规则并使用优先队列和启发式搜索的搜索算法。它非常适合计算机在可能性迷宫中评估适当和最短路径。假设你被困在一个大迷宫中,不知道如何快速退出。在这里,人工智能中的最佳优先搜索可以帮助您的系统程序评估和选择每一步的正确路径,以尽快达到目标。 例如,想象一下,你正在玩超级马里奥或Contra的视频游戏,你必须达到目标并杀死敌人。最佳优先搜索帮助计算机系统控制马里奥或Contra检查最快的路线或方法来杀死敌人。它评估不同的路径,并选择最近的一个没有其他威胁的路径,以尽快达到目标并杀死敌人。 人工智能中的最佳优先搜索是一种明智的搜索,它利用评估函数在切换(遍历)到下一个节点之前选择众多可用节点中有前途的节点。人工智能中的最佳优先搜索算法使用两个列表来监控搜索图空间时的遍历,即Open和CLOSED列表。一个Open列表用于监控当前可用于遍历的直接节点。相反,CLOSED列表用于监控已经被传输的节点。 最佳优先搜索的关键概念 以下是人工智能中最佳优先搜索的一些关键特点: 路径评估 在使用最佳优先搜索时,您的系统始终寻找可能的节点或路径。然后,它选择最有前途或最佳的节点或路径,该节点或路径有资格遍历最短距离节点或路径以达到目标并退出迷宫。 启发式函数的使用 最佳优先搜索使用启发式函数进行明智的决策。它有助于找到通向目标的正确和快速路径,称为启发式搜索。迷宫中用户的当前状态是该函数的输入,它根据此状态估计用户离目标有多近。根据分析结果,它帮助在合理的时间内到达目标并以最少的步骤实现目标。 跟踪 人工智能中的最佳优先搜索算法帮助计算机系统跟踪它已经遍历或计划遍历的路径或节点。它防止系统陷入先前测试过的路径或节点的循环中,并帮助避免错误。 过程迭代 计算机程序不断重复上述三个标准的过程,直到达到目标并退出迷宫。因此,人工智能中的最佳优先搜索根据启发式函数始终重新评估最有前途的节点或路径。 什么是启发式函数? 启发式函数是指在明智搜索和评估通向目标的最佳或有前途的路径、路线或解决方案时使用的函数。它有助于在较短的时间内估计正确路径。然而,启发式函数并不总是提供准确或优化的结果。有时,它会生成次优化的结果。启发式函数是h(n)。它计算一对状态之间的最优路径或路径的成本,其值始终为正数。 算法细节 搜索算法基本上有两类: 非一致算法 它也被称为盲目方法或穷举方法。搜索是在没有额外信息的情况下进行的,这意味着基于问题陈述中已给出的信息。例如,深度优先搜索和广度优先搜索。 启发式算法 计算机系统根据提供的额外信息进行搜索,使其能够描述评估解决方案或达到目标路径的后续步骤。这种广为人知的方法被称为启发式方法或启发式搜索。在成本效益、效率和整体性能方面,启发式方法优于盲目方法。…

Leave a Comment

蛋白质设计的下一步是什么?微软的研究人员引入了EvoDiff:一种革命性的AI框架,用于基于序列的蛋白质工程

深度生成模型在原位创造新型蛋白质方面越来越强大。扩散模型是一类最近被证明能够产生与自然界中任何实际蛋白质都不同的生理学合理蛋白质的生成模型,它们在全新蛋白质设计中提供了无与伦比的能力和控制。然而,当前最先进的模型只能构建蛋白质结构,这严重限制了它们的训练数据范围,并将生成限制在蛋白质设计空间的一个微小且有偏见的部分。微软研究员开发了EvoDiff,这是一个通用的扩散框架,它通过结合进化规模的数据和扩散模型的独特调节能力,允许在序列空间中进行可调节的蛋白质创造。EvoDiff可以使结构合理的蛋白质变化多样,涵盖了所有可能的序列和功能范围。序列为基础的公式的普适性通过EvoDiff可以构建结构为基础的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架。他们希望EvoDiff能为蛋白质工程中的可编程序列优先设计铺平道路,使他们能够超越结构-功能范式。 EvoDiff是一个新颖的生成建模系统,仅基于序列数据进行可编程蛋白质创造,通过结合进化规模的数据和扩散模型开发而成。他们使用离散扩散框架,其中正向过程通过改变氨基酸的身份,迭代地破坏蛋白质序列,而学习到的反向过程则由神经网络参数化,预测每次迭代所做的更改,利用蛋白质作为离散令牌序列的自然特征。 蛋白质序列可以使用反向方法从头开始创建。与传统用于蛋白质结构设计的连续扩散公式相比,EvoDiff所使用的离散扩散公式在数学上具有显著的改进。多重序列比对(MSAs)突出显示了相关蛋白质群体的氨基酸序列的保守性模式和变异,从而捕捉到了超出单个蛋白质序列进化规模数据集的进化联系。为了利用这种额外的进化信息深度,他们构建了在MSAs上训练的离散扩散模型,以产生新的单一序列。 为了说明他们在可调节蛋白质设计方面的有效性,研究人员对一系列生成活动进行了序列和MSA模型(EvoDiff-Seq和EvoDiff-MSA)的检验。他们首先展示了EvoDiff-Seq可靠地产生高质量、多样化的蛋白质,准确反映了自然界中蛋白质的组成和功能。通过将具有类似但独特进化历史的蛋白质与对齐,EvoDiff-MSA允许引导开发新的序列。最后,他们展示了EvoDiff可以可靠地生成具有无序区域的蛋白质,直接克服了基于结构的生成模型的一个关键限制,并且可以生成没有任何显式结构信息的功能结构基序的支架,通过利用扩散模型框架的调节能力和其在通用设计空间中的基础。 为了生成具有序列限制的多样且新颖的蛋白质,研究人员提出了EvoDiff,这是一个扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff可以通过从序列数据中生成内在无序区域和支撑结构基序,无条件地采样结构合理的蛋白质多样性。在蛋白质序列进化中,EvoDiff是第一个展示扩散生成建模效果的深度学习框架。 通过引导的调节,可以在未来的研究中添加这些能力。EvoDiff-D3PM框架对于通过引导进行调节工作是自然的,因为可以在每个解码步骤中编辑序列中的每个残基的身份。然而,研究人员观察到OADM在无条件生成方面通常优于D3PM,这可能是因为OADM的去噪任务比D3PM更容易学习。不幸的是,OADM和其他现有的条件LRAR模型(如ProGen)降低了引导的效果。预计通过将EvoDiff-D3PM与序列功能分类器所描述的功能目标进行调节,可以生成新颖的蛋白质序列。 EvoDiff的数据要求很低,这意味着它可以很容易地适应未来的用途,这是结构为基础方法所无法实现的。研究人员已经证明,EvoDiff可以通过填充而无需微调来创建IDR,避免了基于结构的预测和生成模型的一个经典陷阱。获取大规模测序数据集的结构的高成本可能会阻止研究人员使用新的生物、医学或科学设计选项,这些选项可以通过在应用特定数据集上微调EvoDiff来实现,例如来自展示库或大规模筛选的数据集。尽管AlphaFold和相关算法可以预测许多序列的结构,但在指示虚假蛋白质的结构时,它们在点突变方面存在困难,并且可能过于自信。 研究人员展示了几种粗粒度的通过支架和修复来调节产物的方式;然而,EvoDiff可以根据文本、化学信息或其他形式的模态来提供对蛋白质功能的更精细调控。在未来,可调节的蛋白质序列设计的概念将以多种方式使用。例如,有条件设计的转录因子或内切酶可用于程序化调节核酸;生物制剂可优化用于体内传递和运输;而酶底物特异性的零样本调节可以打开全新的催化途径。 数据集 Uniref50是一个包含约4200万个蛋白质序列的数据集,由研究人员使用。MSAs来自OpenFold数据集,其中包括16,000,000个UniClust30聚类和401,381个MSAs,涵盖了140,000个不同的PDB链。关于IDRs(内在无序区)的信息来自Reverse Homology GitHub。 研究人员在支架结构基元挑战中使用了RFDiffusion基线。在examples/scaffolding-pdbs文件夹中,您可以找到可用于有条件生成序列的pdb和fasta文件。examples/scaffolding-msas文件夹还包含可以根据特定条件创建MSAs的pdb文件。 当前模型 研究人员研究了两种前向技术,以决定在离散数据模态上扩散的最高效技术。每个粗体的步骤中,一个氨基酸被转换为唯一的掩码标记。完整序列在一定数量的阶段后被隐藏。该组还开发了离散去噪扩散概率模型(D3PM),专门用于蛋白质序列。在EvoDiff-D3PM的前向阶段,根据过渡矩阵对行进行突变采样。这一过程会一直持续,直到序列无法与氨基酸上的均匀样本区分开为止。在所有情况下,恢复阶段涉及重新训练神经网络模型以消除损害。对于EvoDiff-OADM和EvoDiff-D3PM,训练模型可以从遮蔽标记的序列或均匀采样的氨基酸产生新的序列。他们使用CARP蛋白质遮蔽语言模型中首次出现的扩张卷积神经网络架构,在UniRef50的4200万个序列上训练了所有EvoDiff序列模型。对于每种前向损坏方案和LRAR解码,他们开发了具有3800万和6400万训练参数的版本。 关键特点 为了生成可管理的蛋白质序列,EvoDiff将进化规模的数据与扩散模型结合。 EvoDiff可以使结构合理的蛋白质多样化,覆盖了可能序列和功能的全部范围。 除了生成具有无序区段和其他结构模型无法访问的特征的蛋白质之外,EvoDiff还可以产生用于功能性结构基元的支架,证明了基于序列的公式的普适性。 总之,微软科学家发布了一组离散扩散模型,可用于在基于序列的蛋白质工程和设计中进行进一步开发。可以根据结构或功能扩展EvoDiff模型,并且可以立即用于无条件、进化引导和有条件的蛋白质序列创建。他们希望通过直接使用蛋白质语言进行阅读和写入过程,EvoDiff将为可编程蛋白质创造开辟新的可能性。

Leave a Comment

麻省理工学院的研究人员创建了一个新的带注释的合成图像数据集,该数据集描绘了各种场景,以帮助机器学习模型理解场景中的概念

大规模预训练的视觉与语言模型在众多应用中展示出了非凡的性能,使得可以用无需指定固定的支持类别,而是通过(几乎任意的)自然语言查询进行零样本开放词汇推理。然而,最近的研究揭示了这些模型的一个根本缺陷。例如,它们无法理解超越名词的视觉语言概念(VLC),如非物体词语(例如属性、动作、关系、状态等)的意义,或者它们在组合推理方面的困难,如理解句子中词语顺序的重要性。 视觉与语言模型是强大的机器学习算法,可以学习将文本与图像匹配,当被要求生成视频标题或摘要时,它们展示出了非凡的结果。尽管这些模型擅长区分物体,但它们经常需要帮助理解概念,例如物体的属性或场景中物品的排列。例如,一个视觉与语言模型可能会看到图像中的杯子和桌子,但无法理解杯子在桌子上方的概念。 麻省理工学院的研究人员展示了一种利用计算机生成数据来帮助视觉与语言模型克服这个缺陷的新技术。具体而言,他们提出增强生成的视觉和文本数据的VLC和组合性方面,然后使用这些数据来微调VL模型,指导它们更加关注这些特征。此外,与实际数据始终伴随的隐私问题相比,合成数据不仅本质上是免费和无限可扩展的,而且可以不受隐私问题的限制。创建能够有效用于增强在大量实际数据上预训练的VL模型的VLC和组合性方面的合成数据,还面临其他技术挑战。与大多数以前关于生成合成视觉数据的工作不同,他们必须开发描述场景的组合元素的图像和文本。此外,他们生成利用真实物理3D模拟的合成视频,例如多样的3D环境和多样的3D物体、人体动作和动作资产,与物体的交互以及不同的摄像机角度。 以前的工作利用动作资产生成合成数据,但视觉数据没有伴随文本标题,并且需要考虑组合性。研究人员为合成视觉概念(SyViC)做出贡献,这是一个大规模(百万级)生成的合成VL数据集,具有丰富的文本标题,可以通过数据合成代码轻松扩展,以及所有先前生成的百万级合成数据。 贡献 研究人员贡献了SyViC – 一个百万级的合成数据集,具有丰富的文本注释,旨在增强VL模型的VLC理解和组合推理能力,以及其合成和潜在可扩展性的方法和生成代码库2。 有效的通用VL模型微调,利用SyViC数据改善强大的预训练VL模型的特性,而不损害其零样本性能。 实验结果和全面的消融研究表明,在最新的VL-Checklist、ARO和Winoground基准测试中,VLC理解和组合推理有显著改善(在某些情况下超过10%),并在最流行的CLIP模型及其衍生模型(例如最新的CyCLIP)上得到验证。 结果 使用所提出的方法和SyViC合成数据生成了所有模型的变体。在对SyViC进行微调之前,将每个模型与其分别在大规模实际数据上训练的源模型进行了比较。根据研究人员的发现,无论是SyViC合成数据还是提出的微调方法,都相对于各自的源基线表现出显著的改进。此外,研究人员还展示了在VL-Checklist和ARO基准测试中为CLIP获得的个别VLC指标改进,分别达到9.1%和12.6%的绝对改进。这证明了该方法和SyViC合成数据在提高VL模型的VLC理解和组合推理能力方面的效率和潜力。 在这里尝试 https://synthetic-vic.github.io/ 局限性 尽管研究人员在三个不同的基准测试中获得了相当有希望的结果,但他们的工作还存在一些限制。例如,图形模拟器对照片亮度、传感器噪声和反射函数的模型与实际世界相比较简化,可能影响颜色恒定性的稳健性。更复杂的领域适应和渲染技术可能需要进一步提高结果。此外,对合成数据的缩放规律进行更深入的研究将是充分发挥该工作潜力的一种优秀方式。 总结 大型视觉和语言模型决定了计算机视觉和多模态感知的现状,在多个困难的基准测试中取得了尖端的成果。然而,现有模型在组合推理和理解物体名词之外的概念(如属性和关系)方面需要帮助。这是第一次研究合成数据是否可以减轻这些不足。麻省理工学院的研究人员提出了一个数据生成流水线,用于创建一个百万级的合成图像数据集和相应的标题,并提供了一种高效的微调策略和全面的分析,以提高多模态模型的组合和概念理解能力,同时不影响它们的零样本分类性能。

Leave a Comment

“见证CodiuAI:为开发者打造的终极AI测试助手”

在快节奏的软件开发世界中,编写测试通常被认为是一项繁琐的任务,会占用实际编码的时间。遇见 CodiumAI,一款革命性的工具,旨在通过在集成开发环境中生成有意义的测试来让您的生活更轻松。无论您是在处理小型脚本还是大型项目,CodiumAI 都能满足您的需求。它支持几乎所有的编程语言,让您可以编写智能代码,创造更多价值,并在推送更改时保持自信。有了 CodiumAI,您可以真正按照自己的意图编码。 CodiumAI 的关键功能 生成测试套件 CodiumAI 不仅是另一个测试工具;它是您的自动化测试助手。它允许您为各种类型的代码生成全面的测试套件,无论是类、函数还是小片段。自动化过程旨在节省您的时间和精力,让您专注于自己最擅长的——编码。 无论您是要测试特定的类、函数还是一小段代码,CodiumAI 都提供了生成有意义的测试用例的功能。这些测试确保您的代码质量和可靠性,使您的开发过程更加高效。 代码分析 质量不仅仅是通过测试,还包括理解代码的底层结构和行为。CodiumAI 提供了深入的代码分析功能,超越表面。在生成测试套件的同时,CodiumAI 的 TestGPT 模型从头到尾分析您的代码,以简单的文本输出向您提供有价值的见解。 代码建议 CodiumAI 进一步提供了“代码建议”功能。这个高级工具分析您的代码并提供有价值的改进建议。凭借 TestGPT 提供的能力,该功能将其专业知识扩展到代码质量的各个方面,从性能优化到最佳实践。 运行测试 一旦生成了全面的测试套件,运行测试就变得轻而易举。CodiumAI 通过其面板提供了无缝体验,您可以在其中执行测试以确定其是否通过。这确保您可以快速识别问题,并进行必要的调整,而无需离开开发环境。…

Leave a Comment

这项人工智能研究介绍了AstroLLaMA:一种从LLaMA-2微调的70亿参数模型,使用了来自ArXiv的30万多个天文学摘要

大型语言模型(LLM)的出现引起了许多领域的关注,因为几个重要因素同时出现。这些因素包括可获得的大量数据、计算机性能的提升以及神经网络设计的突破。像GPT-4、PaLM和LLaMA这样的著名模型表明,它们能够非常好地完成许多不同的任务。这些任务通常使用的方法包括给它们提示、微调它们的能力以及从人类那里获得反馈来帮助它们学习和改进。天文学学科既是一个独特的挑战,也是LLMs应用的肥沃土壤。 在上面的图片中,我们可以注意到每个模型都以相同的短文本片段为提示,在各自的框中进行了突出显示。GPT-4往往产生更加通用的陈述,缺乏领域特定的细微差别。AstroLLaMA展示了最强大的完成能力,提供了更相关的概念和更深入的洞察,特别适用于天文学领域,因此在性能上显著优于LLaMA-2和GPT-4。 然而,AstroLLaMA确实存在一些需要认识到的局限性。一个重要的局限性是模型在天文学特定领域的知识缺乏,AstroLLaMA从Gaia-ESO数据中估计潜在星体候选者的能力明显不准确。为了解决这些问题,研究人员目前正在努力增强AstroLLaMA的训练数据集。研究人员计划不仅使用摘要,还将纳入现有天文学文章的完整LaTeX源代码。这样的扩展将大大增加模型能够学习的令牌数量。 AstroLLaMA是专门为天文学设计的令人印象深刻的大型语言模型(LLM)的原型。它展示了非凡的上下文感知能力,即使它的参数大大少于GPT-4,也能胜过GPT-4。这一进展不仅为回答问题、总结科学内容和生成假设等各种任务的性能提供了机会,而且对于多模型模型也具有重要意义。

Leave a Comment

学习如何使用AWS SageMaker JumpStart基础模型构建和部署使用工具的LLM代理

大型语言模型(LLM)代理是将独立的LLM的功能扩展到以下两个方面的程序:1)访问外部工具(API、函数、Webhook、插件等),2)能够自主计划和执行任务通常,LLM需要与其他软件、数据库或API进行交互以完成复杂任务[…]

Leave a Comment

“无脑”软体机器人在机器人领域取得突破,能够在复杂环境中导航

在不断发展的机器人领域,研究人员引入了一项新的突破性技术:一种软体机器人,即使在复杂环境中也不需要人类或计算机的指导就能进行导航这项新发明是在之前的工作基础上进行的,该软体机器人在较简单的迷宫中展示了基本的导航技能利用物理智能进行导航的研究由Jie Yin进行

Leave a Comment

2023年10个用于照片和视频的AI深度伪造生成器

使用AI深度伪造生成器和使用人工智能的软件工具可以创建人们从未说过或做过的视频和音频录音。为了实现这一点,使用了大量包含目标个体的真实媒体来训练神经网络。网络被训练以识别个人并模仿他们的外貌、言语和行为。 AI深度伪造生成器有广泛的潜在用途,可以用于制作喜剧视频或教学材料。以下是一些用于照片和视频的AI深度伪造生成器。 Zao 我们的首选是Zao,这是一个移动深度伪造工具,对于替换电影中的人脸表现出色。该软件使用计算机视觉自动从视频中提取人脸。用户可以从他们的图库或视频源中选择一个人脸,并轻松将其融入到自拍视频中。Zao以其逼真的换脸能力脱颖而出,得益于其精湛的跟踪和平滑技术。即使用户移动头部或照明变化,该软件也可以可靠地工作。用户可以访问许多名人、虚构角色和模因主题的克隆模板。Zao在深度伪造体验方面具有专业的易用性设计,尤其适用于移动设备。 Reface 在换脸和融合方面,Reface表现出色,是最好的深度伪造工具之一。其简单的设计和快速的渲染速度使其成为长盛不衰的喜爱之选。Reface使用户能够简单地选择一个目标脸,并将其平滑地插入到视频中。即使对齐不完美,效果的质量仍然很好。Reface的用户可以选择各种名人面部模板、GIF和病毒式模因。自动平滑功能可以使效果保持稳定。此外,用户可以利用人工智能将他们最喜欢的名人的相貌叠加到自拍照上,产生类似漫画的效果。尽管缺乏某些专业应用所需的精细调整的手动控制,Reface因其惊人的速度和简单性而成为热门选择。免费版本有广告,但专业版本的价格合理,适合需要深度伪造基本知识的个人使用。 Deep Face Lab Deep Face Lab由才华横溢的数据科学家IPerov策划,使用先进的算法创建逼真的换脸效果。用户可以根据自己的需求进行广泛的手动设置,对深度伪造进行精细调整。该工具不仅具有处理多目标电影的能力,还具有GAN训练、颜色校正、稳定化、语音克隆等功能,令人印象深刻。使用批处理功能,用户可以自动在整个文件夹或视频集合中无缝交换人脸。丰富的GitHub社区不断添加新模型和教程,以改进DeepFaceLab服务。然而,由于其复杂性和用户需要下载额外的库和更改设置,DeepFaceLab并不适合新手使用。愿意花时间和精力去掌握这个复杂程序的视频编辑者可以创建令人信服的深度伪造效果。 Avatarify Avatarify为Zoom、Skype和Google Meet等服务提供实时深度伪造面部滤镜。它使用新的WebGL实现在浏览器中运行深度学习模型。当用户选择一个要操作的脸并允许应用访问他们的相机时,Avatarify可以无缝地将定制的面部动画叠加到实时视频中。该软件特别适用于实时操纵,因为它可以轻松地从一个脸部复制表情到另一个脸部。这个有趣而互动的功能允许用户在实时通话中创建模因面孔和名人形象。由于其浏览器兼容性,分发非常简单。需要注意的是,使用Avatarify需要Python和Node.js。在性能较低的系统上,性能可能不稳定。即使到目前为止,Avatarify仍然是最广泛可用的用于在线视频聊天和广播的深度伪造工具之一。这是一个社区驱动的开源项目。 Deep Nostalgia Deep Nostalgia使用深度学习算法,通过重新创建简单的面部表情,为以前静态的图像赋予了运动感。当用户向应用程序提供一张面部图片时,Deep Nostalgia会自动生成该人眨眼、微笑和转动的GIF序列。尽管其实用性有限,Deep Nostalgia因其能够为复古照片注入新的生机而变得著名。该应用的吸引力在于它能够让历史照片和亲人的照片栩栩如生,引起观看者强烈的情感。该应用的功能很简单:用户必须上传他们的面部可见的自拍照。MyHeritage的受欢迎程度部分源于其基于云的处理服务的便捷性和低成本。结果的质量仍然相当基本,许多相同的模板动作被反复使用。Deep Nostalgia没有社交功能、手动控制和个性化空间。无论如何,Deep Nostalgia是一个有助于在复古图像中添加怀旧情怀的有趣工具。 Wombo Wombo是一款流行的人工智能(AI)驱动的头像和嘴唇同步应用,拥有超过7000万用户。用户拍摄的自拍照片和其他照片可以根据歌曲的节奏进行动画处理。该软件使用深度学习模型,将嘴部动作与声音完美同步。它还可以自动制作复制人类面部表情的动画。Wombo的技术还有待改进,但它能够完成其工作并提供可用的视觉和听觉同步效果。用户可以通过将音乐添加到自己的动画GIF中制作有趣的社交媒体视频。然而,由Wombo创建的头像可能会给人一种机器人的感觉。在个性化面部表情和情感方面还需要更多的灵活性。Wombo是一款易于使用的移动软件,利用人工智能帮助初学者制作舞蹈头像和嘴唇同步电影。该应用程序的用户界面包括方便的预设、滤镜和共享选项。…

Leave a Comment

斯坦福研究人员推出Protpardelle:一种突破性的全原子扩散模型,用于蛋白质结构和序列的共同设计

在蛋白质设计方面取得了令人瞩目的进展,一支研究团队揭示了全原子扩散模型Protpardelle,该模型解决了连续和离散蛋白质结构之间复杂的相互作用。该模型通过生成具有卓越质量、多样性和新颖性的蛋白质,突破了该领域的传统界限。 蛋白质是生物功能的关键,通过精确的化学相互作用协调各种重要过程。挑战在于准确地建模这些主要由侧链控制的相互作用,以实现有效的蛋白质设计。Protpardelle利用一种独特的“叠加”技术,涵盖了各种潜在的侧链状态,随后将它们折叠起来启动逆扩散进行样本生成。 通过与序列设计方法的协同作用,Protpardelle开创了全原子蛋白质结构和序列的共同设计。生成的蛋白质表现出卓越的质量,通过广泛接受的度量标准评估自洽性。这个度量标准预测设计序列的结构构象,并测量预测结构与采样结构之间的一致性。Protpardelle在长度不超过300个残基的蛋白质上始终保持着超过90%的成功率,与现有方法相比,在设计性方面取得了显著的进步。此外,它以大幅降低的计算成本实现了这一成就,突显了其高效性。 多样性是生成模型的一个关键特征,它能够防止模式崩溃并拓宽可行解的范围。Protpardelle在这方面表现出色,将样本聚类以揭示丰富的结构多样性。它在生成具有广泛的α型和β型结构的蛋白质方面具有出色的能力,证明了其多功能性。 重要的是,Protpardelle不受训练数据集的约束。它展示了锻造与训练集中不同的新型蛋白质的出色能力。这意味着它有潜力通过进入未知领域来改变蛋白质工程的方式。 Protpardelle的全原子模型在无条件蛋白质生成方面展示了其卓越能力,尤其在长度不超过150个残基的蛋白质方面表现出色。在结构相似性度量标准的评估下,它达到了约60%的成功率。对样本的视觉检查显示了多样的蛋白质折叠方式,丰富地装饰有二级结构元素。 Protpardelle精确地保持了生成样本的化学完整性,与天然蛋白质中观察到的键长和键角分布一致。该模型巧妙地捕捉了天然分布的主要chi角模式,提供了侧链行为的全面描述。 团队的网络架构是Protpardelle非凡能力的基础,它采用了具有策略性设计层和注意力头的U-ViT结构。噪声调节在训练过程中注入了关键信息。该模型在CATH S40数据集上进行了精心训练,证明了其基础的鲁棒性。 Protpardelle的独特去噪步骤是其采样过程的关键要素,进一步巩固了其尖端方法。这种改进的算法能够熟练地应对蛋白质生成过程的复杂性,优化参数以获得最佳结果。 Protpardelle的引入标志着蛋白质设计的范式转变,为生物技术和制药开启了前所未有的可能性。它将结构和序列无缝地融合在一起,有潜力在该领域开创新时代。随着研究人员继续探索其无限的能力,Protpardelle注定将重塑蛋白质设计和工程的领域。

Leave a Comment

遇见Würstchen:一个超快速和高效的扩散模型,其文本条件组件在高度压缩的图像潜空间中运作

文本到图像生成是人工智能领域中的一项具有挑战性的任务,它涉及从文本描述中创建图像。这个问题计算量大,并且训练成本高昂。对高质量图像的需求进一步加剧了这些挑战。研究人员一直在努力在这个领域中平衡计算效率和图像保真度。 为了高效解决文本到图像生成问题,研究人员引入了一种创新的解决方案,称为Würstchen。这个模型通过采用独特的两阶段压缩方法在该领域中脱颖而出。阶段A采用VQGAN,而阶段B使用扩散自动编码器。这两个阶段一起被称为解码器。它们的主要功能是将高度压缩的图像解码成像素空间。 Würstchen之所以与众不同,是因为它具有出色的空间压缩能力。而以前的模型通常只能实现4倍到8倍的压缩比,Würstchen通过实现了惊人的42倍空间压缩,突破了常见方法的局限性,这些方法在16倍空间压缩后往往难以忠实地重建详细图像。 Würstchen的成功归功于它的两阶段压缩过程。阶段A,即VQGAN,在将图像数据量化为高度压缩的潜空间中发挥关键作用。这种初始压缩显著减少了后续阶段所需的计算资源。阶段B,即扩散自动编码器,进一步改进了这种压缩表示,并以卓越的保真度重建图像。 将这两个阶段结合起来,就产生了一个能够从文本提示中高效生成图像的模型。这降低了训练的计算成本,提高了推断速度。重要的是,Würstchen在图像质量上没有妥协,使其成为各种应用的一个引人注目的选择。 此外,Würstchen还引入了阶段C,即先验,它是在高度压缩的潜空间中训练的。这为模型增加了额外的适应性和效率。它使Würstchen能够快速适应新的图像分辨率,最大限度地减少了针对不同场景进行微调的计算开销。这种适应性使其成为研究人员和组织在处理不同分辨率图像时的多功能工具。 Würstchen的训练成本降低可通过以下事实得以体现:Würstchen v1在512×512分辨率下只需要9000个GPU小时,而相同分辨率下的稳定扩散1.4则需要150,000个GPU小时。这种大幅降低的成本使研究人员可以更好地进行实验,并使组织更容易利用这种模型的强大功能。 总而言之,Würstchen为文本到图像生成领域的长期挑战提供了一种突破性的解决方案。其创新的两阶段压缩方法和令人瞩目的空间压缩比在效率方面树立了新的标准。通过降低训练成本和快速适应不同图像分辨率,Würstchen成为加速文本到图像生成领域的研究和应用开发的有价值的工具。

Leave a Comment

“猜猜我今天看到了什么?这个AI模型可以解码你的脑信号,重建你看到的东西”

大脑 ,人体最迷人的器官。理解它的工作原理是解开生命秘密的关键。我们是如何思考、感知、嗅觉、感觉、行动的?所有这些问题的答案都在于理解大脑的工作原理。 理解大脑对我们所看到的内容的反应是一个热门研究课题,因为这种知识可能导致先进的计算认知系统的发展。由于我们有功能磁共振成像(fMRI)和脑电图(EEG)等先进工具,科学家现在可以记录由视觉刺激引发的大脑活动。这导致了对解码和重建引发人脑这些反应的实际内容的兴趣日益增长。 研究人类视觉感知的一种常见方法是重建被试者在实验中看到的图像或视频。这是通过使用计算方法,尤其是深度神经网络,并且主要基于fMRI数据来完成的。然而,收集fMRI数据在实际使用中既昂贵又不方便。我的意思是,如果你曾经在MRI设备中待过,你可能知道待在那里是多么的不舒服。没有人愿意自愿参加这样的实验。 这就是脑电图的作用。脑电图是一种更高效的记录和分析大脑信号的方法,被试者在观看各种刺激时使用,但它也面临着自己的挑战。脑电图信号是时间序列数据,与静态图像非常不同。这使得将刺激与相应的脑信号片段匹配变得困难。此外,电极放置错误和身体运动等问题会给数据引入显著的噪声。简单地将脑电图输入映射到像素以进行图像重建会产生低质量的结果。 另一方面,扩散模型已经成为生成建模中的最先进方法。它们已成功应用于各种任务,包括图像合成和视频生成。通过在强大的预训练自动编码器的潜在空间中操作,研究人员克服了像素空间评估的局限性,实现了更快的推理和降低的训练成本。 让我们来认识一下NeuroImageGen,它利用扩散模型的强大功能来解决这个问题。 NeuroImageGen是使用脑电图信号进行神经图像生成的流程。它通过加入多级语义提取模块来解决与基于脑电图的图像重建相关的挑战。该模块从脑电图信号中解码出不同级别的语义信息,从样本级语义到像素级细节(如显著性图)等各种级别。然后,这些多级输出被输入到预训练的扩散模型中,有效地控制不同语义级别上的生成过程。 脑电图信号是复杂的时间序列数据,容易受到噪声的影响,使其难以处理。 NeuroImageGen通过提取多级语义(包括像素级和样本级信息)来克服这一问题。像素级语义涉及通过显著性图捕捉视觉刺激的细粒度颜色、位置和形状细节。另一方面,样本级语义提供了更粗粒度的理解,如识别图像类别或文本标题。这种多级方法使得NeuroImageGen能够有效处理嘈杂的脑电图数据,实现高质量的视觉刺激重建。 NeuroImageGen概览。来源:https://arxiv.org/abs/2308.02510 NeuroImageGen将这些多级语义集成到隐式扩散模型中进行图像重建。从脑电图特征生成的显著性图作为初始图像。从图像标题的CLIP模型嵌入中派生的样本级语义指导扩散模型中的去噪过程。这种集成允许在重建过程中灵活控制不同级别的语义信息。结果是重建的视觉刺激,它有效地结合了细粒度和粗粒度信息,产生高质量的图像。 这种方法的结果是令人鼓舞的,在脑电图数据上胜过了传统的图像重建方法。NEUROIMAGEN显著提高了重建图像的结构相似性和语义准确性,提高了我们对视觉刺激对人脑的影响的理解。

Leave a Comment

稳定AI引入稳定音频:一种新的人工智能模型,可以根据文本提示生成音频片段

Stability AI推出了一项突破性技术——稳定音频(Stable Audio),这标志着音频生成迈出了重要的一步。这项创新解决了从简单文本提示中创建自定义音频片段的挑战。虽然Stability AI以其文本到图像生成技术——稳定扩散(Stable Diffusion)而闻名,但现在它已经将自己的专业知识扩展到了音乐和音频领域。这一发展是在他们成功进军图像合成领域——通过引入Stable Diffusion的SDXL基础模型之后。 到目前为止,通过“符号生成”技术生成基本音频轨道是可能的,通常涉及MIDI文件。然而,稳定音频通过使用户能够创作全新的音乐作品而超越了这一点,摆脱了通常与MIDI和符号生成相关的重复音符的限制。这一成就归功于该模型与原始音频样本的直接交互,从而产生出更优质的输出。该模型的训练涵盖了来自AudioSparks库的80万多首经过许可的音乐作品,这为其出色的性能做出了贡献。这个丰富的数据集确保了高质量的音频,并提供了全面的元数据,这是基于文本的模型的一个关键因素。 与可以模仿特定艺术家风格的图像生成模型不同,稳定音频并不试图模仿像披头士乐队这样的标志性乐队。这个有意的选择源于对音乐家追求在没有严格风格限制的情况下踏上自己的创作之旅的理解。相反,稳定音频赋予用户探索他们独特音乐表达的能力。 稳定音频模型是一个拥有大约12亿参数的扩散模型,与图像生成的原始稳定扩散模型相媲美。为了生成音频,文本提示是稳定AI使用对比语言音频预训练(CLAP)技术精心制作和训练的。为了帮助用户制作有效的提示,Stability AI将与稳定音频发布同时发布一个提示指南。 稳定音频将通过免费版本和每月12美元的专业计划提供。免费版本每月可生成最多20个音频片段,每个片段长达20秒。相比之下,专业版本提高了这些限制,使用户可以生成500个片段,并将音轨时长延长到90秒。 总之,Stability AI发布的稳定音频标志着音频生成技术的新时代。该公司通过利用先进的AI技术,为将文本提示转化为原创音频片段提供了一个无缝的平台。这一创新拓展了创作表达的视野,并展示了AI驱动的音乐和音频制作解决方案的潜力。稳定音频以其可接受的价格层次,将成为有抱负和专业音频创作者的宝贵工具。

Leave a Comment

“解锁视觉Transformer中的效率:稀疏移动视觉MoEs在资源受限应用中胜过密集对应物”

一种称为Mixture-of-Experts (MoE)的神经网络架构将各种专家神经网络的预测结果结合起来。MoE模型处理复杂的工作,其中问题的几个子任务或元素需要专门的知识。它们的引入是为了增强神经网络的表示能力,并使其能够处理各种具有挑战性的任务。 此外,一种称为稀疏门控Mixture-of-Experts (MoE)模型的神经网络架构通过在门控机制中添加稀疏性来扩展传统的MoE模型的概念。这些模型的创建旨在提高MoE设计的效率和可扩展性,使其能够处理大规模的任务,并降低计算成本。 由于它们能够在每个给定的输入标记上独占激活模型参数的一小部分,它们可以将模型大小与推理效率分离。 在使用神经网络(NNs)时,尤其是当只有少量计算资源可用时,平衡性能和效率仍然是困难的。最近,稀疏门控Mixture-of-Experts模型(稀疏MoEs)被视为潜在的解决方案,它们可以将模型大小与推理效果分离。 稀疏MoEs提供了增加模型功能同时降低计算成本的可能性。这使得它们成为与Transformer集成的选择,后者是大规模视觉建模的主要架构选择。 因此,苹果研究团队在他们的论文《Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts》中介绍了稀疏Mobile Vision MoEs的概念。这些V-MoEs是一种高效、适用于移动设备的Mixture-of-Experts设计,能够在缩小视觉Transformer(ViTs)的同时保持卓越的模型性能。 研究人员强调他们开发了一种简单而强大的训练过程,通过利用语义超类来引导路由器训练,避免了专家不平衡的问题。它使用每个图像一个路由器,而不是每个补丁的路由器。在传统的每个补丁的路由器中,通常为每个图像激活更多的专家。然而,每个图像一个路由器减少了每个图像激活的专家数量。 研究团队通过训练基线模型开始训练阶段。然后,在训练数据集中保留的验证集上记录了模型的预测结果,创建了一个混淆矩阵。然后,使用这个混淆矩阵作为基础,对混淆图进行图聚类算法处理。由此过程形成了超类划分。 他们表示该模型在标准的ImageNet-1k分类基准测试上呈现了实证结果。他们从头开始在包含1.28M个图像的ImageNet-1k训练集上训练了所有模型,然后在包含50K个图像的验证集上评估了它们的Top-1准确率。 研究人员希望将MoE设计应用于除了ViTs之外的其他移动设备友好的模型。他们还打算考虑其他视觉任务,如目标检测。此外,他们希望对所有模型的实际设备延迟进行量化。

Leave a Comment