Press "Enter" to skip to content

419 search results for "引导"

家里的好莱坞:DragNUWA是一个能够实现可控视频生成的AI模型

生成式人工智能在过去两年取得了巨大的飞跃,这要归功于大规模扩散模型的成功发布。这些模型是一种生成模型,可以用来生成逼真的图像、文本和其他数据。 扩散模型通过从随机噪声图像或文本开始,逐渐添加细节。这个过程被称为扩散,类似于现实世界中物体逐渐变得越来越详细的过程。它们通常在一个大型真实图像或文本数据集上进行训练。 另一方面,视频生成在近年来也取得了显著的进展。它包含了生成逼真和动态视频内容的令人兴奋的能力。这项技术利用深度学习和生成模型生成从超现实的梦幻景观到对我们世界的逼真模拟的视频。 利用深度学习的能力来精确控制视频的内容、空间排列和时间演化,对各种应用领域都具有巨大的潜力,从娱乐到教育等等。 在历史上,这个领域的研究主要集中在视觉线索上,严重依赖于初始帧图像来引导后续的视频生成。然而,这种方法有其局限性,特别是在预测视频的复杂时间动态方面,包括摄像机运动和复杂的物体轨迹。为了克服这些挑战,最近的研究已经转向将文本描述和轨迹数据作为额外的控制机制。虽然这些方法取得了重大进展,但它们也有自己的限制。 让我们来认识一下DragNUWA,它解决了这些限制。 DragNUWA是一个具有细粒度控制的轨迹感知视频生成模型。它无缝集成了文本、图像和轨迹信息,提供了强大和用户友好的可控性。 使用DragNUWA生成的示例视频。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA有一个生成逼真视频的简单公式。这个公式的三个支柱是语义、空间和时间控制。这些控制分别通过文本描述、图像和轨迹来实现。 文本控制以文本描述的形式进行。这将意义和语义注入到视频生成中。它使模型能够理解和表达视频背后的意图。例如,它可以区分真实世界中的鱼游泳和一幅画中的鱼。 对于视觉控制,使用图像。图像提供了空间上下文和细节,有助于准确地表示视频中的对象和场景。它们是文本描述的重要补充,为生成的内容增加了深度和清晰度。 这些都是我们熟悉的东西,而真正的区别在于DragNUWA在最后一个组成部分中的应用:轨迹控制。 DragNUWA采用开放域轨迹控制。而以前的模型在处理轨迹复杂性方面存在困难,DragNUWA采用了轨迹采样器(TS)、多尺度融合(MF)和自适应训练(AT)来应对这一挑战。这一创新使得可以生成具有复杂的、开放域的轨迹、逼真的摄像机运动和复杂的物体交互的视频。 DragNUWA概览。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA提供了一个端到端的解决方案,将文本、图像和轨迹三个基本的控制机制统一起来。这种整合赋予用户对视频内容的精确和直观的控制能力。它重新构想了视频生成中的轨迹控制。它的TS、MF和AT策略实现了对任意轨迹的开放域控制,使其适用于复杂和多样化的视频场景。

Leave a Comment

利用大型语言模型提升客户调查反馈分析

介绍 欢迎来到客户反馈分析的世界,在这里,客户意见的未开发财富可以塑造您的业务的成功。在当今激烈的竞争和大型语言模型的背景下,理解客户的想法不再是一种奢侈,而是一种必要性。客户反馈分析既是一门艺术,也是一门科学——一种从调查、评论、社交媒体和支持互动等多种来源中提取可操作见解的方法论。 在当今数字领域中,客户反馈比以往任何时候都更加丰富,企业不断寻求方法来利用这一财富。本文介绍了人工智能与客户反馈分析的融合,探讨了自然语言处理(NLP)和机器学习等技术如何提取可操作见解。我们揭示了人工智能在提高客户满意度和推动业务成功方面的转变潜力。让我们一起踏上这段启迪之旅,探索人工智能与优化客户体验之间的协同作用。 学习目标 人工智能基础:掌握基本的人工智能概念,包括自然语言处理和大型语言模型,以及它们与客户反馈分析的相关性。 人工智能应用:探索人工智能在调查、情感分析、反馈分类和自动化响应等方面的实际应用,突出其效率。 现实世界的影响:通过各种行业案例研究了解人工智能在改善客户体验方面的实际影响。 挑战和伦理:认识客户反馈分析中的人工智能挑战和伦理考虑,如数据质量和隐私。 战略性采用人工智能:学习如何战略性地利用人工智能获取竞争优势,在反馈分析中提高决策能力、客户关注度、效率、智能和创新。 本文是Data Science Blogathon的一部分。 理解人工智能:简要概述 人工智能(AI)是一项革命性的技术,旨在在机器和系统中复制类似人类的智能。这个简要概述提供了有关AI核心概念和功能的见解。 模仿人类智能 在本质上,人工智能旨在通过使机器能够从数据中学习、识别模式、做出决策和执行通常需要人类认知的任务来模拟人类智能。它通过算法和数据的结合来实现这一目标。 算法的作用 算法,或预定义的规则和指令集,构成了人工智能的基础。这些算法处理大量数据,识别相关性,并利用这些信息进行预测或决策。机器学习和深度学习是人工智能的子集,专注于通过对数据的迭代学习来提高算法性能。 数据作为燃料 数据是人工智能的命脉。人工智能系统可以访问的质量数据越多,其性能和准确性就越好。这些数据可以包括文本、图像、音频或任何其他形式的信息,人工智能系统被设计用来分析或处理这些信息。 人工智能的类型 人工智能可以分为两种主要类型:狭义或弱人工智能和广义或强人工智能。狭义人工智能专为语言翻译或图像识别等特定任务而设计,而广义人工智能具有类似人类智能的能力,可以执行各种类似人类认知的任务(尽管这种水平的人工智能在很大程度上仍然是理论性的)。 人工智能的应用 人工智能在医疗、金融、客户服务和自动驾驶等各个领域都有应用。它驱动着聊天机器人、推荐系统和GPT-3等大型语言模型。这些应用利用了人工智能分析数据、理解自然语言和做出明智决策的能力。 这个简要概述为我们展示了人工智能及其多面功能的迷人世界。当我们深入探索本文时,我们将看到人工智能在提高客户反馈分析中的关键作用。…

Leave a Comment

15个适用于Twitter的最佳ChatGPT提示 (X)

在快速发展的社交媒体领域中,Twitter(X)作为一个以简洁和有影响力的内容为主导的平台脱颖而出从品牌到影响者,每个人都在竞争互动和可见性,这就需要一种独特的内容创作方法ChatGPT凭借其多功能能力,可以帮助制作高质量和引人入胜的Twitter内容这[…]

Leave a Comment

“大型语言模型(LLMs)调研”

介绍 技术进步的格局已经被大型语言模型(LLMs)的出现所彻底改变,这是人工智能创新分支的一个创新。这些模型以复杂的机器学习算法和大量的计算能力为驱动,代表了我们理解、生成和操纵人类语言能力的飞跃。LLMs展现出了解释微妙之处、构建连贯叙述甚至进行与人类交流相似的对话的非凡能力。当我们深入探索LLMs时,我们面临的是它们对各个行业、沟通范式和人机交互未来的深远影响。 然而,在这令人敬畏的潜力之中,存在着一个复杂的挑战网络。虽然LLMs在能力上有所承诺,但它们也不免受到偏见、伦理关切和潜在滥用的影响。这些模型从大量数据集中学习的能力引发了有关数据来源和可能存在的隐藏偏见的问题。此外,随着LLMs越来越多地融入我们的日常生活,隐私、安全和透明度问题变得至关重要。此外,围绕LLMs的内容生成和在决策过程中的作用的伦理考虑也需要仔细研究。 在这个探索LLMs领域的旅程中,我们将深入研究它们的功能复杂性、创新潜力、所带来的挑战以及指导其负责任发展的伦理框架。通过以思考的方式导航这些方面,我们可以利用LLMs的潜力,同时解决它们的局限性,最终塑造人类和机器在语言理解和生成方面和谐合作的未来。 学习目标 理解LLM基础知识:建立对大型语言模型(LLMs)的基础理解,包括它们的架构、组件和基本技术。了解LLMs如何处理和生成人类语言。 探索LLM应用:探索LLMs在各个行业中的多样化应用,从自然语言理解和内容生成到语言翻译和专家辅助。了解LLMs如何改变各个行业。 认识伦理考虑:深入研究围绕LLMs的伦理考虑,包括偏见、错误信息和隐私问题。学习如何应对这些挑战,确保LLMs的负责任和伦理使用。 分析LLM的影响:研究LLMs在沟通、教育和行业领域对社会和经济的影响。评估将LLMs整合到生活各个方面可能带来的潜在益处和挑战。 未来趋势和创新:探索LLMs的不断发展的格局,包括在对话能力、个性化体验和跨学科应用方面的预期进展。思考这些发展对技术和社会的影响。 实际应用:通过探索LLMs的实际用例,如内容创作、语言翻译和数据分析,应用你的知识。获得利用LLMs进行各种任务的实际经验。 本文是作为数据科学博客马拉松的一部分发表的。 语言模型的演变 语言模型的轨迹见证了近期显著进展的动态演变。在语言处理领域的这一进化之旅在大型语言模型(LLMs)的出现中达到了顶点,标志着自然语言处理(NLP)能力的一次范式转变。 旅程始于为后续创新铺平道路的基础语言模型。最初,语言模型的范围有限,难以捕捉人类语言的复杂性。随着技术的进步,这些模型的复杂性也在增加。早期的迭代版本采用基本语言规则和统计方法生成文本,尽管在上下文和连贯性方面存在限制。 然而,转换器的出现,一种神经网络架构,标志着一个重大的飞跃。转换器有助于理解整个句子和段落之间的上下文关系。这一突破为大型语言模型奠定了基础。这些模型,如GPT-3,拥有海量的参数,使它们能够处理和生成无与伦比的文本质量。 大型语言模型理解上下文并展现出与人类类似的文本生成能力。它们擅长把握复杂微妙之处,产生连贯、具有上下文相关的语言,可以媲美人类的创作能力。这些模型超越了简单的模仿,以惊人的熟练度从事翻译、摘要和创造性写作等任务。 LLMs的演变标志着语言洞察、机器学习进步和计算资源的重大飞跃的融合。这一轨迹还在继续展开,未来有望实现更为复杂的语言理解和生成能力。 探索大型语言模型 深入了解大型语言模型(LLM)的世界,让我们踏上了一段从一个基本问题开始的旅程:“第一个大型语言模型是什么?” 这个问题是打开LLM在自然语言处理(NLP)中深远影响和变革潜力的门户。 LLM的诞生对NLP是一次革命性的飞跃,它源于首个大型语言模型的出现。这个开创性的模型证明了不断提升语言处理能力的不懈追求。它标志着数据、计算能力和创新的神经网络架构的融合形成了一个巨大的成就。 这个开创性的模型打破了早期模型在捕捉上下文、连贯性和语言细节方面的限制。深度学习技术和大规模数据集的利用相结合,为性能带来了显著的飞跃。这个模型奠定了后续LLM的基础,展示了利用大量数据来增强语言理解和生成能力的潜力。 这个初始大型语言模型的影响在各种NLP应用中回响。它强调了自动化任务的可行性,这些任务曾经需要类似人类的语言能力。包括文本生成、翻译、情感分析和摘要等任务都得到了显著的改进。 大型语言模型的类型…

Leave a Comment

推进图像修复:通过这种新颖的AI修复神经辐射场,弥合了2D和3D操作之间的差距

对于图像的处理一直存在持久的兴趣,因为它在内容创作中有着广泛的应用。其中最广泛研究的处理之一是对象的移除和插入,通常被称为图像修复任务。虽然当前的修复模型能够生成与周围图像无缝融合的视觉上令人信服的内容,但它们的适用性传统上仅限于单个2D图像输入。然而,一些研究人员正在尝试将这些模型的应用推进到对完整3D场景的处理。 神经辐射场(NeRFs)的出现使将真实的2D照片转换为逼真的3D表示更加容易。随着算法的不断改进和计算需求的降低,这些3D表示可能会变得普遍。因此,该研究旨在实现对3D NeRF的类似处理,如同对2D图像的处理一样,并特别关注修复功能。 修复3D对象存在独特的挑战,包括3D数据的稀缺性以及必须同时考虑3D几何和外观。使用NeRF作为场景表示引入了额外的复杂性。神经表示的隐式性质使得基于几何理解直接修改底层数据结构变得不切实际。此外,由于NeRF是从图像训练的,对多个视角的一致性的保持带来了挑战。对各个组成图像的独立修复可能导致视角不一致和视觉上不真实的输出。 已经尝试了各种方法来解决这些挑战。例如,一些方法旨在事后解决不一致性,如NeRF-In,通过像素损失结合视角,或者SPIn-NeRF,利用感知损失。然而,当修复的视角存在显著的感知差异或涉及复杂外观时,这些方法可能会遇到困难。 另外,还探索了单参考修复方法,通过仅使用一个修复的视角避免视角不一致。然而,这种方法引入了一些挑战,包括非参考视角的视觉质量降低、缺乏视角相关效果以及不连续问题。 考虑到上述限制,已经开发了一种新方法,实现了对3D对象的修复。 系统的输入是N个来自不同视角的图像,以及它们的相应摄像机变换矩阵和蒙版,用于标记不需要的区域。此外,还需要一个与输入图像相关的修复参考视角,该视角提供了用户期望从3D场景的修复中获取的信息。这个参考视角可以是一个简单的替代蒙版的对象的文本描述。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 在上述示例中,可以通过使用单图像文本条件修复器来获得“橡皮鸭”或“花盆”参考。这样,任何用户都可以控制和驱动生成具有所需编辑的3D场景。 通过专注于视角相关效果(VDEs)的模块,作者试图考虑场景中的视角相关变化(例如镜面反射和非朗伯效应)。出于这个原因,他们通过将VDEs添加到非参考视角的蒙版区域,通过校正参考颜色以匹配其他视角的周围环境,来修复蒙版区域。 此外,他们引入了单目深度估计器,根据参考图像的深度来引导修复区域的几何形状。由于不是所有蒙版目标像素在参考图像中都是可见的,因此设计了一种方法来通过额外的修复来监督这些未遮挡的像素。 下面是所提出方法的新视角渲染与最先进的SPIn-NeRF-Lama的视觉比较。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 这是一个关于参考引导可控补全神经辐射场的新型AI框架的摘要。如果您对此感兴趣并且想要了解更多信息,请随时参考下面引用的链接。

Leave a Comment

生成式人工智能如何改变叙事的艺术?

介绍 自古以来,故事以其引起情感、激发创造力和传递重要信息的情节,一直吸引着我们的心灵。但如果我们能够想象,借助人工智能的力量,我们现在可以超越人类叙事的限制,让人工智能与我们共同创作故事会怎样呢?在本文中,我们将探索“生成式人工智能如何改变叙事”这个引人入胜的世界,并了解模型如何释放创造力。 学习目标 了解生成式人工智能模型背后的基本原理,以及它们如何利用上下文和模式生成连贯的叙述。 探索与人工智能共同创作叙事的过程,从构建引人入胜的提示来指导人工智能生成的内容,到动态共同创作融合人类创造力和机器建议的故事。 深入了解人工智能和人类创造力融合时正在发展的文学景观。展望一个未来,人工智能与作者合作,超越传统叙事边界,促进文化多样性,打造新的叙事范式。 本文是数据科学博客马拉松的一部分。 理解方法 人类创造力与人工智能之间的非凡互动正在改变现代叙事的创作方式。基于人工智能的故事制作概念是这一演变的核心,生成式人工智能模型成为焦点。在进入“与人工智能一起叙事”的道路之前,理解支撑这一新技术的基本思想至关重要。生成式人工智能模型的架构基于对大规模数据集的密集训练。通过接触各种文本来源,这种理解是通过模型模仿类似人类的反应并生成流畅的写作来获得的。 上下文在人工智能叙事中至关重要。这些模型不仅仅是词人,它们是有上下文的叙事者。您可以通过提示或不完整的句子来引导人工智能的创作流程,引导其生成与您愿景一致的连贯叙述。反过来,人工智能根据其训练和输入猜测最可能的下一句。将人工智能视为一位多才多艺的合作者,一位懂得语言和故事规范的助手。在创作文本时,人工智能借鉴了丰富的文学专业知识库,将单词连接起来,编织成无缝的叙事布局。机器学习和语言细微差别的结合使得人工智能能够模仿不同的写作风格、流派和语气。 此外,人工智能叙事是关于共同创作而不是作者身份。通过理解人工智能的能力并引导其输出,作家可以利用其潜力来补充和放大他们的创造力。人类创造力和机器生成的内容的这种合作创作为超越传统边界的独特叙事框架奠定了基础。 创造性合作:与人工智能共同创作叙事 人工智能为合作创作提供了前所未有的机会。“创造性合作”突出了人类作者和人工智能之间微妙的互动,两者融合在一起生成超越传统叙事界限的叙述。 打造完美的提示 作家通过构建包含人物介绍、地点、主题或情感细微差别的提示,创造了他们的想象力与人工智能建议之间的动态互动。考虑以下情景:“画中的眼睛跟随他走下去……”。人工智能检测到这个线索,并利用其训练构建与已建立上下文一致的回答。由于人类创造力和人工智能生成的信息的和谐结合,叙事之旅通过不同视角的混合而不断发展。 合著行动 考虑以下情景:您已经介绍了故事的前几行,现在是人工智能继续添加的时候了。人工智能建议下一句话,这个建议基于您已经建立的基础进行构建。这种来回交流继续,每一次互动都给叙事画布增加了一层。秘诀在于从人类写作到人工智能建议的无缝转换。在您的工作过程中,您回应人工智能的想法,将故事引向您想要的方向。这种动态互动产生了一种捕捉到人类智慧和人工智能创造力精髓的故事。 叙事的新边界:视角的融合 “创意协作”象征着叙事领域的一个新前沿,即人类作者与AI合作作者共同创建引人入胜、引发兴趣并推动想象力边界的叙事作品。随着AI模型的不断改进,创作关系变得更加深入,使作者能够探索以往被视为无法达到的流派、风格和视角。 与AI共创故事 在不断变化的叙事世界中,出现了一种迷人而具有变革性的现象:与人工智能和谐合作培育出的故事创作。 “与AI共创故事”的概念向我们介绍了一种开创性的技术,将人类想象力的卓越之处与AI的文本生成能力相结合,从而诞生出那些优雅地跨越人类和机器创造力边界的叙事作品。这种复杂地编织人类创造力和AI计算优雅的合作方法揭示了叙事演变中的一个新篇章。 短语“与AI共创故事”抓住了这个充满活力的企业的核心,其中作者不再是孤独的工匠,而是与复杂算法合作的合作者。当人类创作者和AI共同作者进行合作时,叙事作品被提升到一个新的可能领域 – 创新和传统无缝共存的领域。人类智慧和AI生成的材料的融合代表了一种范式转变,消除了创作者和创造物之间的鸿沟。当作家参与这种创意协作时,故事画布演变成一个动态的舞台,人类意图引导AI的潜力。AI生成的语言为叙事添加了新的洞察力。…

Leave a Comment

什么是人工智能中的生产系统?示例、工作原理等

AI生产系统是决策的支柱。通过生产规则,这些系统自动化复杂任务,高效处理数据并生成见解。它们便于包括全局数据库、生产规则和控制系统在内的知识密集型流程。其关键特点包括简单性、模块化、适应性和可修改性。根据特征,AI生产系统可以分为不同类型,通过前向和后向链接等控制策略引导推理过程。了解AI中的生产系统对于发挥AI潜力、将其与机器学习整合以及解决其部署中的伦理考虑至关重要。 生产系统的组成部分 AI生产系统的组成部分包括三个基本要素: 全局数据库:全局数据库作为系统的内存,存储与其运行相关的事实、数据和知识。它是生产规则可以访问以做出明智决策和得出结论的存储库。 生产规则:生产规则构成系统的核心逻辑。它们是系统在做出决策时遵循的一组准则。这些规定了系统对各种输入和情况的反应。 控制系统:控制系统管理生产规则的执行。它确定规则应用的顺序,确保高效处理并优化系统性能。 AI生产系统的特点 AI生产系统具有几个关键特点,使它们成为自动化决策和问题解决的多功能强大工具: 简单性:生产系统提供了一种简单的方式来编码和执行规则,使其对开发人员和领域专家易于使用。 模块化:这些系统由模块化组件组成,允许在不中断整个系统的情况下添加、删除或修改规则。这种模块化增强了灵活性和易维护性。 可修改性:AI生产系统具有高度的适应性。可以更新或替换规则而无需进行大规模的重构,确保系统始终与不断发展的要求保持一致。 知识密集型:它们擅长处理知识丰富的任务,依赖于全面的全局数据库。 适应性:AI生产系统可以动态适应新的数据和场景。这种适应性使它们能够不断改进。 AI生产系统的分类 AI生产系统可以根据常见的四种分类进行分类: 单调生产系统:在单调生产系统中,法则和真理在执行过程中保持恒定。一旦推导出一个事实,规则就保持不变。这种稳定性确保了可预测性,但可能限制在动态环境中的适应性。 部分可交换生产系统:在这种类型的系统中,规则可以灵活应用,允许一定程度的适应性,同时保持某些约束条件。部分可交换性在稳定性和灵活性之间取得了平衡。 非单调生产系统:非单调生产系统更具动态性和适应性。规则可以在执行过程中添加、修改或撤销。它们非常适用于需要根据不断变化的情况调整知识库的情况,因为它们具有灵活性。 可交换系统:可交换系统具有可以以任何顺序应用的规则,而不会改变结果。在规则应用的顺序不重要的情况下,这种高度的灵活性可能是有益的。 控制策略 控制策略在指导推理和确定规则如何处理数据以做出决策或得出结论方面至关重要。控制策略决定了生产规则应用的顺序以及系统如何处理数据。它们对于AI生产系统中的高效决策和问题解决至关重要。 通常采用两种主要的控制策略: 前向链接 也称为数据驱动的推理,系统从可用数据和事实开始。然后,系统迭代地将生产规则应用于数据,以得出新的结论或事实。此策略持续进行,直到满足特定的目标或条件。前向链接适用于您有数据并想确定可能的结果或后果的情况。 后向链接…

Leave a Comment

蛋白质设计的下一步是什么?微软的研究人员引入了EvoDiff:一种革命性的AI框架,用于基于序列的蛋白质工程

深度生成模型在原位创造新型蛋白质方面越来越强大。扩散模型是一类最近被证明能够产生与自然界中任何实际蛋白质都不同的生理学合理蛋白质的生成模型,它们在全新蛋白质设计中提供了无与伦比的能力和控制。然而,当前最先进的模型只能构建蛋白质结构,这严重限制了它们的训练数据范围,并将生成限制在蛋白质设计空间的一个微小且有偏见的部分。微软研究员开发了EvoDiff,这是一个通用的扩散框架,它通过结合进化规模的数据和扩散模型的独特调节能力,允许在序列空间中进行可调节的蛋白质创造。EvoDiff可以使结构合理的蛋白质变化多样,涵盖了所有可能的序列和功能范围。序列为基础的公式的普适性通过EvoDiff可以构建结构为基础的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架。他们希望EvoDiff能为蛋白质工程中的可编程序列优先设计铺平道路,使他们能够超越结构-功能范式。 EvoDiff是一个新颖的生成建模系统,仅基于序列数据进行可编程蛋白质创造,通过结合进化规模的数据和扩散模型开发而成。他们使用离散扩散框架,其中正向过程通过改变氨基酸的身份,迭代地破坏蛋白质序列,而学习到的反向过程则由神经网络参数化,预测每次迭代所做的更改,利用蛋白质作为离散令牌序列的自然特征。 蛋白质序列可以使用反向方法从头开始创建。与传统用于蛋白质结构设计的连续扩散公式相比,EvoDiff所使用的离散扩散公式在数学上具有显著的改进。多重序列比对(MSAs)突出显示了相关蛋白质群体的氨基酸序列的保守性模式和变异,从而捕捉到了超出单个蛋白质序列进化规模数据集的进化联系。为了利用这种额外的进化信息深度,他们构建了在MSAs上训练的离散扩散模型,以产生新的单一序列。 为了说明他们在可调节蛋白质设计方面的有效性,研究人员对一系列生成活动进行了序列和MSA模型(EvoDiff-Seq和EvoDiff-MSA)的检验。他们首先展示了EvoDiff-Seq可靠地产生高质量、多样化的蛋白质,准确反映了自然界中蛋白质的组成和功能。通过将具有类似但独特进化历史的蛋白质与对齐,EvoDiff-MSA允许引导开发新的序列。最后,他们展示了EvoDiff可以可靠地生成具有无序区域的蛋白质,直接克服了基于结构的生成模型的一个关键限制,并且可以生成没有任何显式结构信息的功能结构基序的支架,通过利用扩散模型框架的调节能力和其在通用设计空间中的基础。 为了生成具有序列限制的多样且新颖的蛋白质,研究人员提出了EvoDiff,这是一个扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff可以通过从序列数据中生成内在无序区域和支撑结构基序,无条件地采样结构合理的蛋白质多样性。在蛋白质序列进化中,EvoDiff是第一个展示扩散生成建模效果的深度学习框架。 通过引导的调节,可以在未来的研究中添加这些能力。EvoDiff-D3PM框架对于通过引导进行调节工作是自然的,因为可以在每个解码步骤中编辑序列中的每个残基的身份。然而,研究人员观察到OADM在无条件生成方面通常优于D3PM,这可能是因为OADM的去噪任务比D3PM更容易学习。不幸的是,OADM和其他现有的条件LRAR模型(如ProGen)降低了引导的效果。预计通过将EvoDiff-D3PM与序列功能分类器所描述的功能目标进行调节,可以生成新颖的蛋白质序列。 EvoDiff的数据要求很低,这意味着它可以很容易地适应未来的用途,这是结构为基础方法所无法实现的。研究人员已经证明,EvoDiff可以通过填充而无需微调来创建IDR,避免了基于结构的预测和生成模型的一个经典陷阱。获取大规模测序数据集的结构的高成本可能会阻止研究人员使用新的生物、医学或科学设计选项,这些选项可以通过在应用特定数据集上微调EvoDiff来实现,例如来自展示库或大规模筛选的数据集。尽管AlphaFold和相关算法可以预测许多序列的结构,但在指示虚假蛋白质的结构时,它们在点突变方面存在困难,并且可能过于自信。 研究人员展示了几种粗粒度的通过支架和修复来调节产物的方式;然而,EvoDiff可以根据文本、化学信息或其他形式的模态来提供对蛋白质功能的更精细调控。在未来,可调节的蛋白质序列设计的概念将以多种方式使用。例如,有条件设计的转录因子或内切酶可用于程序化调节核酸;生物制剂可优化用于体内传递和运输;而酶底物特异性的零样本调节可以打开全新的催化途径。 数据集 Uniref50是一个包含约4200万个蛋白质序列的数据集,由研究人员使用。MSAs来自OpenFold数据集,其中包括16,000,000个UniClust30聚类和401,381个MSAs,涵盖了140,000个不同的PDB链。关于IDRs(内在无序区)的信息来自Reverse Homology GitHub。 研究人员在支架结构基元挑战中使用了RFDiffusion基线。在examples/scaffolding-pdbs文件夹中,您可以找到可用于有条件生成序列的pdb和fasta文件。examples/scaffolding-msas文件夹还包含可以根据特定条件创建MSAs的pdb文件。 当前模型 研究人员研究了两种前向技术,以决定在离散数据模态上扩散的最高效技术。每个粗体的步骤中,一个氨基酸被转换为唯一的掩码标记。完整序列在一定数量的阶段后被隐藏。该组还开发了离散去噪扩散概率模型(D3PM),专门用于蛋白质序列。在EvoDiff-D3PM的前向阶段,根据过渡矩阵对行进行突变采样。这一过程会一直持续,直到序列无法与氨基酸上的均匀样本区分开为止。在所有情况下,恢复阶段涉及重新训练神经网络模型以消除损害。对于EvoDiff-OADM和EvoDiff-D3PM,训练模型可以从遮蔽标记的序列或均匀采样的氨基酸产生新的序列。他们使用CARP蛋白质遮蔽语言模型中首次出现的扩张卷积神经网络架构,在UniRef50的4200万个序列上训练了所有EvoDiff序列模型。对于每种前向损坏方案和LRAR解码,他们开发了具有3800万和6400万训练参数的版本。 关键特点 为了生成可管理的蛋白质序列,EvoDiff将进化规模的数据与扩散模型结合。 EvoDiff可以使结构合理的蛋白质多样化,覆盖了可能序列和功能的全部范围。 除了生成具有无序区段和其他结构模型无法访问的特征的蛋白质之外,EvoDiff还可以产生用于功能性结构基元的支架,证明了基于序列的公式的普适性。 总之,微软科学家发布了一组离散扩散模型,可用于在基于序列的蛋白质工程和设计中进行进一步开发。可以根据结构或功能扩展EvoDiff模型,并且可以立即用于无条件、进化引导和有条件的蛋白质序列创建。他们希望通过直接使用蛋白质语言进行阅读和写入过程,EvoDiff将为可编程蛋白质创造开辟新的可能性。

Leave a Comment

“无脑”软体机器人在机器人领域取得突破,能够在复杂环境中导航

在不断发展的机器人领域,研究人员引入了一项新的突破性技术:一种软体机器人,即使在复杂环境中也不需要人类或计算机的指导就能进行导航这项新发明是在之前的工作基础上进行的,该软体机器人在较简单的迷宫中展示了基本的导航技能利用物理智能进行导航的研究由Jie Yin进行

Leave a Comment

“解锁视觉Transformer中的效率:稀疏移动视觉MoEs在资源受限应用中胜过密集对应物”

一种称为Mixture-of-Experts (MoE)的神经网络架构将各种专家神经网络的预测结果结合起来。MoE模型处理复杂的工作,其中问题的几个子任务或元素需要专门的知识。它们的引入是为了增强神经网络的表示能力,并使其能够处理各种具有挑战性的任务。 此外,一种称为稀疏门控Mixture-of-Experts (MoE)模型的神经网络架构通过在门控机制中添加稀疏性来扩展传统的MoE模型的概念。这些模型的创建旨在提高MoE设计的效率和可扩展性,使其能够处理大规模的任务,并降低计算成本。 由于它们能够在每个给定的输入标记上独占激活模型参数的一小部分,它们可以将模型大小与推理效率分离。 在使用神经网络(NNs)时,尤其是当只有少量计算资源可用时,平衡性能和效率仍然是困难的。最近,稀疏门控Mixture-of-Experts模型(稀疏MoEs)被视为潜在的解决方案,它们可以将模型大小与推理效果分离。 稀疏MoEs提供了增加模型功能同时降低计算成本的可能性。这使得它们成为与Transformer集成的选择,后者是大规模视觉建模的主要架构选择。 因此,苹果研究团队在他们的论文《Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts》中介绍了稀疏Mobile Vision MoEs的概念。这些V-MoEs是一种高效、适用于移动设备的Mixture-of-Experts设计,能够在缩小视觉Transformer(ViTs)的同时保持卓越的模型性能。 研究人员强调他们开发了一种简单而强大的训练过程,通过利用语义超类来引导路由器训练,避免了专家不平衡的问题。它使用每个图像一个路由器,而不是每个补丁的路由器。在传统的每个补丁的路由器中,通常为每个图像激活更多的专家。然而,每个图像一个路由器减少了每个图像激活的专家数量。 研究团队通过训练基线模型开始训练阶段。然后,在训练数据集中保留的验证集上记录了模型的预测结果,创建了一个混淆矩阵。然后,使用这个混淆矩阵作为基础,对混淆图进行图聚类算法处理。由此过程形成了超类划分。 他们表示该模型在标准的ImageNet-1k分类基准测试上呈现了实证结果。他们从头开始在包含1.28M个图像的ImageNet-1k训练集上训练了所有模型,然后在包含50K个图像的验证集上评估了它们的Top-1准确率。 研究人员希望将MoE设计应用于除了ViTs之外的其他移动设备友好的模型。他们还打算考虑其他视觉任务,如目标检测。此外,他们希望对所有模型的实际设备延迟进行量化。

Leave a Comment

2023年使用的前25个人工智能生产力工具

努力跟上现代世界的无情要求吗?想知道如何充分利用你的时间并保持领先优势吗?在快节奏的数字时代,掌握生产力工具是实现高效成功的关键。无论你是企业家、专业人士还是学生,利用人工智能工具的力量可以提升你的生产力并提升你的表现。让我们探索一下可以彻底改变你的工作生活平衡并释放你真正潜力的前25个人工智能工具。 前25个人工智能生产力工具 Userpilot – AI写作助手 CopyAI – AI写作工具 Surfer – SEO内容创作 Grammarly – 在线写作工具 DALL-E2 神经之恋 Illustroke Userpilot Alconost Smartling EliseAI Synthesia Levity – AI…

Leave a Comment

利用神经进化来推动人工智能创新

介绍 神经进化是一个迷人的领域,其中人工智能将神经网络和进化算法结合起来培养其创造能力。它类似于人工智能的艺术或音乐之旅,使其能够创作杰作和作曲交响乐。本文深入探讨了神经进化,探索了其机制、应用和意义。它就像人工智能对自我提升的追求,就像一个崭露头角的艺术家完善自己的工艺。神经进化赋予了人工智能进化的能力,增强了其解决问题的能力、艺术天赋和游戏技巧。这个旅程体现了人工智能的成长,就像人类的持续发展一样,推动其走向创造卓越。 来源 – San Diego Consulting Group 本文是数据科学博文马拉松的一部分。 理解神经进化 想象一下,如果人工智能能够像生物一样学习和成长。这就是神经进化的本质。 进化算法 这就像是人工智能的生存游戏。它们创建许多人工智能玩家,让它们竞争,只保留最好的。然后,优胜者成为下一代的父母。这个循环重复进行,直到人工智能掌握了其任务。 来源 – Baeldung 初始化:首先创建一组可能的解决方案。 评估:根据问题的目标评估每个解决方案的表现。 选择:选择最好的解决方案作为下一代的父母。 交叉:父母结合他们的特点创建新的解决方案。 变异:引入随机变化,增加后代的多样性。 解决方案:经过多个世代,您应该得到改进的问题解决方案。 进化算法模仿自然选择的过程。它们创建一个人工智能模型的种群,评估其性能,选择最好的个体,并将它们繁殖以创建下一代。 # 一个用于优化的简单遗传算法…

Leave a Comment

强化学习与高性能决策制定:策略与优化

介绍 从人类因素/反馈中进行强化学习(RLHF)是一个新兴领域,它将RL的原则与人类反馈相结合。它将被设计用于优化决策和增强实际复杂系统的性能。高性能的RLHF侧重于通过利用计算模型和数据驱动方法来改善各个领域的设计、易用性和安全性,从而理解人类行为、认知、环境、知识和互动。 RLHF旨在通过将RL算法与人类因素原则结合起来,弥合以机器为中心的优化和以人为中心的设计之间的差距。研究人员试图创建适应人类需求、喜好和能力的智能系统,最终增强用户体验。在RLHF中,计算模型模拟、预测和指导人类反应,使研究人员能够洞察个体如何做出明智决策并与复杂环境互动。想象一下将这些模型与强化学习算法相结合!RLHF旨在优化决策过程,提高系统性能,并在未来几年增强人机协作。 学习目标 了解RLHF的基本原理及其在以人为中心的设计中的重要性是第一步。 探索在各个领域中优化决策和性能的RLHF应用。 识别与RLHF相关的关键主题,包括强化学习、人类因素工程和自适应界面。 认识知识图在促进数据整合和洞察RLHF研究和应用中的作用。 RLHF:革新以人为中心的领域 以人类因素为基础的强化学习(RLHF)有潜力改变人类因素至关重要的各个领域。它利用对人类认知限制、行为和互动的理解,创建了适应性界面、决策支持系统和个性化辅助技术,从而提高效率、安全性和用户满意度,促进了全行业的采用。 在RLHF的持续发展中,研究人员正在探索新的应用,并解决将人类因素整合到强化学习算法中的挑战。通过结合计算模型、数据驱动方法和以人为中心的设计,RLHF为先进的人机协作和优化决策、提高性能的智能系统铺平了道路,适用于各种复杂的实际场景。 为什么选择RLHF? RLHF对于医疗保健、金融、交通、游戏、机器人技术、供应链、客户服务等各个行业都非常有价值。RLHF使得AI系统能够以更符合人类意图和需求的方式学习,使得在各种实际应用案例和复杂挑战中,使用起来更加舒适、安全和有效。 RLHF的价值在哪里? 使AI在复杂环境中发挥作用是RLHF的能力,在许多行业中,AI系统操作的环境通常是复杂且难以准确建模的。而RLHF允许AI系统从人类因素中学习,并适应这些复杂情景,传统方法在效率和准确性方面无法满足。 RLHF促进负责任的AI行为,以与人类价值观、道德和安全一致。对这些系统的持续人类反馈有助于防止不良行为。另一方面,RLHF通过纳入人类因素、判断、优先级和偏好的方式,提供了指导代理学习过程的替代方法。 提高效率并降低成本在某些场景下,需要通过使用知识图或训练AI系统进行大量的试错。在特定情况下,这两种方法都可以在动态环境中快速采用。 实时适应的RPA和自动化在大多数行业中,已经使用了RPA或一些自动化系统,这些系统要求AI代理在快速变化的情况下迅速适应。RLHF通过人类反馈帮助这些代理实时学习,提高性能和准确性,即使在不确定的情况下也能做到。我们将这称为“决策智能系统”,RDF(资源开发框架)甚至可以将语义Web信息带入同一系统,有助于做出明智的决策。 数字化专业知识:在每个行业领域,专业知识都是至关重要的。借助RLHF的帮助,AI系统可以从专家知识中学习。同样,知识图和RDF允许我们将这些来自专家演示、流程、解决问题的事实和判断能力的知识数字化。RLHF甚至可以有效地将知识传递给代理。 根据需求进行定制:持续改进是AI系统通常在实际场景中运行的重要考虑因素之一,它们可以从用户和专业人士那里获得持续的反馈,使得AI能够根据反馈和决策不断改进。 RLHF的工作原理 RLHF通过将人类知识与强化学习技术相结合,填补了机器学习和人类专业知识之间的差距,使得AI系统在准确性和效率上更易于采用。 人类反馈强化学习(RLHF)是一种机器学习方法,通过将人类提供的反馈融入学习过程中,提高了AI智能体的训练效果。RLHF解决了传统强化学习在模糊的奖励信号、复杂的环境或需要将AI行为与人类价值观保持一致的挑战。 在RLHF中,AI智能体与环境进行交互并接收奖励反馈。然而,这些奖励可能不足、噪声干扰或难以准确定义。人类反馈对于有效引导智能体的学习至关重要。这种反馈可以采用不同的形式,例如明确的奖励、期望行为的演示、比较、排名或定性评估。 智能体通过调整其策略、奖励函数或内部表示来将人类反馈融入学习过程中。反馈和学习的融合使得智能体能够改进其行为、从人类专业知识中学习并与期望的结果保持一致。挑战在于在保持人类偏好的前提下,平衡探索(尝试新动作)和利用(选择已知动作)以有效学习。…

Leave a Comment

这项人工智能研究提出了DISC-MedLLM:一种综合解决方案,利用大型语言模型(LLMs)提供准确的医疗响应

远程医疗的兴起改变了医疗的提供方式,打开了专业网络,降低了价格,并允许进行远程医疗咨询。此外,智能医疗系统通过添加医疗信息提取、药物推荐、自动诊断和健康问题解答等功能,改进了在线医疗服务。虽然在构建智能医疗系统方面取得了一些进展,但早期研究集中在特定问题或疾病上,具有狭窄的应用范围,导致实验性进展与实际应用之间存在差距。为了弥合这一差距,需要提供更广泛的医疗场景的完整解决方案,并为消费者提供最高品质的端到端对话式医疗服务。 近期,大型语言模型展示了与人类进行有意义对话和遵循指令的惊人能力。这些进展为开发医疗咨询系统创造了新的机会。然而,涉及医疗咨询的情况通常更为复杂,超出了通用领域的语言模型的范围。图1展示了一个真实世界医疗咨询的示例。它展示了两个特点。首先,需要全面可信的医疗知识来理解对话并在每个阶段做出适当回应。通用领域的语言模型提供与特定情况无关的输出,存在主要的幻觉问题。 其次,通常需要进行多轮对话才能获得足够了解患者情况以提供医疗咨询的知识,并且每个对话轮次都有一个明确的目标。然而,通用领域的语言模型在用户健康状况的具体问题上往往具有有限的多轮查询能力,并且是单轮代理。基于这两点发现,复旦大学、西北工业大学和多伦多大学的研究人员认为,医疗语言模型应该对全面可信的医疗知识进行编码,同时符合真实世界医疗对话的分布特征。受到指令调整的成功启发,他们研究如何构建高质量的监督微调数据集,用于训练医疗语言模型,并包括医学知识和咨询行为模式。 在实际应用中,他们使用三种不同的方法创建样本: • 基于医疗知识图的样本开发。根据从真实世界咨询数据集中收集的患者查询分布,他们使用以科室为导向的方法从医疗知识网络中选择知识三元组。然后使用GPT-3.5为每个三元组创建问答对。结果得到了50k个样本。 • 重建真实对话。为了改善语言模型,从医疗论坛收集的咨询记录是合适的数据源。这些文档中使用的语言是非正式的,术语的呈现方式不一致,各种医疗从业者的表达风格各异。因此,他们使用GPT-3.5使用实际案例重新创建对话。结果得到了420k个样本。 • 样本收集后,进行人工选择。他们从涵盖各种咨询设置的真实医疗对话记录中手动选择了一小组条目,并重新编写了某些示例以符合人类意图。他们还确保每个对话的整体质量在人工引导重建后得到保证。结果得到了2k个样本。然后,使用新创建的SFT数据集在拥有13B个参数的通用领域中文语言模型的基础上,通过两阶段训练过程训练DISC-MedLLM。他们从两个角度评估模型的性能,以确定其在多轮对话中提供系统咨询和在单轮对话中提供准确回复的能力。 图1:患者和真实医生之间对话的示例。医生回应中提到的医学实体由蓝色高亮文本标示。每一轮,医生的行为显示特定的意图:(1)在第一轮,进行更多的研究以收集有助于确定潜在情景的数据;(2)在第二轮,进行初步诊断并提出明确建议;(3)在第三轮,根据医疗状况提供具体的治疗选择。 他们从三个公共医学数据集中收集了一系列多项选择题,并使用该题库对单轮对话进行了模型准确性评估。对于多轮对话评估,他们首先使用GPT-3.5创建了一小组优秀咨询案例,模拟患者与模型进行对话。然后使用GPT-4评估模型的主动性、准确性、有用性和语言质量。实验结果显示,尽管不及GPT-3.5,但DISCMedLLM在参数相同的情况下平均超过了医学大规模华佗GPT 10%。 此外,在模拟医学咨询环境中,DISC-MedLLM的整体表现优于基准模型,如GPT-3.5、华佗GPT和扁鹊。DISC-MedLLM在涉及医学部门和患者意图的案例中表现出色,并超过了其他中文医学LLM。

Leave a Comment

Can't find what you're looking for? Try refining your search: