Press "Enter" to skip to content

四海吧 Posts

计算机视觉系统能从视频中推断出你的肌肉活动吗?认识行动中的肌肉(MIA):一个新的数据集,用于学习将肌肉活动融入人体运动表示

近年来,人工智能领域一直是讨论的话题。无论是基于自然语言处理和自然语言理解的人类模仿大型语言模型(如GPT 3.5),还是基于计算机视觉的文本到图像模型DALL-E,AI正朝着成功的方向迈进。计算机视觉作为AI的一个子领域,在每一项新应用的发布中都在不断进步。它已经能够从视频中分析人类动作,并因此能够处理姿势估计、动作识别和动作转移等各种任务。 尽管计算机视觉在确定人类动作方面取得了进展,但它不仅仅是外观问题。每一个动作都是我们的大脑通过神经传递电脉冲引起我们的肌肉收缩,最终导致关节运动的结果。研究人员一直在努力开发一种方法,通过该方法可以模拟驱动人类运动的内在肌肉活动。为了在这项研究中取得进展,哥伦比亚大学的两位研究人员推出了一个名为“Muscles in Action”(MIA)的新颖数据集。该数据集包含了12.5小时的同步视频和表面肌电图(sEMG)数据,记录了十个主体进行各种运动的情况。 表面肌电图(sEMG)传感器是确定肌肉活动的传统工具,分为侵入性和非侵入性版本。研究人员开发了一种能够从视频中预测肌肉激活,反过来,利用MIA数据集从肌肉激活数据重建人体动作的表示方法。其主要目的是理解底层肌肉活动与视觉信息之间的复杂联系。通过同时建模两种模态,模型已经被调整为生成与肌肉激活一致的动作。 这个项目的主要部分是建立视频中人体动作与sEMG信号反映的内部肌肉活动之间关联的框架。研究团队分享的研究论文简要概述了人体活动分析、条件运动生成、多模态学习、肌电图和基于物理的人体动作生成等相关工作。随后对多模态数据集进行了详细描述和分析。 为了评估,研究人员对内部分布的参与者和锻炼进行了实验,同时还对外部分布的主体和锻炼进行了实验,以确定他们的模型的性能如何。他们对与训练分布不同的数据以及与其训练数据相似的数据进行了测试。这种评估有助于验证方法的泛化能力。 总之,在计算机视觉系统中利用肌肉具有许多潜在的用途。通过理解和模拟内部肌肉活动,可以产生更丰富的虚拟人体模型。这些模型可以在各种实际场景中使用,包括与体育、健身以及增强现实和虚拟现实相关的场景。

Leave a Comment

“遇见百川-13B:中国的开源大语言模型,与OpenAI匹敌”

中国搜索引擎搜狗的创始人王小川通过其公司百川智能发布了一款名为百川-13B的新型巨型语言模型。目前,该模型仅限程序员和研究人员进行商业使用。搜狗创始人王小川最近在微博上发布了一条消息称“中国需要自己的OpenAI”。这位中国商人在其初创公司百川智能发布了下一代大型语言模型百川-13B之后,离实现自己的愿景又近了一步。百川智能在三个月前推出,并迅速吸引了一批愿意投资5000万美元的投资者。由于创始人在计算机科学方面的非凡技能,他的组织现在被视为中国最有前途的巨型语言模型创造者之一。 百川-13B采用了与GPT和大部分国内中文变体相同的Transformer设计。除了在中文和英文数据上进行训练外,它的130亿个参数(用于文本生成和分析的变量)都是双语的。该模型是开源的,可以用于赢利,并且是使用GitHub上的数据构建的。 在百川-7B取得成功之后,百川智能科技推出了百川-13B,这是一个商业可用的开源大型语言模型,具有130亿个参数。在受人尊敬的中文和英文规范中,它胜过了同等规模的竞争对手。此次发布包括基准(百川-13B-Base)和对话(百川-13B-Chat)两个版本。 特点 百川-13B在百川-7B的基础上将参数数量增加到130亿,并在高质量语料库上训练了1.4万亿个标记,比LLaMA-13B多40%。在开源的13B规模下,它是训练数据最多的模型。它采用了ALiBi位置编码和4096字节的上下文窗口,并且可以同时处理中文和英文。 预训练模型用于开发者的基础版本,而具有对话功能的对齐模型更受常规用户的青睐。因此,这个开源版本中包括了具有强大对话功能、可直接使用并仅需几行代码即可部署的对齐模型(百川-13B-Chat)。 研究人员还提供了int8和int4量化版本,这些版本在推理方面更加高效,以鼓励广泛的用户使用。它们可以在像Nvidia 3090这样的消费级显卡上实现,但非量化版本需要更强大的硬件支持。 公众使用免费,无限制转售或修改:如果开发者通过邮件申请官方商业许可,他们可以免费使用百川-13B进行商业目的。 百川-13B使用了大约14亿个标记进行训练。据OpenAI称,ChatGPT-3据说是在3000亿个标记上进行训练的。百川团队在三个月内扩大了一倍,成员达到了50人,并在上个月公开展示了他们的模型百川-7B,该模型具有70亿个参数。两天前发布的百川-13B版本是最基本的版本。现在,已经获得合法授权的研究人员和程序员可以免费使用它进行商业用途。该模型是否会正式发布供广泛使用的未来尚待发现。 基础模型百川-13B现在对已获得必要法律许可的研究人员和程序员免费提供,并且可以在像Nvidia的3090显卡之类的消费级硬件上运行,这一点尤其值得注意,考虑到最近美国对中国人工智能芯片制造商的限制。 百川智能科技的研究人员确认,他们的团队尚未为任何平台(包括iOS、Android、Web等)创建基于百川-13B的应用程序。我们敦促用户不要将百川-13B模型用于非法或有害的目的,如危害国家或社会安全。同时,我们鼓励用户在没有必要的安全审计和备案的情况下不要将百川-13B模型用于互联网服务。我们指望每个人遵守这个规则,将技术进步限制在法律范围内。

Leave a Comment

字节跳动人工智能研究提出了一种新颖的自监督学习框架,用于创建具有连续和离散参数混合的高质量风格化3D头像

数字世界的一个关键入口,更普遍地存在于社交、购物、游戏和其他活动中,是一个外观吸引人且有动画效果的3D头像。一个合适的头像应该吸引人,并且可以根据用户的外貌进行定制。许多著名的头像系统,如Zepeto1和ReadyPlayer2,采用卡通和风格化的外观,因为它们有趣且用户友好。然而,手动选择和修改头像通常需要从许多图形元素中进行繁琐的修改,这对于初学者用户来说既耗时又具有挑战性。在这项研究中,他们研究了从正面拍摄的一张自拍照片自动生成风格化3D头像的自动化方法。 具体而言,给定一张自拍照片,他们的算法预测一个头像向量作为图形引擎生成3D头像并从预定义的3D资源中渲染头像图像的完整配置。头像向量包含特定于预定义资源的参数,可以是连续的(例如头部长度)或离散的(例如发型类型)。一种简单的解决方案是标注一组自拍照片,并训练一个模型通过监督学习来预测头像向量。然而,需要大规模的标注来处理大量的资源(通常是数百个)。建议使用自监督方法训练一个可微分的模拟器,通过不同的识别和语义分割损失来复制图形引擎的渲染,从而自动地将生成的头像图片与自拍照片进行匹配,从而减少标注成本。 更准确地说,给定一张自拍照片,他们的系统将预测一个头像向量作为图形引擎生成3D头像并从指定的3D资源中渲染头像图像的完整设置。构成头像向量的特征是特定于预设资源的,可以是连续的(如头部长度)或离散的(如发型类型)。一种简单的方法是标注一系列自拍照片,并使用监督学习构建模型来预测头像向量。然而,需要大规模的标注来处理各种各样的资源(通常是数百个)。 头像向量转换、自监督头像参数化和肖像风格化是他们创新架构的三个步骤。根据图1所示,在整个流程中,识别信息(发型、肤色、眼镜等)在三个阶段逐渐关闭域差距的同时保留。肖像风格化阶段首先关注2D真实到风格化视觉外观的域交叉。这一步保持了图像空间,同时将输入的自拍照片转换为风格化头像。对于翻译的当前风格化技术的粗略使用将保留诸如表情之类的元素,这将在流水线的后续阶段中引起明显的复杂性。 图1 因此,他们开发了一种修改版的AgileGAN,以确保表情的一致性,同时保持用户的识别。然后,自监督头像参数化步骤关注的是从基于像素的图片到基于向量的头像的过渡。他们发现强制执行参数离散性会阻止优化达到收敛行为。他们采用一种宽松的形式,称为放松的头像向量,以克服这个问题,将离散参数编码为连续的独热向量。他们教授一个模拟器像不可微分的引擎一样行为,以实现训练中的可微性。在头像向量转换步骤中,所有离散参数都被转换为独热向量。从放松的头像向量空间到严格的头像向量空间进行域交叉。然后,图形引擎可以构建最终的头像并使用严格的头像向量进行渲染。他们使用一种独特的搜索技术,产生的结果优于直接量化。他们利用人类喜好研究评估他们的发现,并将结果与基线方法(如F2P和手工制作)进行比较,以查看他们的方法如何有效地保护个人独特性。他们的结果得分明显高于基线技术,并与手工制作的结果非常相似。 他们还提供了一个消融研究来支持他们的流水线设计决策。他们的技术贡献包括以下要点: • 一种新颖的自监督学习框架,结合连续和离散参数生成高质量的风格化3D头像 • 一种通过肖像风格化来弥合风格域差异的新方法,用于创建风格化的3D头像 • 一种级联的松弛和搜索流水线,用于解决离散头像参数优化中的收敛问题。 您可以在他们的网站上找到该论文的视频演示。

Leave a Comment

Meta AI推出IMAGEBIND:第一个能够同时绑定六种模态数据的开源AI项目,无需明确的监督

人类在接触到仅仅几个实例后就能理解复杂的概念。大多数情况下,我们可以根据书面描述识别动物,并根据视觉猜测未知汽车引擎的声音。这部分是因为一张单独的图片可以“绑定”起本来不相干的感官体验。基于配对数据,标准的多模态学习在人工智能中存在一定的局限性,随着模态数量的增加。 将文本、音频等与图像对齐已成为最近几种方法的重点。这些策略最多只使用两种感官。然而,最终的嵌入只能表示训练的模态及其对应的配对。因此,无法直接将视频音频嵌入转换为图像文本活动,反之亦然。缺乏同时包含所有模态的大量多模态数据是学习真正联合嵌入的一大障碍。 新的元研究引入了IMAGEBIND,这是一个使用多种形式的图像对数据来学习单一共享表示空间的系统。不需要使用同时包含所有模态的数据集。相反,这项工作利用了图像的绑定属性,并展示了将每种模态的嵌入与图像嵌入对齐会导致所有模态的紧密对齐。 网络上大量的图像和相应的文本促使人们对训练图像文本模型进行了大量研究。ImageBind利用了图像经常与其他模态同时出现并可以作为它们之间的桥梁的事实,例如使用在线数据将文本与图像链接,或者使用从佩戴式相机和IMU传感器获得的视频数据将运动与视频链接。 跨模态学习的目标可以是从大量网络数据中学习到的视觉表示。这意味着ImageBind还可以对频繁与图像同时出现的任何其他模态进行对齐。对于与图片高度相关的热度和深度等模态,对齐更简单。 ImageBind通过仅使用成对图像就能整合所有六种模态。该模型能够让各种模态“交流”并发现彼此之间的联系,从而提供更全面的信息解释,即使不能直接观察到这些模态之间的关系。通过这样做,其他模型可以在不需要大量的时间和精力进行训练的情况下“理解”新的模态。ImageBind的强大的可扩展行为使得可以将该模型用于以前不能使用额外模态的许多AI模型的替代或补充。 通过将大规模的图像文本配对数据与自监督数据对四种新模态进行结合,即音频、深度、热度和惯性测量单元(IMU)读数,展示了IMAGEBIND在零样本分类和检索任务上的强大性能。团队表明,加强底层图像表示可以增强这些新出现的特征。 研究结果表明,IMAGEBIND在音频分类和检索基准(如ESC、Clotho和AudioCaps)上的零样本分类性能与通过直接音频-文本监督进行训练的专家模型持平或超过。在少样本评估基准上,IMAGEBIND表示还优于专家监督的模型。最后,他们展示了IMAGEBIND在各种组合任务中的灵活性,包括跨模态检索、嵌入的算术组合、图像中的音频源检测以及通过音频输入生成图像。 由于这些嵌入没有针对特定应用进行训练,所以其效率落后于特定领域的模型。团队认为,了解如何将通用嵌入定制为特定目标(如结构化预测任务,如检测)将非常有帮助。

Leave a Comment

拉马-2、GPT-4还是Claude-2:哪个人工智能语言模型最好?

大型语言模型(LLMs)在全球范围内受到了很多赞赏,并在自然语言处理和自然语言理解领域获得了极大的流行。这使得研究人员能够更好地描述具有更好和更有条理的语言理解能力的智能系统。像GPT-3、T5、PaLM等著名模型,通过学习阅读、生成文本、完成代码、翻译语言和总结长段落等任务,展现了模仿人类的能力。LLMs是通过大量的数据进行训练的,可以理解人类语言的句法、语义和语用。能够以出色的性能提供卓越能力的三个顶级模型是Llama 2、GPT-4和Claude-2。 Llama-2 Meta与微软合作推出了LLaMA 2,这是流行语言模型LLaMa的升级版本。这个创新模型具备流利地理解和产生多种语言内容的能力。LLaMA 2是在Llama的坚实基础上构建的,无疑提升了多语种功能的标准。该模型可以在研究和商业用途中进行许可,并将很快通过Microsoft Azure平台目录和Amazon SageMaker进行访问。 Llama 2的主要特点是其在多种语言上的熟练程度以及在200多种语言中理解和生成文本的能力。通过消除先前使跨国和跨文化有效沟通困难的语言障碍,Llama 2现在能够为全球服务。其次,Llama 2的明显改进主要体现在文化背景分析方面。这个特性使得模型能够对上下文和用户的文化细微差别和敏感性做出更具有感知度的回应。 Llama 2还展示了在一种语言中学到的知识在增强其在其他语言中的理解和生成能力方面的卓越能力。该模型可以利用其处理过的众多语言的大量数据,因此Llama 2在理解和创建多种语言的内容方面提高了其灵活性和有效性,使其成为一种高度灵活和有效的语言模型。 GPT-4 最新版本的GPT-4可以接受文本和图像输入,而GPT 3.5只允许ChatGPT接受文本输入。相比之下,GPT 4模型被称为更易控制,它具有变换器架构,由于其更可靠和富有创造力的本质,显示出人类级别的性能。 GPT-4中的前所未有的多样因素影响着其大小和复杂性,使其独一无二。由于大量的参数,GPT-4可以处理和分析大量数据,并具有出色的效率。由于其参数数量的增多,GPT-4可以捕捉数据中的复杂模式、依赖关系和联系,从而生成更连贯和上下文适宜的文本。 GPT-4的复杂架构被构建成以与人类理解紧密相似的方式解释语言。通过使用其广泛的训练数据和复杂的神经网络,它可以识别输入文本中的细微差别和上下文线索。尽管其体积庞大且复杂,但它具有出色的响应速度,并确保与GPT-4的无缝和流畅的用户交互,提高了其在各个领域的适用性。 Claude-2 这个令人惊叹的AI语言模型名为Claude-2,特别强调共情和情感智能。Claude-2具备理解和模仿人类情感的非凡能力,这有望彻底改变人机交互,并重新定义我们与AI系统的互动方式。Claude 2可以处理多达100,000个标记(相当于一个提示中的75,000个单词),非常有效。 Claude-2的情感智能是它最强大的技能所在。该模型可以识别文本中表示的情感,使其能够在对话过程中确定用户的情感状态。Claude-2可以通过理解情感来模仿人类对话伙伴所期望的共情、同情和敏感性。它不仅检查单词本身,还检查整个交互的情感语调和感觉。它可以根据反应调整其词汇和语气,确保其回应与用户的情感状态保持一致,从而产生更有洞察力和个性化的对话。…

Leave a Comment

见面提示扩散:一种用于在基于扩散的生成模型中实现上下文学习的人工智能框架

最先进的大型语言模型(LLM),包括BERT、GPT-2、BART、T5、GPT-3和GPT-4,是由最近在机器学习领域,尤其是在自然语言处理(NLP)领域的进展所开发出来的。这些模型已经被有效地应用于各种任务,包括文本生成、机器翻译、情感分析和问答。它们学习上下文的能力,通常被称为上下文学习,是这些LLM的新兴行为之一。像GPT-3这样具有上下文学习能力的LLM,可以通过条件化输入输出样本和新鲜查询输入来完成任务,而无需优化任何模型参数。 多种语言任务的预训练可以与上下文学习和精心设计的提示结构相结合,使得LLM能够成功地推广到它们从未遇到过的活动中。尽管上下文学习在NLP领域已经得到了广泛的研究,但在计算机视觉领域中几乎没有应用。要将上下文学习作为一种用于伟大视觉应用的标准技术来展示其实用性和潜力存在两个重要困难:1)创建一个有效的视觉提示比创建语言任务的提示更困难,因为它需要领域特定的输入输出对作为示例和图片搜索作为标准。2)在计算机视觉中,通常会为专门的任务训练大型模型,包括文本到图像生成、类别条件生成、分割、检测和分类。 这些庞大的视觉模型必须更加灵活以适应新的任务,并不适用于上下文学习。最近的一些尝试通过使用NLP的答案来解决这些问题。具体地说,当将示例照片、查询图像和输出图像融合为一个庞大的整体时,训练基于Transformer的图像修复模型来预测被屏蔽的输出图像。然而,将大尺寸的图像拼接在一起会显著增加计算开销,尤其是在高分辨率的情况下。本研究通过解决这两个问题,来探讨基于文本引导的扩散生成模型的上下文学习潜力。 为了在能够处理各种视觉-语言活动的视觉-语言提示下执行上下文学习,微软和德克萨斯大学奥斯汀分校的研究人员提出了一种新颖的模型架构,称为Prompt Diffusion。Prompt Diffusion在六个单独的视觉-语言任务中并行进行。具体地,他们利用他们的视觉-语言提示来描述一个通用的视觉-语言任务。然后,他们根据Stable Diffusion和ControlNet的设计灵感构建了Prompt Diffusion,它可以使用他们的视觉-语言提示作为输入。他们将Prompt Diffusion视为实现文本引导的扩散模型具备上下文学习能力的第一步。然后,它可以利用这些知识通过将连接重新映射到查询图像并包含语言指令来创建输出图像。更重要的是,跨多个任务的学习赋予了模型上下文学习的能力。Prompt Diffusion可以成功地推广到尚未观察到的多个新功能上。除了在训练期间表现良好的六个任务上,它还在熟悉和新的未见任务上表现出色。 从经验上看,Prompt Diffusion在关于上下文学习的熟悉和新的未见任务上表现出色。预计Prompt Diffusion的有效性将激发并推动更多关于基于扩散的上下文视觉学习的研究。以下是他们的主要贡献的摘要: • 一种先进的视觉-语言提示设计,有效地实现了多种视觉-语言活动的融合。 • 使用Prompt Diffusion模型在学习和新的未见任务上进行高质量的上下文生成,这是第一个具备上下文学习能力的基于扩散的可适应视觉-语言基础模型。 • 在GitHub上可以找到Pytorch代码实现。

Leave a Comment

PaLM AI | 谷歌自主研发的生成式人工智能

简介 自从OpenAI推出了像GPT(生成预训练变压器)模型这样的生成式AI模型,特别是ChatGPT以来,谷歌一直在努力创建并推出类似的AI模型。虽然谷歌是第一个通过BERT模型将变压器引入世界的公司,通过其《Attention is All You Need》论文,但它未能像OpenAI开发的那些大型语言模型一样创建一个同样强大和高效的模型。谷歌首次引入的Bard AI似乎并未引起太多关注。最近谷歌发布了PaLM(Pathways语言模型)的API访问权限,该模型是Bard AI背后的技术。本指南将介绍如何开始使用PaLM API。 学习目标 学习如何使用Pathways语言模型 了解PaLM提供的关键功能 使用PaLM 2创建应用程序 利用MakerSuite快速原型化大型语言模型 了解如何使用PaLM API 本文章是Data Science Blogathon的一部分。 什么是PaLM? PaLM代表Pathways语言模型,是谷歌自主开发的大型语言模型之一。它于2022年4月首次推出。几个月前,谷歌宣布了该模型的下一个版本,即PaLM 2。谷歌声称,与之前的版本相比,PaLM在多语言能力和功率效率方面更好。 PaLM 2并不是用英语训练的,而是包含了一百多种语言的混合体,甚至包括编程语言和数学。所有这些都是在不降低英语理解性能的情况下实现的。总体而言,谷歌的PaLM…

Leave a Comment

认识TxGNN:一种利用几何深度学习和以人为中心的人工智能来进行零样本预测的新模型,可以跨越17,080种疾病的广泛范围进行治疗用途预测

世界各地数十亿人的健康需求迫切需要开发治疗方法。然而,目前只有少数被临床认可的疾病有授权的治疗方法。基因功能和它们产生的分子的改变是疾病的常见原因。恢复正常分子活动的药物是对这些疾病的潜在防御。不幸的是,恢复受损基因的生物活动的治疗方法对于许多疾病仍然难以实现。此外,大多数疾病是由多个基因的变化引起的,即使在单个基因内,个体之间的突变模式也可能存在巨大差异。与参与疾病相关的过程和活动的基因网络(即相互作用组)是解释这些遗传事件的重要工具。为了解析疾病中被破坏的遗传结构并帮助创造针对性治疗药物,机器学习已经被用于分析高通量分子相互作用组和电子病历数据。 新药开发具有挑战性,尤其是对于治疗选择有限的疾病,但可以用更安全、更有效的药物替代效率低下的药物。美国FDA只为数百种人类疾病授权了治疗方法。在分析的17,080种临床认可的疾病中,只有1,363种疾病有专门的药物处方,其中435种只有一种处方,182种有两种处方,128种有三种处方。对于已有治疗方法的疾病来说,寻找新的药物具有重要的治疗意义,它提供了更多治疗选择,并减少了不良反应,可以替代某些患者群体中无效的药物。 TXGNN是一种用于治疗使用预测的几何深度学习技术,由对分子原因和潜在治疗方法需要更多了解的疾病感兴趣的研究人员引入。TXGNN使用一个以治疗为重点的图层与目前正在治疗的疾病干扰网络相结合进行训练。该知识图整合和编制了几十年来对17,080种常见和不常见疾病的生物学研究。它被优化以反映TXGNN的治疗中心图的几何特性。一个图神经网络模型将治疗候选药物和疾病集成到一个潜在的表示空间中。TXGNN使用在潜在表示空间中工作的度量学习模块,可以将TXGNN的模型从训练过程中见过的疾病转移到被忽视的疾病上,以避免有监督深度学习对于预测被忽视疾病的治疗使用的限制。 TxGNN是在包括17,080种临床认可的疾病和7,957种治疗候选药物的知识图上进行预训练的图神经网络。它可以以统一的形式执行不同的治疗任务。由于在训练后不需要微调地面真实标签或额外参数,因此TxGNN可以进行未训练疾病的零样本推理。与最先进的方法相比,TxGNN在指示任务的准确性上提高了49.2%,在禁忌任务的准确性上提高了35.1%。 实验设计和方法 – 对数据集进行全面性能评估的分区 疾病领域划分: 许多疾病具有治疗潜力,但缺乏有效的治疗方法和很少的生物理解。通过使用研究团队开发的数据分割来模拟已经进行了分子特征化的疾病,测试TXGNN在预测药物与疾病的联系方面的潜力。 首先,将该组的疾病和相关的药物-疾病边缘复制到测试集中。这意味着在训练过程中,TXGNN对于代表选定疾病类别的当前指示和禁忌边缘的存在是盲目的。这模拟了治疗具有未知基础生物机制的疾病的困难。 系统性数据集划分: 针对不可治疗的疾病进行预测应该非常适合正在实施的机器学习模型。预测已经有现有治疗方法的疾病的潜在疗法要比预测没有现有治疗方法的疾病要简单得多。研究人员设计了这个划分来严格研究该模型预测以前未被发现疾病的能力。研究人员首先随机划分所有疾病。当在训练过程中没有识别出治疗方法,并且测试集包含唯一的疾病时,研究人员将与测试集相关的所有药物-疾病关系转移到测试集中。每次迭代测试集中包含超过一百个唯一疾病。 以疾病为中心的数据集划分: 研究人员使用以疾病为中心的评估来模拟药物候选者在临床中的使用情况。首先,研究人员将知识图中的所有药物与测试集中的所有疾病进行关联,排除训练集中的药物-疾病关联。然后,研究人员基于它们相互作用的可能性对所有可能的配对进行评分。然后,研究人员通过检索前K个药物来计算召回率(即在测试集中有多少药物和疾病在完整的K中)。最后一步是建立一个随机筛选基准,其中在药物集中随机抽样前K个药物,并计算召回率。 结果 使用几何生物先验在TXGNN中进行治疗应用预测。TXGNN基于这样的假设:针对蛋白质相互作用网络中受疾病扰动的网络的药物将具有最大的成功机会。TXGNN经过优化,能够捕捉TXGNN知识图谱的几何特征,它是一种基于知识的图神经网络,将治疗候选者和疾病(疾病概念)映射到潜在表示空间中。 使用参考TXGNN进行零样本治疗应用预测。研究人员测试了TXGNN预测指示和禁忌症的能力。由于TXGNN的目标是治疗像Stargardt病16和高草酸尿症这样目前没有可用治疗方法的疾病,所以使用一种叫做零样本性能的指标来衡量其性能,即模型被要求预测在模型训练期间未见过的另一个数据集(称为保留(测试)集)中的疾病的治疗用途。 在预测五种疾病类型的治疗用途方面达到100%的准确率。类似的治疗方法可能适用于具有相似生物学基础的疾病。 无法预测那些经常拒绝治疗的患者的治疗用途。 对于存在指示的1,363种疾病和存在禁忌症的1,195种情况,准确率达到100%。 对推荐哪些治疗方法和哪些禁忌症给予仔细考虑。 将TXGNN的预测与当前的治疗选择进行比较。研究人员考虑了在TXGNN的数据集和模型开发完成之后获得授权的10种新上市药物,以展示TXGNN不受确认偏见的驱动。在TXGNN的数据集中,没有直接连接的药物-疾病节点。然后,要求TXGNN为研究人员提供预测。 特点 对于不存在药物并且我们对其分子知识很少的疾病,TXGNN具有“零样本”预测治疗用途的能力。 尽管我们对特定疾病没有任何药物的实际了解,并且需要推断到在训练过程中未观察到的新疾病领域,但TXGNN可以极大地提高对各种疾病的治疗用途的预测能力。…

Leave a Comment

“遇见P+:文本到图像生成中的扩展文本逆转的丰富嵌入空间”

文本到图像合成是指从文本提示描述中生成逼真图像的过程。这项技术是人工智能领域中生成模型的一个分支,并在近年来越来越受到关注。 文本到图像生成旨在使神经网络能够解释和翻译人类语言为视觉表达,从而实现各种合成组合。此外,除非另有教导,生成网络会为相同的文本描述生成多个不同的图片。这对于收集新的想法或呈现我们心中准确的视觉是非常有用的,而在互联网上找不到。 这项技术在虚拟现实、增强现实、数字营销和娱乐等各个领域都具有潜在的应用。 在最常用的文本到图像生成网络中,我们可以找到扩散模型。 文本到图像扩散模型通过迭代地改进以文本输入为条件的噪声分布来生成图像。他们将给定的文本描述编码为潜在向量,该向量影响噪声分布,并通过扩散过程迭代地改进噪声分布。这个过程产生了与输入文本匹配的高分辨率和多样化的图像,通过捕捉和融合输入文本的视觉特征的U-net架构实现。 这些模型中的条件空间被称为P空间,由语言模型的标记嵌入空间定义。基本上,P代表文本条件空间,在合成过程中,已经通过文本编码器传递给U-net的输入实例“p”被注入到所有注意层中。 下面是去噪扩散模型的文本条件机制概述。 通过这个过程,由于只有一个实例“p”被馈送到U-net架构中,对编码文本的获得的分离和控制是有限的。 因此,作者引入了一个被称为P+的新的文本条件空间。 这个空间由多个文本条件组成,每个条件被注入到U-net的不同层中。这样,P+可以保证更高的表达能力和分离性,提供对合成图像的更好控制。正如作者所描述的,U-net的不同层对合成图像的属性具有不同程度的控制。特别是,粗糙层主要影响图像的结构,而细层主要影响图像的外观。 在介绍了P+空间之后,作者引入了一个相关的过程,称为扩展文本倒置(XTI)。它是经典文本倒置(TI)的重新审视版本,TI的过程是模型学习将几个输入图像中描述的特定概念表示为专用标记。在XTI中,目标是将输入图像反转为一组标记嵌入,每个层一个标记嵌入,即反转为P+。 为了清楚地说明两者之间的区别,想象一下将“绿色蜥蜴”的图片输入到一个两层的U-net中。TI的目标是获得输出“绿色蜥蜴”,而XTI需要输出两个不同的实例,在这种情况下是“绿色”和“蜥蜴”。 作者在他们的工作中证明了P+中扩展倒置过程不仅比TI更具表达能力和精确性,而且速度更快。 此外,增加P+上的分离性能够通过文本到图像生成进行混合,例如对象样式的混合。 下面是来自上述工作的一个示例。 这就是P+的概述,一个用于扩展文本倒置的丰富的文本条件空间。

Leave a Comment

寓言工作室发布了SHOW-1:一款能够撰写、制作、导演、动画制作甚至完全配音全新电视剧集的人工智能平台

你能想象在你最喜欢的节目中看到自己,尽管你从未在现实生活中演过戏吗?或者你可以按照自己的意愿改变剧集的开头和结尾吗? 旧金山初创公司 Fable Studios 刚刚发布了他们的 SHOW-1 AI 技术,可以完全自主编写、制作、导演、动画甚至配音全新的电视剧集。Fable Studios 使用了不同的扩散模型来实现这一目标。这些模型通过在数据上随机添加和删除噪声的简单方法来生成和重建输出。可以将一个图像作为随机噪声开始,并逐渐将其转化为所需的输出。 Fable Studios 使用了包含《南方公园》电视剧中的1200个角色和600张背景图像的数据集来训练他们的扩散模型。他们的第一个模型任务是根据背景颜色生成单个角色。基于个人的外貌特征、写作风格和声音,可以生成节目中的自治角色。角色扩散模型允许根据自己的外貌通过图像到图像的稳定扩散来创建《南方公园》角色。 第二个模型的任务是生成一个干净的背景,可以作为舞台让角色进行互动,使人们能够设计多个场景和情节。这个模型的唯一限制是生成的图像分辨率较低。团队采用了AI升级技术来提高图像质量,以便在重新缩放时不会失去分辨率。 Fable Studios 通过更改特定位置的对话顺序和运行时间来重新定义电视剧集的一集,以便与原始剧集的长度相匹配。使用模拟数据作为提示链,他们构建了一个与节目负责人系统并行运行的故事系统,以监控行动和对话的顺序,以保持观众的参与度。每个角色的声音都被提前克隆,为每个新的对话生成声音片段。 模拟产生的数据对于编写初始提示的个人和生成故事系统来说都是一个创造性的词典。即使经验丰富的编剧在编写对话时也会遇到困难;通过模拟在开始提示链之前提供上下文和数据点,这些问题可以得到解决。 故事生成过程在用户、模拟和GPT-4之间共享比例。模拟为角色提供基础上下文,如历史、情绪和事件。它充当了一个初始的创造性背景。GPT-4则作为主要的生成引擎,根据用户和模拟提供的提示合并场景和对话。 最后,整合模拟、用户和AI模型的优势,创造出更丰富、更具互动性和吸引力的故事体验。相反,个性化的节目将导致就业机会的减少。由于AI驱动的工具现在可以执行像视频编辑和音乐创作等曾经由人类专业人员完成的任务,这将引发对娱乐行业就业前景的担忧。

Leave a Comment

苹果的下一步:开发Apple GPT和尖端生成式AI工具,挑战OpenAI

苹果公司据报道正在开发自己的AI聊天机器人,暂时被称为“Apple GPT”。该公司对于该技术的潜在发布一直保持沉默,但彭博社的消息来源透露,多个团队正在积极开展该项目,重点关注隐私问题。 这个聊天机器人是基于苹果自有的大型语言模型(LLM)框架“Ajax”构建的。苹果已与谷歌云合作,加快开发进程,并利用谷歌的JAX框架,专门设计用于增强机器学习研究。通过使用Ajax,苹果旨在简化机器学习开发,并为AI项目创建一个统一的平台。 虽然像Meta(前Facebook)、微软和谷歌这样的科技巨头迅速向公众发布了生成式AI产品,但苹果在市场上一直保持着显眼的缺席。当苹果禁止员工使用ChatGPT这个由OpenAI开发的热门AI语言模型时,公司对于采用生成式AI的不愿意变得明显。取而代之的是,苹果的工程师们一直在内部尝试使用Ajax驱动的聊天机器人。 苹果的AI之旅始于生成式AI产品问世之前。其最具代表性的AI系统Siri开创了语音助手的趋势,但也因其限制和性能而受到持续的批评。在最近的采访中,苹果的CEO强调了公司对AI技术的浓厚兴趣,并表示他们正在密切关注该领域的发展。然而,他也承认AI产品面临的挑战,并强调在取得重大进展之前需要解决各种问题。 随着生成式AI领域的发展不断演进,其他科技公司已经采取了一系列合作措施,与初创公司和研究人员共享他们的大型语言模型(LLM)。例如,Meta宣布其LLM“LLaMA 2”将可在微软的Azure平台上使用。反过来,微软在其必应搜索产品上运行OpenAI的GPT模型。 尽管苹果对于其AI计划保持着神秘的立场,内部人士预测公司将在明年某个时候发布一项重大的与AI相关的公告。这个备受期待的消息引发了科技界的好奇和猜测,他们渴望看到苹果如何利用自己的专业知识在AI领域创新。 总之,苹果推出“Apple GPT”进军AI聊天机器人领域,展示了该公司探索新技术前沿的决心。虽然有关聊天机器人的公开发布的细节仍然有限,但苹果对于注重隐私的AI解决方案的不懈追求为生成式AI的未来设定了一个有希望的基调。随着行业竞争对手的不断前进,现在聚焦于苹果,期待苹果揭示其对AI的愿景,并在快速扩张的人工智能世界中留下自己的印记。

Leave a Comment

一项新的人工智能研究提出了一种基于蛋白质的三维结构的简单而有效的结构编码器,用于蛋白质表示学习

蛋白质是细胞的能量,在各种应用中都起着重要作用,包括材料和治疗。它们由一条氨基酸链组成,折叠成一定的形状。由于低成本测序技术的发展,近年来发现了大量的新型蛋白质序列。由于对新型蛋白质序列的功能注释仍然昂贵且耗时,因此需要准确有效的基于计算的蛋白质功能注释方法来弥合当前的序列-功能差距。 许多数据驱动的方法依赖于学习蛋白质结构的表示,因为许多蛋白质功能受到它们折叠方式的控制。然后,这些表示可以应用于蛋白质设计、结构分类、模型质量评估和功能预测等任务。 由于实验蛋白质结构鉴定的困难,已发表的蛋白质结构数量比其他机器学习应用领域的数据集数量少几个数量级。例如,蛋白质数据银行有182K个经实验证实的结构,而Pfam中有47M个蛋白质序列和ImageNet中有10M个注释图片。一些研究利用丰富的无标签蛋白质序列数据来开发适当的现有蛋白质表示,以弥合这种表征差距。许多研究人员已经利用自监督学习在数百万个序列上预训练蛋白质编码器。 准确的基于深度学习的蛋白质结构预测技术的最新发展使得能够有效自信地预测许多蛋白质序列的结构成为可能。然而,这些技术没有特别捕捉或使用关于蛋白质结构的信息,而这些信息已知决定蛋白质的功能。已经提出了许多基于结构的蛋白质编码器来更好地利用结构信息。不幸的是,这些模型尚未明确解决模拟蛋白质结构中至关重要的边缘之间的相互作用问题。此外,由于实验确定的蛋白质结构的匮乏,直到最近才进行了相对较少的工作,以创建利用无标签3D结构的预训练技术。 受到这一进展的启发,他们创建了一种可应用于各种属性预测应用的蛋白质编码器,并对最可行的蛋白质结构进行了预训练。他们提出了一种简单而高效的基于结构的编码器,称为GeomEtry-Aware关系图神经网络,它在编码空间信息后,在蛋白质残基图上进行关系传递。他们提出了一种稀疏边缘传递技术,以改进蛋白质结构编码器,这是第一个在蛋白质结构编码的GNN上实现边缘级消息传递的尝试。他们的想法受到Evoformer中三角形注意力设计的启发。 他们还提供了一种基于众所周知的对比学习框架的几何预训练方法,以学习蛋白质结构编码器。他们提出了创新的增强函数,增强来自同一蛋白质的亚结构获取表示之间的相似性,同时减小来自不同蛋白质的亚结构之间的相似性,以找到在蛋白质中同时出现的生理相关的蛋白质亚结构。他们同时提出了一套基于自预测的简单基线。 通过将他们的预训练方法与几个下游属性预测任务进行比较,他们为预训练蛋白质结构表示奠定了坚实的基础。这些预训练问题包括对各种几何或物理化学属性(如残基种类、欧氏距离和二面角)的屏蔽预测。使用各种基准测试,例如酶委员会编号预测、基因本体术语预测、折叠分类和反应分类,显示在监督环境中,具有边缘消息传递功能的GearNet在大多数任务上始终优于现有蛋白质编码器。 此外,使用建议的预训练策略,他们的模型在少于一百万个样本的训练下,获得了与甚至优于以百万或十亿的数据集为基础预训练的最先进序列编码器相当或更好的结果。代码库在Github上公开可用。它使用PyTorch和Torch Drug编写。

Leave a Comment

你以什么为食?这个AI模型可以从扩散模型中提取训练数据

2022年,扩散模型成为人工智能领域的重要组成部分。我们已经看到它们生成的逼真图像,并且不断得到改进。扩散模型的成功很大程度上归功于稳定扩散(Stable Diffusion),为随后的技术奠定了基础。不久之后,扩散模型成为生成图像的首选方法。 扩散模型,也称为去噪扩散模型,属于生成神经网络的一类。它们从训练分布中选择噪声,并逐渐细化噪声,直到输出达到视觉上令人满意的效果。这种逐渐去噪的过程使得它们更容易扩展和控制。此外,与以前的生成对抗网络(GANs)等方法相比,它们通常能够产生更高质量的样本。 扩散模型的图像生成能力被认为与以前的方法不同。与以前容易过拟合并且能够生成与训练样本非常相似的图像的大规模图像生成模型不同,扩散模型被认为会生成与训练集中的图像明显不同的图像。这一特点使得扩散模型成为注重隐私保护的研究人员的有希望的工具,他们需要保护训练图像中个体的身份或敏感信息。通过生成与原始数据集不同的新图像,扩散模型提供了一种在不牺牲生成输出质量的情况下保护隐私的方法。 但这是真的吗?扩散模型真的不会记住训练图像吗?不可能使用它们来访问训练集中的样本吗?我们真的可以相信它们来保护训练样本的隐私吗?研究人员提出了这些问题,并进行了一项研究来展示扩散模型确实会记住它们的训练数据。 扩散模型记住的训练样本示例。来源:https://arxiv.org/pdf/2301.13188.pdf 虽然重新生成最先进的扩散模型训练数据中的样本并不直接,但是确实是可能的。首先,某些训练样本更容易提取,尤其是重复的样本。作者利用这个特性从稳定扩散中提取训练样本。他们首先在训练数据集中识别近似重复的图像。当然,手动执行此操作是不可行的,因为稳定扩散的训练数据集中大约有1.6亿张图像。相反,他们使用CLIP嵌入图像,然后在这个低维空间中比较图像。如果CLIP嵌入具有较高的余弦相似度,则将这些标题用作提取攻击的输入提示。 从稳定扩散中提取的示例训练图像。来源:https://arxiv.org/pdf/2301.13188.pdf 一旦他们获得潜在的文本提示用于攻击,下一步是使用相同的提示生成许多样本,本例中为500个,以查找是否存在记忆。这500个图像使用相同的提示生成,但由于随机种子的不同,它们看起来各不相同。然后,通过测量它们之间的相似性距离并构建这些连接的图,将每个图像与其他图像连接起来。如果他们在图的某个位置看到了累积现象,比如与单个图像相连接的图像超过10个,那么这个中心图像被认为是一个记忆。当他们将这种方法应用于稳定扩散时,他们几乎可以生成与训练数据集中的样本完全相同的样本。 他们对最先进的扩散模型进行了实验性攻击,并得出了有趣的观察结果。与可比较的GANs相比,最先进的扩散模型记忆的信息更多,而更强的扩散模型记忆的信息更多。这表明生成图像模型的脆弱性可能会随着时间的推移而增加。

Leave a Comment

查看我们独家的降价备忘单

Markdown是一种轻量级标记语言,它提供了一种简单的方式来格式化文本,无需复杂的HTML或其他格式化语言。由于其简洁和易用性,它被广泛用于文档、博客和其他写作平台。在这份Markdown备忘单中,我们将介绍各种格式选项以及如何有效地使用它们来增强您的写作。 Markdown文件 Markdown是一种轻量级标记语言,使用纯文本格式创建富文本格式的文档。这些文件通常具有.md或.markdown扩展名。它们通常用于创建文档、编写博客文章和为网页格式化文本。 如何离线打开Markdown文件? 要离线打开Markdown文件,您可以使用文本编辑器或专用的Markdown编辑器。以下是打开Markdown文件的步骤: 在计算机上找到Markdown文件。 右键单击文件,选择“打开方式”。 从可用程序列表中选择一个文本编辑器或Markdown编辑器。 Markdown文件将在所选编辑器中打开,您可以查看和编辑其内容。 在线Markdown编辑器 在线Markdown编辑器是基于Web的工具,可以直接在Web浏览器中编写和预览Markdown文件。这些编辑器通常提供实时预览、语法高亮和其他有用的Markdown功能。 Markdown文件的优势 易学易用:Markdown具有简单的语法,易于理解和编写。它不需要像HTML或CSS那样复杂的格式化代码。 跨平台:使用兼容的文本编辑器或Markdown查看器,可以在任何设备或操作系统上打开和查看Markdown文件。 轻量级:Markdown文件是纯文本文件,因此它们小巧且加载速度快。它们不包含繁重的格式化或样式信息。 版本控制友好:Markdown文件与Git等版本控制系统很好地配合使用。对Markdown文件的更改可以轻松跟踪、比较和合并。 可移植:使用各种工具和转换器,可以轻松将Markdown文件转换为其他格式,如HTML、PDF或Word。这种可移植性使您可以在不同的平台和应用程序之间共享内容。 广泛支持:许多文本编辑器、内容管理系统(CMS)和发布平台都支持Markdown。它已成为在Web上撰写内容的流行选择。 让我们来看一下Markdown备忘单! 标题 它们是组织和结构化您的内容的重要组成部分。Markdown允许您使用“#”符号创建不同级别的标题。 “#”符号的数量表示标题级别。 强调 它用于突出显示文本的特定部分。Markdown提供了三种强调选项:加粗、斜体和删除线。 要使文本加粗,请使用双星号**或双下划线__将其包围。…

Leave a Comment

清华大学的研究人员在元学习范式下引入了一种新颖的机器学习算法

深度学习在监督任务中的最新成就可以归因于大量标记训练数据的可用性。然而,收集准确的标签需要大量的工作和金钱。在许多实际情况下,只有一小部分训练数据附带标签。半监督学习(SSL)旨在使用带标签和不带标签的输入来提高模型性能。许多有效的SSL方法,当应用于深度学习时,采用无监督一致性正则化来使用未标记的数据。 最先进的基于一致性的算法通常引入几个可配置的超参数,尽管它们实现了出色的性能。为了实现最佳算法性能,通常会调整这些超参数的值。不幸的是,在许多现实世界的SSL场景中,如医学图像处理,高光谱图像分类,网络流量识别和文档识别中,超参数搜索经常不可靠。这是因为标注数据稀缺,采用交叉验证时会产生高方差。算法性能对超参数值的敏感性使这个问题变得更加紧迫。此外,随着超参数数量的指数级增长,先进的深度学习算法的计算成本可能变得难以管理。 清华大学的研究人员引入了一种基于元学习的SSL算法Meta-Semi,以更好地利用带标签的数据。通过调整一个以上的超参数,Meta-Semi在许多场景中实现了出色的性能。 团队受到这样的认识启发,即通过适当的“伪标记”未标记示例可以成功训练网络。具体而言,在在线训练阶段,他们基于网络预测为未标记的数据产生伪软标签。接下来,他们删除具有不可靠或错误伪标签的样本,并使用剩余数据来训练模型。这项工作表明,正确“伪标记”数据的分布应与带标签数据的分布相当。如果使用前者训练网络,则应最小化后者的最终损失。 他们定义了元重新加权目标,通过选择最合适的权重(本文中的权重始终指用于重新加权每个未标记样本的系数,而不是神经网络的参数)来最小化带标签数据上的最终损失。研究人员在处理该问题时遇到了计算困难。 因此,他们提出了一个近似公式,可以导出一个闭合解。从理论上讲,他们证明了每个训练迭代只需要进行一次元梯度步骤即可实现近似解。 总之,他们建议使用动态加权方法对先前伪标记的样本进行加权,加权范围为0-1。结果表明,该方法最终达到了监督损失函数的稳定点。在流行的图像分类基准测试(CIFAR-10、CIFAR-100、SVHN和STL-10)中,所提出的技术显示出比最先进的深度网络更好的性能。对于困难的CIFAR-100和STL-10 SSL任务,Meta-Semi的性能要比ICT和MixMatch等最先进的SSL算法高得多,并在CIFAR-10上略优于它们。此外,Meta-Semi是一种有用的一致性方法的补充;将一致性正则化与算法相结合可以进一步提高性能。 根据研究人员介绍,Meta-Semi需要更多的训练时间是一个缺点。他们计划将来研究这个问题。 查看论文和参考文章。本研究的所有荣誉归功于该项目的研究人员。此外,请加入我们的26k+ ML SubReddit、Discord频道和电子邮件通讯,我们将分享最新的AI研究新闻、酷炫的AI项目等。 通过Tensorleap的解释性平台揭示深度学习的秘密 本文由MarkTechPost发布,清华大学的研究人员介绍了一种基于元学习范式的新型机器学习算法。

Leave a Comment

UC Santa Cruz和三星的研究人员推出了ESC:一种利用像ChatGPT这样的LLMs中的常识进行零射击目标导航决策的代理

对象导航(ObjNav)指导一个物理代理前往一个预先确定的目标对象,而这个环境对于它来说是未知的。前往目标对象是代理与之交互的前提条件,因此对于其他基于导航的具身任务来说,这个活动至关重要。 识别环境中的房间和物体(语义场景理解)以及使用常识推理来推断目标物体的位置(常识推理)是成功导航所必需的两个关键技能。然而,现有的零样本对象导航方法经常缺乏常识推理能力,并且没有充分解决这个需求。现有的技术依赖于简单的探索启发式算法或者需要在其他目标导向的导航任务和环境中进行训练。 最近的研究表明,大规模预训练模型在零样本学习和问题解决方面表现出色。受到这些研究的启发,加州大学圣克鲁兹分校和三星研究提出了一种零样本对象导航框架,称为带有软常识约束的探索(ESC)。该框架使用预训练模型自动适应陌生的环境和物体种类。 团队首先使用GLIP,一种视觉和语言基础模型,用于推断当前代理视图的对象和房间信息,作为一种基于提示的开放世界对象定位和场景理解方法。由于GLIP在图像-文本对上进行了广泛的预训练,它可以在最小提示的情况下轻松推广到新的对象。然后,他们使用了一个预训练的常识推理语言模型,该模型使用房间和对象数据作为上下文来推断两者之间的关联。 然而,将从LLMs中推导出的常识知识转化为可操作的步骤仍存在一些空白。事物之间的联系在某种程度上存在一定的不确定性也是很常见的。通过使用概率软逻辑(PSL),一种声明性模板语言,该语言定义了遵守一阶逻辑原则的一部分马尔可夫随机场,ESC方法模拟了“软”常识限制来克服这些障碍。基于前沿的探索(FBE)是一种传统策略,它利用这些温和的常识限制来关注下一个要调查的前沿。虽然之前的方法依靠神经网络训练来隐式灌输常识,但是所提出的方法使用软逻辑谓词来在连续值空间中表达知识,并将其提供给每个前沿以促进更高效的探索。 为了测试系统的有效性,研究人员使用了三个目标导航基准(MP3D,HM3D和RoboTHOR),这些基准具有不同的家庭规模,建筑风格,纹理特征和物体类型。研究结果显示,该方法在MP3D上以SPL加权长度(SPL)和SR(成功率)约为CoW的285%和RoboTHOR的35%和SR(成功率)表现出色。该技术在MP3D上相对于ZSON实现了196%更好的SPL,相对于HM3D实现了85%更好的SPL,而ZSON需要在HM3D数据集上进行训练。在MP3D数据集上,所提出的零样本方法实现了与其他最先进的监督算法相比最高的SPL。

Leave a Comment

遇见CLAMP:一种新的AI工具,用于分子活性预测,可以在推理时间适应新的实验

几十年来,基于化学结构预测分子的化学、宏观或生物性质的任务一直是一个关键的科学研究问题。由于近年来技术的显著进步,许多机器学习算法已被用于发现化学结构与这些分子特性之间的相关性。此外,深度学习的出现标志着引入了活性预测模型,这些模型用于在去除具有不良特征的分子后对剩余分子进行生物测试排序。这些基于深度学习的活性预测模型是计算药物发现行业的主要工具,它们可以与自然语言处理中的大型语言模型和计算机视觉中的图像分类模型进行比较。这些基于深度学习的活性预测模型利用了各种低级化学结构描述,包括化学指纹、描述符、分子图、SMILES字符串表示或其组合。 尽管这些架构表现出色,但它们的进展并不像视觉和语言领域那样具有革命性。通常,使用来自生物实验或“生物检测”的分子对和活性标签来训练活性预测模型。由于标注训练数据(也称为生物活性)的过程非常耗时和劳动密集,研究人员急切地寻找能够以较少数据点高效训练活性预测模型的方法。此外,当前的活性预测算法还不能够使用关于活性预测任务的全面信息,这主要是因为这些模型需要从它们所训练或微调的生物检测或活性预测任务中获得测量数据。因此,当前的活性预测模型无法进行零样本活性预测,并且在少样本情况下的预测准确性较差。 由于其被报道具有零样本和少样本能力,研究人员已经转向各种科学语言模型来进行低数据任务。但是,当涉及到活性预测时,这些模型在预测质量方面明显不足。在解决这个问题的过程中,来自奥地利林茨约翰内斯·开普勒大学机器学习系的一组杰出研究人员发现,使用化学数据库作为训练或预训练数据,并选择一个高效的分子编码器,可以提高活性预测的效果。为了解决这个问题,他们提出了一种名为对比语言-生物检测-分子预训练(CLAMP)的新型活性预测架构,该架构可以根据预测任务的文本描述进行条件化。这种模块化架构由一个单独的分子编码器和一个单独的语言编码器组成,这两个编码器在这两个数据模态之间进行对比性预训练。研究人员还提出了一种对训练数据中包含的化学数据库中的信息进行对比性预训练的目标。这些数据中包含了比生物医学文本中的化学结构多几个数量级的化学结构。 如前所述,CLAMP使用可训练的文本编码器创建生物检测嵌入和可训练的分子编码器创建分子嵌入。假设这些嵌入已进行层归一化。奥地利研究人员提出的方法还包括一个评分函数,当一个分子在某个生物检测上活跃时提供高值,而在不活跃时提供低值。此外,对比学习策略使模型能够进行零样本迁移学习,简而言之,为未见过的生物检测产生有见地的预测。根据研究人员进行的多个实验评估显示,他们的方法在少样本学习基准和药物发现中的零样本问题上显著改善了预测性能,并产生了可迁移的表示。研究人员认为他们模型的模块化架构和预训练目标是其出色性能的主要原因。 需要记住的是,尽管CLAMP表现出色,但仍有改进的空间。许多影响生物检测结果的因素,如化学剂量,未被考虑在内。此外,某些不正确的预测可能由于语法不一致和否定引起。尽管如此,对比学习方法CLAMP在几个大型数据集上展示了在零样本预测药物发现任务中的最佳性能。

Leave a Comment

中国的一项新的人工智能研究,将机器学习方法与问题结合起来,揭示了导师-学生关系之间的新维度

导师与学生之间的关系对创造力有着深远影响。和谐的导师与学生关系是知识传递和创新的基础,而糟糕的导师与学生关系则减轻了权力刻板印象的负面影响。研究人员设计了两个研究来探索导师与学生关系中的情感机制。研究人员收集了74名华东师范大学研究生的数据,并根据他们的问卷数据选择了16名参与者,针对那些报告导师与学生关系困难的人。研究人员在两个阶段进行了实验:三个主题下的访谈对话(自我介绍主题、导师主题和校园生活主题)和问卷评估。 在研究1中,研究人员使用面部情绪检测方法分析录制的视频帧中的情感特征。面部检测采用了多任务卷积神经网络(MTCNN),情感识别采用了VGG19神经网络。通过这项研究,研究人员观察到负面动态表现的频率在导师主题中显著增加,并且在从自我介绍主题过渡到导师主题时识别出明显的负面情绪波动。 研究2探讨了导师与学生关系如何影响创造力的情感机制。学生与导师的关系是受教学和人际关系影响的多维结构。提出了假设来检验导师与学生关系、权力刻板印象、情感劳动和创造力之间的关系。研究人员采用结构方程模型(SEM)研究了变量之间的联系。问卷包括导师与学生关系、权力刻板印象、情感劳动和创造力的测量。他们从研究生中收集了592份有效问卷(男性占53.7%,女性占46.3%,年龄在21至29岁之间)。结果显示,良好的学生与导师关系减轻了权力刻板印象。权力刻板印象影响情感劳动,表面行为对创造力产生负面影响,而深层行为对创造力产生积极影响。这些发现支持了提出的假设。 为了提高创造力,导师应该关注情感机制,如权力刻板印象、表面行为和深层行为。机构应加强对研究生导师的培训和评估,同时学生应积极参与关系并表达自己的想法。研究人员认为未来的工作应探索因果关系,并考虑相关因素以获得更准确的结果。

Leave a Comment

“遇见Animate-A-Story:一种以检索增强视频生成为基础的讲故事方法,能够合成高质量、有结构、以角色驱动的视频”

文本到图像模型最近引起了很多关注。随着生成式人工智能的引入,像GPT和DALL-E这样的模型自发布以来一直都是头条新闻。它们的流行之所以如此之高是因为像人类一样生成内容不再是一个梦想。不仅文本到图像模型,现在还可以实现文本到视频(T2V)的生成。拍摄真人或制作计算机生成的动画通常需要进行有趣的故事视频的制作,这是一个困难且耗时的过程。 尽管最新的文本到视频生成技术展示了从基于文本描述的自动生成视频的潜力,但仍存在一定的限制。对于可视化引人入胜的故事和制作电影体验至关重要的视频设计和布局的控制不足是一个主要挑战。特写镜头,远景和构图等其他电影制作技术对于观众理解潜在信息至关重要。目前,现有的文本到视频方法很难提供符合电影标准的适当动作和布局。 为了解决这些限制,一组研究人员提出了一种独特的视频生成方法,即检索增强的视频生成方法,称为Animate-A-Story。该方法通过使用来自外部数据库的电影作为T2V创作过程的指导信号,根据文本提示获取与请求场景或动作背景相匹配的电影,以利用现有的丰富视频内容。用户在动画故事时可以更好地控制生成视频的布局和构图,使用检索到的视频作为结构参考。 该框架由两个模块组成:运动结构检索和结构引导的文本到视频合成。运动结构检索模块提供与查询文本所指示的场景或动作上下文相匹配的视频候选项。为此,使用商业视频检索系统提取视频深度作为运动结构。第二个模块,结构引导的文本到视频合成,使用文本提示和运动结构作为输入来生成遵循故事情节的电影。已经创建了一个用于定制化视频制作的模型,使得对视频的情节和角色有灵活的控制。通过遵循结构指导和视觉准则,所创建的视频符合预期的叙事要素。 这种方法非常注重保持镜头之间的视觉连贯性。该团队还开发了一种成功的概念个性化策略来确保这一点。通过文本提示,该方法使观众可以选择喜欢的角色身份,从而保持整个视频中角色外观的一致性。为了评估,该团队将该方法与现有基准进行了比较。结果显示了这种方法的显著优势,证明了它能够生成高质量、连贯且视觉吸引人的叙事视频。 该团队总结了以下贡献: 引入了一种检索增强的叙事视频合成范式,首次允许使用各种现有视频进行叙事。 通过实验结果支撑了该框架的实用性,将其确定为一种非常用户友好的创作视频的尖端工具。 提出了一种灵活的结构引导的文本到视频方法,成功地解决了角色制作和结构引导之间的紧张关系。 该团队还引入了TimeInv,这是一种与当前竞争对手相比有显著优势的个性化方法概念。

Leave a Comment

为什么你们公司下一任首席财务官应该是一名数据科学家:用数据科学和分析驱动商业决策

在大数据时代,首席财务官的角色正在发生变化了解为什么您的下一任首席财务官应该是一名数据科学家,善于利用分析来指导战略决策并推动业务增长

Leave a Comment