Press "Enter" to skip to content

14 search results for "半监督学习"

利用生成模型提升半监督学习

介绍 在机器学习这个充满活力的世界中,一个不断面临的挑战是如何充分利用有限的标记数据的潜力。这就是半监督学习的领域——一种巧妙的方法,将少量标记数据与大量未标记数据相结合。在本文中,我们将探索一种具有改变游戏规则的策略:利用生成模型,特别是变分自动编码器(VAEs)和生成对抗网络(GANs)。通过本文的精彩旅程,您将理解这些生成模型如何极大地提升半监督学习算法的性能,就像扣人心弦的故事中的巧妙转折一样。 来源:researchgate.net 学习目标 我们将首先深入探讨半监督学习,了解它的重要性,以及它在实际机器学习场景中的应用。 接下来,我们将介绍令人着迷的生成模型世界,重点介绍VAEs和GANs。我们将了解它们如何为半监督学习增添活力。 准备好动手实践吧,我们将指导您如何将这些生成模型整合到真实世界的机器学习项目中,从数据准备到模型训练。 我们将强调一些好处,如改进模型泛化能力和节省成本。此外,我们还将展示这种方法如何适用于不同领域。 每段旅程都会面临挑战,我们将应对这些挑战。我们还将看到重要的伦理考虑,确保您有能力在半监督学习中负责任地使用生成模型。 本文作为数据科学博客马拉松的一部分发表。 半监督学习简介 在广阔的机器学习领域中,获取标记数据可能是一项艰巨的任务。它常常涉及耗时且昂贵的工作来对数据进行注释,这可能限制了监督学习的可扩展性。这时就需要半监督学习,这是一种巧妙的方法,弥合了标记和未标记数据领域之间的差距。它认识到,虽然标记数据非常重要,但大量的未标记数据常常处于休眠状态,可以被利用起来。 想象一下,您的任务是教会计算机识别图像中的各种动物,但对每个动物进行标记是一项艰巨的任务。这就是半监督学习发挥作用的地方。它建议将少量标记图像与大量未标记图像混合在一起,用于训练机器学习模型。这种方法使模型能够利用未标记数据的潜力,提高其性能和适应性。就像在一个信息星系中有一些指引星星,帮助您导航。 来源:festinais.medium.com 在我们探索半监督学习的旅程中,我们将探讨其重要性、基本原理和创新策略,特别关注生成模型如VAEs和GANs如何增强其能力。让我们与生成模型一起释放半监督学习的力量。 生成模型:增强半监督学习 在引人入胜的机器学习世界中,生成模型成为真正的游戏改变者,为半监督学习注入新的活力。这些模型具有独特的才能——它们不仅可以理解数据的复杂性,还可以生成与其所学内容相似的新数据。在这个领域中表现最好的模型之一是变分自动编码器(VAEs)和生成对抗网络(GANs)。让我们踏上一段旅程,了解这些生成模型如何成为催化剂,推动半监督学习的界限。 VAEs擅长捕捉数据分布的本质。它通过将输入数据映射到隐藏空间,然后精心重构数据来实现。在半监督学习中,这种能力有着深远的意义,因为VAEs鼓励模型提炼有意义且简洁的数据表示。这些表示不需要大量标记数据的培养,却能提供改进的泛化能力,即使面对有限的标记示例。在另一方面,GANs进行着引人入胜的对抗舞蹈。在这里,生成器努力创建与真实数据几乎无法区分的数据,而鉴别器则扮演警惕的批评家的角色。这个动态二重奏导致数据增强,并为生成全新的数据值铺平了道路。正是通过这些引人入胜的表演,VAEs和GANs获得了关注,开启了半监督学习的新时代。 实际实施步骤 现在我们已经探索了理论方面,是时候卷起袖子,深入探讨使用生成模型的半监督学习的实际实施了。这是魔术发生的地方,我们将想法转化为现实解决方案。以下是将这种协同效应变为现实的必要步骤: 来源:google-cloud.com 第一步:数据准备 – 设置舞台 就像任何成功的制作一样,我们需要一个好的基础。首先收集你的数据。你应该有一小部分有标签的数据和大量未标记的数据。确保你的数据干净、组织良好,并准备好上场。…

Leave a Comment

2024年使用的前5个生成式人工智能框架

介绍 欢迎来到引人入胜的生成式人工智能(Generative AI)框架的领域,这是创新和创造力在数字化领域的交织。生成式人工智能的力量不仅仅是一种技术奇迹。它是一种塑造我们与机器互动和产生内容方式的动态力量。想象一下:只需要一个提示,就能创造故事、图像,甚至整个世界。这不是魔法,而是人工智能的进化。 生成式人工智能不仅仅是一组算法;它是由在线数据的广阔领域驱动的创造力强大动力。想象一下,能够提示人工智能生成文本、图像、视频、声音和复杂的代码。随着GenAI的进一步学习和发展,它在各个行业的应用不断增加。秘密在于训练-复杂的数学和大量的计算能力相结合,教会人工智能预测结果,模仿人类的行为和创造。 进入生成式人工智能世界的旅程涉及解开其工作原理背后的神秘。神经网络如何识别模式以产生新内容?哪些基础模型支持诸如ChatGPT和DALL-E之类的工具?与我们一同探索生成式人工智能的复杂性,探索其用途和功能。介绍这一技术革命前沿的五个框架。这是一段机器给想象力注入生命的旅程,可能性无限,就像他们在数字画布上绘制一样。 提升你的生成式人工智能水平,学习实践。检查我们的 GenAI顶尖计划! 什么是生成式人工智能框架? 生成式人工智能框架是GenAI的支柱,为机器创建多样且与上下文相关的内容提供了基础设施。这些框架作为AI模型(如LLMs、GANs、VAEs)的指导原则,使它们能够理解庞大数据集中的模式。组织可以利用无监督和半监督学习方法的力量,通过使用这些框架来训练AI系统。这种训练为从自然语言处理到图像生成等任务奠定了基础,使机器能够解释提示。 LangChain LangChain是Harrison Chase的创新软件开发框架,专为GenAI专业人员量身打造。它有助于重塑日常任务和项目的格局。LangChain通过强调利用大型语言模型(LLMs)来提升AI系统的能力,简化了应用程序创建过程。基于MIT许可证的开源原则下,LangChain引入了一个标准化的接口,包括代理、内存和链。 LangChain的代理扮演重要角色,使LLMs能够做出明智的决策,为创建动态聊天机器人、游戏和各种应用铺平道路。内存功能非常宝贵,允许在对LLMs进行调用时保留状态。对于像聊天机器人这样的应用程序来说,这一功能成为了保持连贯对话或存储先前查询结果的基石。链条不仅限于单个LLM调用,还便于序列的编排-这对于构建摘要工具、问答系统和需要多方交互的不同应用程序来说是一个福音。 LangChain的数据增强生成功能增加了更多的灵活性,使GenAI专业人员能够根据外部数据生成文本。从编写引人入胜的新闻文章到制作产品描述,这个框架增强了内容生成的能力。 LangChain在各种应用中展示了其能力,包括客户服务和教育的聊天机器人,娱乐和研究的游戏,以及商业和教育的摘要工具和问答系统。它涵盖了各种应用,如内容生成、翻译、代码生成、数据分析和医学诊断。在GenAI专业人员的工具包中,LangChain推动着生成式人工智能不断演进的创新和效率。 LlamaIndex LlamaIndex成为GenAI专业人员武器库中至关重要的工具。它为自定义数据和GPT-4等LLMs之间提供了一个无缝的桥梁。这个创新的库通过简化与数据和LLMs一起工作的复杂过程,显著增强了GenAI专业人员的日常工作和项目。LlamaIndex的多功能实用性在不同阶段得到展现,在数据摄取、结构化、检索和集成方面提供了不可或缺的支持。 首先,LlamaIndex在从各种来源(如API、数据库、PDF或外部应用程序)“摄取”数据方面表现出色,充当勤奋的数据收集者。然后,它进入“构建”阶段,在这个阶段中,它以一种LLMs轻松理解的方式组织数据。这些组织良好的数据成为“检索”阶段的基础,在这个阶段中,LlamaIndex在需要时便于找到和提取正确的数据。最后,它简化了“集成”过程,实现了与各种应用框架的无缝合并数据。 LlamaIndex由三个主要组件组成:用于收集的“数据连接器”,用于组织的“数据索引”和作为翻译器的“引擎”(LLMs)。这种设置使GenAI专业人员在检索增强生成(RAG)方面拥有强大的能力,将LLM的实力与自定义数据相结合。查询引擎、聊天引擎和代理等模块化构建提升了交互到对话水平,实现了动态决策。无论是创建问答系统、聊天机器人还是智能代理,LlamaIndex都是GenAI专业人员的不可或缺的盟友,为RAG企业提供坚实的基础,并通过LLMs和定制数据来超级增强应用。 Jarvis 微软的JARVIS平台引领人工智能创新,为GenAI专业人员提供无与伦比的工具来增强日常工作。JARVIS与ChatGPT和t5-base等AI模型进行协作,实现统一和先进的结果。作为任务控制器,JARVIS简化了工作流程,最大限度地发挥了各种开源大型语言模型(LLMs)在图像、视频、音频等方面的潜力。 JARVIS集成了多模态人工智能,将GPT-4的功能扩展到文本和图像处理。该平台连接到互联网,访问一个强大的模型网络,包括t5-base、stable-diffusion 1.5、Facebook的bart-large-cnn和Intel的dpt-large等20个强大的模型。JARVIS使用户可以提交复杂的多任务查询,指导不同的模型无缝协作执行复杂的任务。例如,生成一张有关外星人入侵的图像,并在此过程中创作相关的诗歌,这个流程变得简化,ChatGPT规划任务,选择适当的模型并执行任务,展示了JARVIS的高效性和协作潜力。 虽然JARVIS的能力是无可否认的突破性,但其使用也需要考虑资源。JARVIS需要至少16GB的VRAM和约300GB的存储空间来运行各种模型。JARVIS需要大量的资源,无法在普通个人电脑上本地运行。然而,尽管有这些限制,JARVIS标志着人工智能发展的重要飞跃,革新了人工智能能力和协作的领域。它重塑了GenAI专业人员与利用人工智能技术的交互方式的潜力是显而易见的,使其成为人工智能发展演进中的关键工具。 Amazon…

Leave a Comment

SEER 自监督计算机视觉模型的突破?

在过去的十年中,人工智能(AI)和机器学习(ML)取得了巨大的进展如今,它们比以往任何时候都更加准确、高效和有能力现代的人工智能和机器学习模型可以无缝地准确识别图像或视频文件中的对象此外,它们还能够生成与人类智能相媲美的文本和语音[…]

Leave a Comment

MLOps覆盖整个机器学习生命周期:论文摘要

这篇AI论文对MLOps领域进行了广泛的研究。 MLOps是一门新兴的学科,专注于自动化整个机器学习生命周期。调查涵盖了广泛的主题,包括MLOps流水线、挑战和最佳实践。它深入探讨了机器学习过程的各个阶段,从模型需求分析、数据收集、数据准备、特征工程、模型训练、评估、系统部署和模型监控等开始。此外,它还讨论了整个生命周期中的业务价值、质量、人类价值和伦理等重要考虑因素。 该论文旨在全面调查MLOps,并强调其在自动化机器学习生命周期中的重要性。调查涵盖了多个主题,包括MLOps流水线、挑战、最佳实践以及机器学习过程的各个阶段。 本文在下图中提供了一个概览: https://arxiv.org/abs/2304.07296:机器学习流程 模型需求分析 为了启动一个机器学习项目,利益相关者必须分析和确定模型需求。本节概述了四个考虑因素:业务价值、模型质量、人类价值(隐私、公平性、安全性和问责制)以及伦理。鼓励利益相关者定义目标,评估用于识别价值和问题的工具,优先考虑需求,涉及相关利益相关者,并确定必要的功能。 数据收集和准备 数据准备阶段在确保机器学习任务的高质量数据方面起着至关重要的作用。本节介绍了数据收集、数据发现、数据增强、数据生成和ETL(提取、转换、加载)过程。强调了数据质量检查、数据清洗、数据合并、数据匹配以及进行探索性数据分析(EDA)以获得数据集洞察的重要性。 特征工程 特征工程对于提高预测建模性能至关重要。本节重点介绍了特征选择和提取、特征构建、特征缩放、数据标记和特征填充等技术。提到了与每种技术相关的具体算法和方法,包括主成分分析(PCA)、独立成分分析(ICA)以及标准化和归一化。 模型训练 模型训练阶段涵盖了不同类型的机器学习模型,包括有监督学习、无监督学习、半监督学习和强化学习。本节讨论了模型选择,包括为特定问题选择适当模型的过程。还探讨了模型选择的方法,如交叉验证、自助法和随机拆分。还讨论了超参数调优,即优化模型参数的过程。 模型评估 模型评估侧重于使用各种指标评估模型的性能。本节介绍了常见的评估指标,如准确率、精确率、召回率、F值和ROC曲线下的面积(AUC)。强调同时考虑模型性能和业务价值的重要性。 系统部署 系统部署涉及选择适当的ML模型操作平台,集成系统,进行系统集成测试,并将系统发布给最终用户。解释了部署策略,包括金丝雀部署和蓝绿部署。还讨论了部署ML系统所面临的挑战,以及实现顺畅部署过程的提示。 模型监控 本文强调在ML系统中进行模型监控的重要性。强调开发人员在ML模型监控和维护方面缺乏知识和经验。本节探讨了模型监控的各个方面,包括漂移检测、模型监控质量、合规性、系统日志记录和模型解释(XAI)。提供了监控数据分布变化、确保模型性能、符合行业特定标准和法规、用于ML流水线的系统日志记录以及实现模型透明度的洞察。 结论 本文通过讨论MLOps的未来以及需要解决的可扩展性和可靠性挑战来总结。它强调了对机器学习模型进行持续监控和维护的重要性,以实现长期成功。 总之,这份综合调研涵盖了MLOps领域内整个机器学习生命周期。它为MLOps管道、挑战、最佳实践、模型需求分析、数据准备、特征工程、模型训练、评估、系统部署和模型监控提供了宝贵的见解。通过详细研究这些主题,本调研旨在帮助研究人员和从业者全面了解MLOps及其实际意义。

Leave a Comment

见面Co-BioNet:莫纳什大学的对抗性人工智能系统,革新医学图像分析,提高准确性,无需大量人工标注

深度学习在医疗人工智能方面取得了显著进展。然而,它面临着需要大量带注释的数据进行训练的挑战,这可能是费力且容易受到人类偏见的问题,尤其是在图像分割任务中。莫纳什大学的研究人员意识到人类注释的医学图像的有限性,并提出了一种创新的对抗学习方法来解决这个问题。他们旨在推进医学图像分析,使放射科医生和医疗专家受益。目前依赖于人工手动注释是耗时、主观和容易出错的,强调了需要替代解决方案的需求。 传统上,放射科医生和其他医学专家通过手工注释医学扫描,突出显示感兴趣的特定区域,如肿瘤或其他病变。然而,这种方法依赖于个人的主观解释,耗时且容易出错,特别是在涉及到3D医学模态(例如MRI CT)时,导致患者等待治疗的时间延长。此外,医学图像中的解剖结构(器官或组织)的轮廓需要耗时的手动输入,因为医学图像通常具有低对比度的切片和模糊的区域。 莫纳什大学的研究团队开发了一种“双视图”人工智能系统,以克服传统医学图像注释技术的局限性。这种创新方法涉及两个相互竞争的组件-一个部分模拟放射科医生的专业知识,标记医学图像;而另一个通过将其与人类放射科医生提供的有限注释扫描进行比较,评估AI生成的标签的质量。通过利用带有标签和未标记的数据,提出的AI算法提高了准确性,并在半监督学习中取得了突破性的成果。即使只有有限的注释,AI模型也可以做出明智的决策,验证初步评估,并产生更准确的诊断和治疗决策。这一进展为医学图像分析中广泛的人工注释提供了一个有前景的替代方案。 在他们的新颖的AI算法中,研究人员使用评论网络使AI系统的每个视图能够从其他理论的高置信度预测中学习。通过引入不确定性,AI系统可以有效地衡量其生成标签的质量,提高医学图像分割的准确性。为了共同学习双视图和评论家,研究人员将学习问题制定为最小最大优化,从而实现更健壮和准确的分割。 在实验中,研究人员将他们提出的方法与最先进的基线方法进行了性能比较。评估是定性和定量的,涉及到四个公共数据集,包括多种模态,如计算机断层扫描(CT)和磁共振成像(MRI)。结果表明,所提出的半监督方法在性能上超过了竞争基线,并在与全监督方法相同条件下实现了竞争性能。在三个公开可访问的医学数据集中,仅利用10%的标记数据与最近的最先进方法相比,平均改进了3%。这一结果突显了基于不确定性引导的协同训练框架在生成合理的分割掩膜、促进半自动分割过程以及推进放射科医生和医疗专家的医学图像分析方面的效率。 提出的架构 https://www.nature.com/articles/s42256-023-00682-w 莫纳什大学的研究团队开发的AI系统代表了医学图像分析方面的重大突破。通过使AI模型能够做出明智的决策和验证其评估,它有望揭示更准确的诊断和治疗决策。该团队致力于进一步研究和开发,包括将应用扩展到不同的医学图像并为放射科医生创建专用的端到端产品,展示了他们通过AI技术推进医疗保健的承诺。

Leave a Comment

变分自编码器概述

介绍 变分自编码器(VAEs)是显式设计用于捕捉给定数据集的潜在概率分布并生成新样本的生成模型。它们采用了一个由编码器-解码器结构组成的架构。编码器将输入数据转换为潜在形式,解码器旨在基于这个潜在表示重构原始数据。VAE被编程为最小化原始数据和重构数据之间的差异,使其能够理解底层数据分布并生成符合相同分布的新样本。 VAEs的一个显著优势是它们能够生成类似于训练数据的新数据样本。由于VAE的潜在空间是连续的,解码器可以生成在训练数据点之间平滑插值的新数据点。VAEs在密度估计和文本生成等各个领域都有应用。 本文是数据科学博文马拉松的一部分。 变分自编码器的架构 一个VAE通常由两个主要组件组成:一个编码器连接和一个解码器连接。编码器网络将输入数据转换为低维的“秘密空间”,通常被称为“秘密代码”。 可以研究使用各种神经网络拓扑结构(如全连接或卷积神经网络)来实现编码器网络。所选择的架构基于数据的特性。编码器网络生成必要的参数,如高斯分布的均值和方差,以用于采样和生成潜在代码。 同样,研究人员可以使用各种类型的神经网络构建解码器网络,其目标是从提供的潜在代码中重构原始数据。 变分自编码器的架构示例:fen VAE包括一个编码器网络,将输入数据映射到潜在代码,并且包括一个解码器网络,通过将潜在代码转换回重构数据来进行逆操作。通过进行这个训练过程,VAE学习到了一个优化的潜在表示,捕捉了数据的基本特征,从而实现精确的重构。 关于正则化的直觉 除了架构方面,研究人员还对潜在代码应用正则化,使其成为VAE的重要元素。这种正则化通过鼓励潜在代码的平滑分布而防止过拟合,而不仅仅是简单地记住训练数据。 正则化不仅有助于生成在训练数据点之间平滑插值的新数据样本,还有助于VAE生成类似于训练数据的新数据。此外,这种正则化还防止解码器网络完美地重构输入数据,促进学习更一般的数据表示,增强VAE生成多样化数据样本的能力。 在VAE中,研究人员通过将Kullback-Leibler(KL)散度项纳入损失函数来数学表达正则化。编码器网络生成高斯分布的参数(如均值和对数方差),用于对潜在代码进行采样。VAE的损失函数包括计算学习到的潜在变量的分布与先验分布(正态分布)之间的KL散度。研究人员将KL散度项纳入损失函数中,以鼓励潜在变量具有与先验分布类似的分布。 KL散度的公式如下: KL(q(z∣x)∣∣p(z)) = E[log q(z∣x) − log p(z)] 总之,VAE中的正则化起着增强模型生成新数据样本的能力并减轻过拟合训练数据风险的关键作用。 VAE的数学细节 概率框架和假设…

Leave a Comment

清华大学的研究人员在元学习范式下引入了一种新颖的机器学习算法

深度学习在监督任务中的最新成就可以归因于大量标记训练数据的可用性。然而,收集准确的标签需要大量的工作和金钱。在许多实际情况下,只有一小部分训练数据附带标签。半监督学习(SSL)旨在使用带标签和不带标签的输入来提高模型性能。许多有效的SSL方法,当应用于深度学习时,采用无监督一致性正则化来使用未标记的数据。 最先进的基于一致性的算法通常引入几个可配置的超参数,尽管它们实现了出色的性能。为了实现最佳算法性能,通常会调整这些超参数的值。不幸的是,在许多现实世界的SSL场景中,如医学图像处理,高光谱图像分类,网络流量识别和文档识别中,超参数搜索经常不可靠。这是因为标注数据稀缺,采用交叉验证时会产生高方差。算法性能对超参数值的敏感性使这个问题变得更加紧迫。此外,随着超参数数量的指数级增长,先进的深度学习算法的计算成本可能变得难以管理。 清华大学的研究人员引入了一种基于元学习的SSL算法Meta-Semi,以更好地利用带标签的数据。通过调整一个以上的超参数,Meta-Semi在许多场景中实现了出色的性能。 团队受到这样的认识启发,即通过适当的“伪标记”未标记示例可以成功训练网络。具体而言,在在线训练阶段,他们基于网络预测为未标记的数据产生伪软标签。接下来,他们删除具有不可靠或错误伪标签的样本,并使用剩余数据来训练模型。这项工作表明,正确“伪标记”数据的分布应与带标签数据的分布相当。如果使用前者训练网络,则应最小化后者的最终损失。 他们定义了元重新加权目标,通过选择最合适的权重(本文中的权重始终指用于重新加权每个未标记样本的系数,而不是神经网络的参数)来最小化带标签数据上的最终损失。研究人员在处理该问题时遇到了计算困难。 因此,他们提出了一个近似公式,可以导出一个闭合解。从理论上讲,他们证明了每个训练迭代只需要进行一次元梯度步骤即可实现近似解。 总之,他们建议使用动态加权方法对先前伪标记的样本进行加权,加权范围为0-1。结果表明,该方法最终达到了监督损失函数的稳定点。在流行的图像分类基准测试(CIFAR-10、CIFAR-100、SVHN和STL-10)中,所提出的技术显示出比最先进的深度网络更好的性能。对于困难的CIFAR-100和STL-10 SSL任务,Meta-Semi的性能要比ICT和MixMatch等最先进的SSL算法高得多,并在CIFAR-10上略优于它们。此外,Meta-Semi是一种有用的一致性方法的补充;将一致性正则化与算法相结合可以进一步提高性能。 根据研究人员介绍,Meta-Semi需要更多的训练时间是一个缺点。他们计划将来研究这个问题。 查看论文和参考文章。本研究的所有荣誉归功于该项目的研究人员。此外,请加入我们的26k+ ML SubReddit、Discord频道和电子邮件通讯,我们将分享最新的AI研究新闻、酷炫的AI项目等。 通过Tensorleap的解释性平台揭示深度学习的秘密 本文由MarkTechPost发布,清华大学的研究人员介绍了一种基于元学习范式的新型机器学习算法。

Leave a Comment

图机器学习简介

在这篇博文中,我们介绍了图机器学习的基础知识。 我们首先研究了图是什么,为什么要使用图,以及如何最好地表示它们。然后简要介绍了人们在图上学习的方法,从前神经方法(同时探索图特征)到通常称为图神经网络的方法。最后,我们瞥见了用于图的Transformer。 图 什么是图? 本质上,图是通过关系链接的项目的描述。 图的示例包括社交网络(Twitter、Mastodon、任何将论文和作者链接起来的引用网络)、分子、知识图(如UML图、百科全书和带有页面之间超链接的任何网站)、以其句法树表示的句子、任何三维网格等等!因此,可以说图无处不在。 图的项目(或网络)称为其节点(或顶点),它们之间的连接称为边(或链接)。例如,在社交网络中,节点是用户,边是它们之间的连接;在分子中,节点是原子,边是它们之间的化学键。 具有类型节点或类型边的图称为异构图(例如:引用网络中的项目可以是论文或作者,具有类型节点;XML图中的关系是有类型的,具有类型边)。它不能仅通过其拓扑结构来表示,它需要额外的信息。本文重点介绍同质图。 图也可以是有向的(如关注者网络,A关注B并不意味着B关注A)或无向的(如分子,原子之间的关系是双向的)。边可以连接不同的节点或一个节点本身(自连接),但不是所有节点都需要连接。 如果要使用您的数据,您必须首先考虑其最佳描述方式(同质/异构、有向/无向等)。 图有什么用途? 让我们看一下我们可以在图上做哪些可能的任务。 在图级别上,主要任务包括: 图生成,在药物发现中用于生成新的合理分子。 图演化(给定一个图,预测它随时间的演化),在物理学中用于预测系统的演化。 图级别的预测(从图中进行分类或回归任务),例如预测分子的毒性。 在节点级别上,通常是节点属性预测。例如,Alphafold使用节点属性预测来预测给定分子的整体图的情况下,原子的三维坐标,从而预测分子在三维空间中的折叠方式,这是一个困难的生物化学问题。 在边级别上,可以是边属性预测或缺失边预测。边属性预测有助于药物副作用预测,可以根据一对药物预测不良副作用。缺失边预测在推荐系统中用于预测图中两个节点是否相关。 还可以在子图级别上进行社区检测或子图属性预测。社交网络使用社区检测来确定人们的联系方式。子图属性预测可以在行程系统(例如Google Maps)中找到,用于预测预计到达时间。 在这些任务上工作可以通过两种方式完成。 当您想要预测特定图的演化时,您可以在遍历设置中进行工作,其中所有内容(训练、验证和测试)都在同一个图上完成。如果这是您的设置,请注意!从单个图创建训练/评估/测试数据集并不简单。然而,大部分工作都是使用不同的图进行的(分开的训练/评估/测试拆分),这被称为归纳设置。 我们如何表示图? 用于处理和操作图的常见表示方法有: 作为所有边的集合(可能补充有所有节点的集合)…

Leave a Comment

Can't find what you're looking for? Try refining your search: