Press "Enter" to skip to content

这篇人工智能论文介绍了一种新颖的无需模拟的目标函数,用于学习通用源分布和目标分布之间的连续时间随机生成模型

这篇人工智能论文介绍了一种新颖的无需模拟的目标函数,用于学习通用源分布和目标分布之间的连续时间随机生成模型 四海 第1张这篇人工智能论文介绍了一种新颖的无需模拟的目标函数,用于学习通用源分布和目标分布之间的连续时间随机生成模型 四海 第2张

一种能够描述高维空间中复杂分布的强大生成模型是基于得分的生成模型(SBGMs),其中包括扩散模型。通常使用随机微分方程(SDE)模拟基于几乎总是高斯的源密度来产生样本。尽管基于模拟的去噪目标优化需要高斯源的假设,但SBGMs受其对高斯源的假设的限制,尽管其经验成功。由于物理或生物系统的时间发展中经常违背这一假设,如单细胞基因表达数据的情况,因此无法使用SBGMs来理解潜在动力学。

连续正则化流(CNFs),也称为流式生成模型,已成为解决这些问题的选择方法。通过普通微分方程(ODE)将源密度转换为目标密度,该ODE在流式模型中假设了确定性连续时间生成过程。以往的研究引入了无需模拟的训练目标,使得在假设高斯源的情况下,CNFs可以与SBGMs竞争,并且这些目标已扩展到任意源分布的情况。流式模型以前受到基于模拟的训练目标的限制,这些目标在训练时要求对ODE进行昂贵的积分。

然而,这些目标仍然需要涵盖学习随机动力学,这对于生成建模和恢复真实系统的动力学可能是有用的。薛定谔桥问题(SB)考虑了在某个参考过程下,源概率分布与目标概率分布之间的最可能演化。它是两个任意分布之间的随机映射的基本概率形式。建模自然随机动力学系统、平均场博弈和生成建模等问题都是使用SB问题的几个应用。SB问题通常缺乏封闭形式的解,除了几种特殊情况(如高斯)。但是,可以使用需要复制已学习的随机过程的迭代技术来近似它。

尽管在理论上有效,但这些方法存在数值和实际问题,仅允许高维缩放。魁北克Mila AI研究所、蒙特利尔大学、麦吉尔大学、多伦多大学和Vector研究机构的研究人员研究了薛定谔桥问题的无模拟得分和流匹配(2M)目标。 2M通过SB问题与熵最优传输(OT)之间的关系,将CNFs的无模拟目标和扩散模型的去噪训练目标同时推广到随机动力学和任意源分布上。

2M可以从源分布和目标分布之间的静态熵最优传输映射中受益,这些映射通过Sinkhorn方法或随机算法有效地近似,而不是需要在每次迭代中模拟SDE的动态SB方法。他们使用模拟和真实数据集展示了2M的实用性。在人工数据上,他们证明了2M在生成建模度量方面优于先前的类似工作,并发现了对真实薛定谔桥的更准确近似。他们通过将一系列薛定谔桥作为交叉测量序列(即不配对的时间序列观测)的建模来应用到实际数据中。

尽管先前已经有几种在静态或低维动态设置中使用薛定谔桥对细胞进行建模的方法,但2M是首个可以扩展到数千个基因维度的方法,因为它的训练不需要模拟。他们还提供了一个静态流形测地线映射,展示了薛定谔桥近似在非欧几里德成本下的最早的实际应用之一,从而增强了动态环境中的细胞插值。最后,他们证明,与静态最优传输示例相比,他们可以直接建模和重构控制细胞动力学的基因-基因相互作用网络。代码和示例可在GitHub上获取。

Leave a Reply

Your email address will not be published. Required fields are marked *