基于能量的波尔兹曼分布高效采样扩散发生器
Abstract 摘要
波尔兹曼分布采样,尤其是与高维和复杂能量函数相关的采样,在许多领域都是一项重大挑战。在这项工作中,我们提出了基于能量的扩散发生器(EDG),这是一种整合了变异自动编码器和扩散模型思想的新方法。EDG 利用解码器将潜变量从简单分布转换为近似目标波尔兹曼分布的样本,而基于扩散的编码器则在训练过程中提供对库尔贝-莱布勒发散的精确估计。值得注意的是,EDG 无需模拟,因此在训练过程中无需求解常微分方程或随机微分方程。此外,通过消除解码器中的双射性等约束条件,EDG 允许进行灵活的网络设计。通过实证评估,我们证明了 EDG 在各种复杂分布任务中的卓越性能,其表现优于现有方法。
关键词:
玻尔兹曼分布 , 基于能量的模型 , 生成模型 , 扩散模型 , 变分自动编码器
organization= 同济大学数学科学学院,city= 上海、
国家=中国
/affiliationorganization=Department of Mathematics, Shanghaiormal University,city=Shanghai, country=China /affiliationorganization=School of Mathematical Sciences, Institute of Natural Sciences and MOE-LSC、
Shanghai Jiao Tong University,city=Shanghai, country=China, addressline=, *hwu81@sjtu.edu.cn affiliation\organization=LSEC, Institute of Computational Mathematics and Scientific/Engineering Computing, AMSS, Chinese Academy of Sciences,city=Beijing, country=China
1 简介
在计算化学、统计物理和机器学习等多个领域,从与高维复杂能量函数相对应的玻尔兹曼分布中进行采样的挑战无处不在[1, 2] 。与数据驱动生成模型的训练任务不同,波尔兹曼分布的采样任务可以利用预先采样的数据来学习复杂的分布,但由于缺乏现成的数据[3, 4] ,因此带来了独特而巨大的挑战。例如,模拟伊辛模型的相变可以看作是给定能量函数的采样问题,这是一个复杂而困难的问题,至今尚未得到有效解决[5, 6] 。
马尔可夫链蒙特卡罗(MCMC)方法[7] 以及布朗和哈密顿动力学[8、9, 10, 11] 为解决从高维分布中采样的难题提供了关键的解决方案。这些方法通过迭代生成候选样本和更新样本,最终在无限采样步骤的极限实现渐近无偏性。近年来,研究人员提出了自适应 MCMC 作为生成候选样本的策略,在提高采样过程的效率和有效性方面取得了显著进展[12, 13, 14] 。然而,MCMC 的混合时间过长仍然制约了其性能。一些研究表明,在 MCMC 中使用神经网络构建和优化提议分布可以显著提高其效率[13, 15, 16] 。然而,目前仍缺乏有效且适应性广的损失函数来促进这种优化。
变量推理(Variational inference,VI)是解决棘手分布问题的另一种重要方法。变分推理利用能够快速生成样本的生成器来逼近目标波尔兹曼分布,然后对生成器的参数进行优化,以最小化生成样本的分布与目标分布之间的统计距离,如库尔巴克-莱伯勒(KL)发散。由于归一化流(NF)能够模拟复杂分布并提供明确的概率密度函数,它已被广泛应用于构建 VI 方法的生成器 [17、18, 19, 20, 21, 22、23, 24, 25, 26] .然而,NF 的双射性质对其有效容量造成了限制,往往使其不足以完成某些采样任务。考虑到目标密度函数和生成的样本,斯坦因差异[27, 28] 提供了另一种评估拟合优度的方法,而核函数及其梯度的计算限制了它在高维任务中的表现。此外,MCMC 与 VI 方法的结合也是当前研究的一个焦点 [29、30, 31, 32, 33, 34] . 这种组合试图利用两种方法的优势,为解决与高维分布采样相关的挑战和提高概率建模的效率提供了一条很有前景的途径。
随着基于扩散的生成模型[35, 36, 37, 38] 的蓬勃发展,它们已被应用于解决抽样问题中的难题。通过训练随时间变化的分数匹配神经网络,[39, 40, 41] 中提出的方法将高斯分布塑造成复杂的目标密度,并采用 KL 发散作为损失函数。为了缓解模式搜索问题,[42] 引入了对数方差损失,显示出良好的特性。此外,[43] 中概述了另一种训练目标,该目标依赖于能量函数的灵活插值,对多模态目标有很大改进。然而,这些方法的一个共同缺点是依赖数值微分方程求解器来计算时间积分,这可能会导致大量的计算成本。
在这项研究工作中,我们从变异自动编码器(VAE)技术[44] 和扩散模型中汲取灵感,提出了一种称为基于能量的扩散发生器(EDG)的新方法。EDG 的架构与 VAE 非常相似,包括一个解码器和一个编码器。解码器可以灵活地将根据可控分布分布的潜变量映射到样本,而无需施加诸如双向性之类的约束,我们在这项工作中设计了一个基于广义哈密尔顿动力学的解码器,以提高采样效率。编码器利用扩散过程,能够应用分数匹配技术对给定样本的潜变量条件分布进行精确高效的建模。与现有的基于扩散的方法不同,EDG 的损失函数便于以随机小批量方式计算无偏估计值,无需在训练过程中对常微分方程或随机微分方程进行数值求解。数值实验最终证明了 EDG 的有效性。
2 前言和设置
在这项工作中,我们将深入研究制作生成模型的任务,以便从预定能量 驱动的玻尔兹曼分布中采样:
其中归一化常数 通常难以计算。为了应对这一挑战,玻尔兹曼发生器 [18] 及其各种扩展 [24、25, 26], 近年来已成为一种突出的技术。这些方法利用 NF 对可训练的分析密度函数进行参数化,并通过代用密度与 之间 KL 发散的最小化实现参数优化。然而,与典型的生成模型不同,追求精确的概率密度计算对 NF 施加了大量限制:每个变换层都必须是双射,而且其雅各矩阵的行列式可以轻松计算。这些要求从本质上限制了 NF 对复杂分布进行有效建模的能力。
现在,我们的重点转移到与 VAE 类似的信号发生器上。这种发生器通过解码器产生的采样为
其中 是一个从已知先验分布(通常是标准多元正态分布)中抽取的潜在变量。参数 是解码器的特征,我们将 定义为高斯分布 ,其中 和 均由神经网络 (NN) 参数化。与 VAE 类似,我们的目标是训练网络 和 使生成样本的边际分布 与目标分布一致。
需要注意的是,与传统的数据驱动 VAE 不同,我们无法获得目标分布 的样本。事实上,获取此类样本正是生成器的目标。因此,KL 发散 的变分近似值不能用于训练模型。相反,在这项工作中,我们考虑以下发散及其上限:
(1) | |||||
在这里,参数分布 定义了从 映射到潜变量 的编码器,如果 与从解码器推导出的给定 的 的条件分布相匹配,则实现了相等。
3 能量扩散发生器
扩散模型 [37, 38] 是近年来出现的一种估算数据分布的高效方法。其核心思想是构建一个扩散过程,逐步将数据转化为简单的白噪声,然后学习反向过程,从噪声中恢复数据分布。在这项工作中,我们应用了扩散模型的原理,在潜空间中加入了扩散过程,使我们能够有效地克服等式 (1) 所定义的采样问题的变分框架所带来的挑战。我们将这种方法产生的模型称为基于能量的扩散发生器 (EDG)。
3.1 模型架构
在 EDG 框架中,我们从潜在变量 启动一个扩散过程,并将其与解码器相结合,形成我们所说的 "解码过程":
(2) |
其中, 为标准维纳过程, 为漂移系数, 为扩散系数。为了简化符号,我们将解码过程定义的概率分布表示为 。在扩散模型中应用的典型 SDE 中,有两个关键条件:(a) 过渡密度 可以分析计算,而无需数值求解福克-普朗克方程;(b) 与 近似无信息。
如果我们只考虑潜在扩散过程 的统计特性,那么它是没有信息量的,只能描述从一种简单噪声到另一种简单噪声的过渡。然而,当我们考虑到给定样本 时 的条件分布时, 过程就代表了复杂条件分布 逐渐转变为可控分布 的过程、其中 和 之间的独立性来自 和 之间的独立性(见 A )。这意味着,从 开始,我们可以通过模拟以下反向时间扩散方程 [45] 从 获取样本:
(3) |
其中 表示反向时间。与传统的扩散模型一样,由于得分函数 的难处理性,这种模拟的实际实施具有挑战性,因此我们也使用神经网络来近似得分函数,表示为 。这种近似导致了我们所说的 "编码过程",它是通过整合参数反向时间扩散过程和 的目标分布来实现的:
(4) |
为简化符号,本文中我们将编码过程定义的分布称为 。
图 1 直观描述了解码和编码过程。需要强调的是,潜在扩散模型主要用于解决数据驱动场景中的生成建模问题,最近受到了广泛关注[46, 47, 48] 。他们的主要想法是使用预先训练好的编码器和解码器来获得一个既能有效表示数据又能促进高效采样的潜在空间,并通过扩散模型来学习潜在变量的分布。我们的 EDG 模型利用类似的理念来解决基于能量的采样问题。EDG 与之前的潜变量扩散模型在结构和算法上的主要区别如下:首先,在 EDG 中,扩散模型本身就是编码器,无需单独的编码器;其次,通过使用统一的损失函数,解码器与扩散模型共同训练(见第 3.2 节)。
下面,我们将介绍 EDG 模块的构造细节,这些模块将在我们的实验中使用。在实际应用中,可以根据需要设计更有效的神经网络。
3.1.1边界条件引导的分数函数模型
考虑到真实分数函数满足 的以下边界条件:
and 和
我们建议将 表述为
其中, 是要训练的神经网络。这种表述方式可确保 的误差在 和 中均为零。
3.1.2 基于广义哈密顿动力学的解码器
受广义哈密顿动力学(GHD)[12, 13] 的启发,解码器通过以下过程生成输出 。首先,根据潜变量 生成初始样本和速度 ( )。然后,对 进行如下迭代更新:
最后,解码器输出 由以下公式给出:
其中 是按照标准高斯分布分布的。该方程可解释为布朗动力学 的有限步近似。在上述过程中, 、 、 、 、 和 都是可训练的神经网络。
基于 GHD 的解码器有两方面的主要优势。首先,它能有效利用能量函数的梯度信息,我们的实验表明,它能提高多模态分布的采样性能。其次,通过在经典哈密顿动力学中加入可训练的修正项和步骤,它只需几次迭代就能达到很好的解码密度。完整的解码过程请参见C 。
3.2损失函数
为了优化解码和编码过程的参数,我们可以最小化解码和编码过程提供的 联合分布之间的 KL 分歧。由于数据处理不等式,该发散也是 的上界,就像(1 )中的上界一样。根据 B 中的推导,KL 发散可表示为
(5) |
where 其中
(6) | |||||
通过利用重要性采样积分和 Hutchinson 估计器,我们可以得到 的等效表达式,该表达式可以通过蒙特卡罗随机抽样从 中高效、无偏地估计出来,而无需对 SDE 进行数值求解:
(7) | |||||
where 其中
是具有 的拉德马赫分布, 是 的提议分布,以及加权函数 。然后,可以使用随机梯度下降法最小化损失函数(7 )来训练 EDG 中涉及的所有神经网络。
3.3样本重新加权
训练完成后,我们可以使用解码器 生成样本,并计算目标分布 的各种统计数据。例如,对于感兴趣的数量 ,我们可以从 中提取 增强样本 ,并按如下方法估计期望值 :
然而,由于模型误差,这种估计可能会出现系统性偏差。为了解决这个问题,我们可以使用重要性采样,将 作为建议分布,将 作为增强目标分布。然后,我们可以为解码器生成的每个样本 分配一个非规范化权重:
(8) |
并得到 的一致估计值:
其中估计误差随着 的变化趋近于零。
此外,权重函数 还可用于估计归一化常数 ,这在许多应用中都是一项关键任务,例如统计学中的贝叶斯模型选择和统计物理学中的自由能估计。根据 (1), 我们可以得出:
在这里,下限也可以使用解码器的样本来估算,当 时,就能达到这个下限的严格程度。
4 实验
我们对各种能量函数的 EDG 进行了实证评估。首先,我们介绍了从一组二维分布中获得的结果。接着,我们展示了 EDG 在贝叶斯逻辑回归中的表现。最后,我们将 EDG 应用于一个伊辛模型。E 中提供了所有实验细节。此外,我们还进行了一项消融研究,以验证 EDG 中每个模块的有效性。更多信息请参阅F 。
为了证明我们的模型的优越性,我们将 EDG 与以下抽样方法进行了比较:
-
1.Vanilla Hamiltonian Monte Carlo 法[ 8] ,简称 V-HMC。 -
2.L2HMC [ 13] 是一种基于 GHD 的 MCMC 方法,具有可训练的提议分布模型。 -
3.Boltzmann Generator(BG)[ 18],这是一种 VI 方法,使用 RealNVP 对代理分布进行建模[ 51]。 -
4.神经重正化组(NeuralRG)[ 17],一种类似于 BG 的方法,专为伊辛模型设计。在本节中,NeuralRG 仅用于伊辛模型的实验。 -
5.路径积分采样器(PIS)[ 39],这是一种通过对 SDE 进行数值模拟的基于扩散的采样模型。
表 1:每个生成器生成的样本与参考样本之间的最大平均差异(MMD)。有关差异计算的详细信息,请参阅 E 。
Mog2 | Mog2(i) | Mog6 | Mog9 莫格9 | Ring 环 | Ring5 环5 | |
---|---|---|---|---|---|---|
V-HMC | ||||||
L2HMC | ||||||
BG | ||||||
PIS | ||||||
EDG |
二维能量函数首先,我们在几个合成的二维能量函数上比较了我们的模型和其他模型:MoG2(i)(具有相同 或不同方差 的两个各向同性高斯的混合物,中心点之间的距离为 )、MoG6(具有方差 的六个各向同性高斯的混合物)、MoG9(方差为 的九个各向同性高斯的混集)、Ring、Ring5(能量函数见[12])。我们在图 2 中展示了样本直方图,以供目测,表 1 总结了采样误差。如图所示,与其他方法相比,EDG 提供的样本质量更高。为了阐明 EDG 中每个组件的功能,我们将我们的模型与 F 中的 vanilla VAE 进行了比较。
贝叶斯逻辑回归 在随后的实验中,我们将重点介绍 EDG 在贝叶斯逻辑回归中的功效,尤其是在处理位于高维空间中的后验分布时。在这种情况下,我们处理的是一个二元分类问题,其标签为 ,高维特征为 。分类器的输出定义为
其中 。我们的目标是从后验分布中抽取样本
基于训练集 ,其中先验分布 是标准高斯分布。然后,对于给定的 ,条件分布 可以近似为 。我们在三个数据集上进行了实验:[52] ,评估测试子集的准确率 (ACC) 和曲线下面积 (AUC)。值得注意的是,如表 2 所示,EDG 始终保持着最高的准确率和 AUC 性能。
表 2:贝叶斯逻辑回归任务的分类准确率和 AUC 结果。实验采用一致的训练和测试数据分区,其中 HMC 步长设置为 。平均准确率和 AUC 值以及各自的标准偏差是在所有数据集的 独立实验中计算得出的。
AU | GE | HE | ||||
---|---|---|---|---|---|---|
Acc | Auc | Acc | Auc | Acc | Auc | |
V-HMC | ||||||
L2HMC | ||||||
BG | ||||||
PIS | ||||||
EDG |
我们将分析扩展到由 581 012 个数据点和 54 个特征组成的二元 Covertype 数据集。分类器参数的后验遵循分层贝叶斯模型(见 [27] 的第 5 章),其中 表示分类器参数和分层贝叶斯模型中超参数的组合。为了提高计算效率,在 BG 和 EDG 中, 在训练过程中无偏近似为
其中 为随机小批量。对于 V-HMC 和 L2HMC,计算的是精确的后验密度。表 3 中的结果表明,EDG 始终优于其他方法。
表 3:Coverstype 测试数据集的分类准确率。报告值代表 32 次独立实验的平均准确率和标准偏差。
V-HMC | L2HMC | BG | PIS | EDG | |
---|---|---|---|---|---|
Acc |
表 4:通过第 3.3 节中描述的方法,获得了维数为 256 的二维等化模型中 的估计值( )。我们利用 的批量大小来估计平均值,并应用中心极限定理计算出统计量平均值的标准偏差为 。
NeuralRG 神经网络 | PIS | EDG | |
---|---|---|---|
伊辛模型 最后,我们验证了 EDG 在二维伊辛模型 [17] 上的性能,该模型是统计力学中的铁磁数学模型。为确保物理变量的连续性,我们采用连续松弛技巧 [53] 将离散变量转换为具有目标分布的连续辅助变量:
其中 是一个与温度 有关的 对称矩阵, 是一个保证 为正值的常数。对于相应的离散伊辛变量 ,可以根据 直接得到离散样本。当没有外部磁场,每个自旋只能与相邻的自旋相互作用时, 定义为 ,近邻和为 。因此,连续弛豫系统的归一化常数由 [17] 给出。此外,使用第 3.3 节中描述的方法,我们为 NeuralRG、PIS 和 EDG 生成的样本提供了不同温度下 的下限估计值。由于这些是下限估计值,因此数值越大表示结果越精确。如表 4 所示,在大多数温度范围内,EDG 提供了最准确的 估计值。图 3 显示了不同温度下生成的状态。
图 3:维数为 256 的 EDG 在 到 的不同温度下生成的状态( ),其中潜变量 保持不变。随着温度的升高,模型的状态逐渐趋于无序。
5 Conclusion
5 结论
总之,我们的工作结合了基于 VI 和扩散方法的原理,将 EDG 介绍为一种创新而有效的采样方法。EDG 从 VAE 中汲取灵感,擅长从错综复杂的玻尔兹曼分布中高效生成样本。利用扩散模型的表现力,我们的方法无需对常微分方程或随机微分方程进行数值求解,就能准确估计 KL 发散。经验实验验证了 EDG 的卓越采样性能。
考虑到其强大的生成能力和理论上不受限制的网络设计,仍有进一步探索的空间。我们可以针对不同的任务设计特定的网络结构,找到最精细的网络结构。尽管如此,它还是首次尝试在扩散模型的辅助下设计单次生成器。
致谢
第一和第三作者受中国国家自然科学基金资助(资助号:12171367)。第二作者得到中国国家自然科学基金(批准号:92270115、12071301)、上海市科委(批准号:20JC1412500)和河南省科学院的资助。最后一位作者得到中国国家自然科学基金(批准号:12288201)、中国科学院战略性先导科技专项(批准号:XDA25010404)、国家重点研发计划(2020YFA0712000)、中科院青年创新促进会和河南省科学院的资助。
附录 A 和 之间独立性的证明
在解码过程中,如果 与 无关,那么我们有
Appendix B Proof of (5)
对于极小的滞后时间 ,解码过程中 的欧拉-马鲁山离散化提供了
(9) | |||||
(10) |
其中, 。重要的是, 与 和 无关,而 与 无关。通过对 的欧拉-马鲁山近似计算,可以得出
(11) |
with . 用 。
(12) | |||||
and 和
(13) | |||||
其中, 源于 和 之间的独立性。
让 ,其中 是一个大数,我们有
and 和
附录 C实施解码器
1 算法概述了基于 GHD 的解码器的详细实现过程。在该算法中,我们首先使用随机变量 随机生成一个样本 (请参阅算法的第 1 行)。随后,我们使用随机速度 和 GHD 对样本进行迭代更新(参见第 5 行)。最后,我们利用可训练步长的离散布朗动力学来设计 的解码器密度(参见第 9 行)。这里, 、 、 、 和 都是由三层 MLP 组成的神经网络。 是一个超参数,我们的数值实验表明,将 设置为较小的正值可以提高算法的稳定性。
算法 1 基于 GHD 的解码器
1: 取自标准高斯分布,解码器参数为
2: .
5: 让 .
6: 更新数据 by
8: 让 .
11: 返回 。
附录 D精确时间积分的重要性权重
附录 E实验细节
EDG 在实验中,我们利用 [37] 中提出的子 VP SDE 来模拟 在 (2) 中的扩散过程,其定义为
与 。这里, ,我们设置 和 进行实验。初始状态 遵循标准高斯分布。算法 1 的第 1 行实现为
其中 和 由 MLP 模拟。在解码器中加入 GHD 时,我们设置了 和 。
基准对于 V-HMC,我们在包含 1,000 步的预热阶段后生成样本,每一步都计算 Metropolis-Hastings 接受概率,以确保收敛。对于 L2HMC,我们使用三层全连接网络,将跃迁步长设为 10。对于不同的任务,我们自适应地选择不同的步长。对于 PIS,我们直接在任务中使用公开可用的代码。关于 BG,RealNVP 架构由 3 个仿射块组成,其中缩放和平移函数由三层全连接网络建模,每个网络有 256 个单元和 ReLU 激活函数。
二维能源任务的模型结构
解码过程 | 编码过程 |
---|---|
网络 。: |
得分网络: |
fc , ReLU, (fc , ReLU), fc . | fc , ReLU, |
GHD: | fc , ReLU, |
: | fc . |
fc , Tanh, fc , Tanh, fc . |
|
: | |
fc , ReLU, fc , ReLU, fc . |
|
最终网络 : |
|
fc , ReLU, fc , ReLU, fc . |
二维能量函数 我们使用以下模型架构为二维能量任务生成样本。fc "表示具有 神经元的全连接层。
图 2 中 Mog2、Mog2(i)、Mog6 和 Mog9 的参考样本精确地从目标分布中提取,因为这些分布是高斯分布的混合物。Ring 和 Ring5 的参考样本使用 Metropolis-Hastings 算法生成,并进行了大量迭代。分别使用方差为 9 和 25 的高斯分布作为提议分布。在 V-HMC 中,我们使用了总长度为 2,000 步的 HMC 运行,从标准正态分布开始。前 1,000 步被指定为预演步骤,随后的 1,000 步用于生成样本。为创建可视化表示,该程序独立执行 500 次。
给定参考样本 和生成样本 ,最大均值差异 (MMD) [56] 测量 和 分布之间的差异,如下所示:
其中 表示计算内积的核函数。表 1 中使用的是 RBF 核,带宽设置为相应样本间距离的中位数。我们对每个模型执行 20 个循环,以获得 5000 个所需样本,然后评估 MMD 的平均值与 5000 个参考数据的关系。标准偏差都很小,因此我们没有在表中报告。
贝叶斯逻辑回归的模型结构
解码过程 | 编码过程 |
---|---|
网络 。: |
得分网络: |
fc , ReLU, (fc , ReLU), fc . | fc , ReLU, |
GHD: | fc , ReLU, |
: | fc . |
fc , Tanh, fc , Tanh, fc . |
|
: | |
fc , ReLU, fc , ReLU, fc . |
|
最终网络 : |
|
fc , ReLU, fc , ReLU, fc . |
贝叶斯逻辑回归 在所有实验中,我们采用相同的数据分区,数据集按 4:1 的比例分为训练集和测试集。在训练之前,我们对所有数据集进行归一化处理,使其均值为零,方差为单位。对于 维特征,参与 EDG 的神经网络架构如下:
在覆盖类型任务中, 的先验分布为 ,其中 和 .
伊辛模型模型结构如下所示,它与 NeuralRG [17] 中的模型结构相似,没有堆叠偏射物形成可逆变换。它保留了多尺度纠缠重正化解析结构,而我们只用一个块就可以直接更新变量的整个维度。
伊辛模型的模型结构
解码过程 | 编码过程 |
---|---|
网络 。: |
得分网络: |
[17] |
分级网络。 |
GHD: |
输入: , , , |
: | |
Conv2d , BatchNorm2d, ReLU, Conv2d . |
|
: | |
Conv2d , BatchNorm2d, ReLU, Conv2d . |
|
最终网络 : |
|
fc , ReLU, fc , ReLU, fc . |
附录 F消融研究
为了阐明 EDG 中每个组件的功能,我们在二维能量函数的采样任务中比较了以下模型:具有高斯解码器和编码器的 VAE,其中均值和对角协方差矩阵均由 MLP 参数化;具有基于 GHD 的解码器和基于 MLP 的编码器的 VAE;不含 GHD 的 EDG,其中解码器由 MLP 建模;以及完整的 EDG 模型。对于不含 GHD 的 VAE,网络由 3 层 MLP 组成,每层有 32 个单元和 ReLU 激活函数。从 开始,解码器生成样本 。编码器作为一个独立的网络,遵循 。目标函数是 和 的联合分布的 KL 发散,即
对于有 GHD 的 VAE,解码器与算法 1 中的结构一致,编码器也与上文所述相同。对于不含 GHD 的 EDG,我们省略了跃迁部分(参见算法中的第 2-8 行),解码器由网络 和最后的高斯部分 组成(参见算法中的第 1、9 行)。
4图中显示了样本的直方图,以供目测,表中汇总了抽样误差。5。显然,采用基于 GHD 解码器的 EDG 优于其他方法,这证明了模型中每个组件的有效性。
MoG2 MoG2(i) MoG6 MoG9 Ring Ring5
VAE
不含 GHD
VAE
w/ GHD
EDG
不含 GHD
EDG
w/ GHD
图 4:二维能量函数的密度图。我们为每种方法生成 样本并绘制直方图。
表 5:每个生成器生成的 5,000 个样本与参考样本之间的最大平均差(MMD)。
Mog2 | Mog2(i) | Mog6 | 莫格9 | 环 | 环5 | |
---|---|---|---|---|---|---|
VAE 无 GHD | ||||||
VAE w/ GHD | ||||||
EDG 不含 GHD | ||||||
EDG |
参考资料
-
杨等人[2019]
Y. I.Yang,Q. Shao,J. Zhang,L. Yang,Y. Q.Gao,分子动力学中的增强采样,化学物理学报 151 (2019)。 -
赫宁等人[2022]
J. Hénin,T. Lelièvre,M. R.Shirts,O. Valsson,L. Delemotte,分子动力学模拟的增强采样方法,arXiv preprint arXiv:2202.04164 (2022)。 -
麦克劳林和亚当斯[2014]
D. Maclaurin,R. P.Adams, Firefly monte carlo: Exact mcmc with subsets of data, arXiv preprint arXiv:1403.5693 (2014). -
Glynn 和 Rhee [2014]
P. W. Glynn, C.-h.Glynn, C.-h.Rhee,马尔可夫链均衡期望的精确估计,Journal of Applied Probability 51 (2014) 377-389. -
Binder 和 Luijten [2001]
K. Binder, E. Luijten, Monte carlo tests of renormalization-group predictions for critical phenomena in ising models, Physics Reports 344 (2001) 179-253. -
沃克等人[2020]
N. Walker, K.-M.Tam, M. Jarrell, Deep learning on the 2-dimensional ising model to extract the crossover region with a variational autoencoder, Scientific reports 10 (2020) 13047. -
黑斯廷斯[1970]
W. K.Hastings, Monte carlo sampling methods using markov chains and their applications, Biometrika (1970).Biometrika (1970). -
尼尔等人[2011]
R. M. Neal, et al.Neal, et al., Mcmc using hamiltonian dynamics, Handbook of markov chain monte carlo 2 (2011) 2. R. M. Neal, et al. -
荒木和池田[2013]
T. Araki, K. Ikeda, 辅助变量法的自适应马尔可夫链蒙特卡罗及其在并行调质中的应用,Neural Networks 43 (2013) 33-40。 -
荒木等人[2015]
T. Araki,K. Ikeda,S. Akaho,用于贝叶斯变量选择的高效抽样算法与适应性,神经网络 61 (2015) 22-31。 -
Cheng et al.
X. Cheng,N. S.Chatterji, P. L.巴特利特、M. I.乔丹,欠阻尼朗文 mcmc:in:学习理论会议,PMLR,2018,第 300-323 页。 -
Song 等人[2017]
J. Song, S. Zhao, S. Ermon, A-nice-mc:针对 mcmc 的对抗训练,Advances in Neural Information Processing Systems 30 (2017)。 -
利维等人[2017]
D. Levy, M. D.Hoffman, J. Sohl-Dickstein, Generalizing hamiltonian monte carlo with neural networks, arXiv preprint arXiv:1711.09268 (2017). -
加利亚诺等人[2024]
L. Galliano, R. Rende, D. Coslovich, Policy-guided monte carlo on general state spaces:应用于玻璃态混合物,《化学物理学报》第 161 期(2024 年)。 -
刘和孙[2022]
S. Liu, S. Sun, Adversarially training mcmc with non-volume-preserving flows, Entropy 24 (2022) 415. -
阿斯加尔等人 [2024]
S. Asghar, Q.-X.Pei, G. Volpe, R. Ni, Efficient rare event sampling with unsupervised normalising flows, arXiv preprint arXiv:2401.01072 (2024). -
李和王[2018]
S.-H. Li, L. Wang, Neural network renormalization group, S.-H.Li, L. Wang, Neural network renormalization group, Physical review letters 121 (2018) 260601. -
诺埃等人[2019]
F. Noé, S. Olsson, J. Köhler, H. Wu, Boltzmann generators:用深度学习采样多体系统的平衡态,Science 365 (2019) eaaw1147. -
科勒等人 [2020]
J. Köhler, L. Klein, F. Noé, Equivariant flows: exact likelihood generative learning for symmetric densities, in:国际机器学习会议,PMLR,2020,第 5361-5370 页。 -
博伊达等人[2021]
D. Boyda,G. Kanwar,S. Racanière,D. J.Rezende,M. S.Albergo, K. Cranmer, D. C.哈克特、P. E.Shanahan, Sampling using su (n) gauge equivariant flows, Physical Review D 103 (2021) 074504. -
Vaitl 等人[2022]
L. Vaitl,K. A.Nicoli, S. Nakajima, P. Kessel, Gradients should stay on path: better estimators of the reverse-and forward kl divergence for normalizing flows, Machine Learning:科学与技术 3 (2022) 045006。 -
阿尔贝戈等人[2022]
M. S.Albergo,D. Boyda,K. Cranmer,D. C.Hackett,G. Kanwar,S. Racanière,D. J.Rezende,F. Romero-López,P. E.沙纳汉,J. M.Urban,临界时晶格施文格模型中基于流的采样,Physical Review D 106 (2022) 014514。 -
格德斯等人[2022]
M. Gerdes,P. de Haan,C. Rainone,R. Bondesan,M. C.Learning lattice quantum field theory with equivariant continuous flows, arXiv preprint arXiv:2207.00283 (2022). -
费拉多斯[2022]
L.Felardos, Data-free Generation of Molecular Configurations with Normalizing Flows, Ph.D. thesis, Université Grenoble Alpes, 2022. -
van Leeuwen 等人[2023]
S. van Leeuwen, A. P.d. A. Ortíz, M. Dijkstra, A Boltzmann generator for the isobaric-isothermal ensemble, arXiv preprint arXiv:2305.08483 (2023). . -
Plainer 等人[2023]
M. Plainer, H. Stark, C. Bunne, S. Günnemann, Transition path sampling with boltzmann generator-based mcmc moves, in:NeurIPS 2023 人工智能科学研讨会,2023 年。 -
刘和王[2016]
Q. Liu, D. Wang, Stein variational gradient descent:一种通用的贝叶斯推理算法,神经信息处理系统进展 29 (2016)。 -
刘[2017]号
Q. Liu, Stein variational gradient descent as gradient flow, Advances in neural information processing systems 30 (2017). -
Salimans 等人[2015]
T. Salimans, D. Kingma, M. Welling, Markov chain monte carlo and variational inference:弥合差距,in:国际机器学习会议,PMLR,2015 年,第 1218-1226 页。 -
张和埃尔南德斯-洛巴托[2018]
Y. Zhang, J. M. Hernández-Lobato.Hernández-Lobato, 耳模推理:通过优化加速收敛,arXiv preprint arXiv:1805.10377 (2018). -
哈比卜和巴伯[2018]
R. Habib, D. Barber, Auxiliary variational mcmc, in:学习表征国际会议,2018。 -
鲁伊斯和蒂齐亚斯[2019]
F. Ruiz, M. Titsias, A contrastive divergence for combining variational inference and mcmc, in:国际机器学习会议,PMLR,2019,第 5537-5545 页。 -
Wu 等人[2020]
H. Wu, J. Köhler, F. Noé, Stochastic normalizing flows, Advances in Neural Information Processing Systems 33 (2020) 5933-5944. -
Shen 等人[2021]
Z. Shen,M. Heinonen,S. Kaski,De-randomizing mcmc dynamics with the diffusion stein operator,Advances in Neural Information Processing Systems 34 (2021) 17507-17517。 -
Sohl-Dickstein 等人[2015]
J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, S. Ganguli, Deep unsupervised learning using nonequilibrium thermodynamics, in:国际机器学习会议,PMLR,2015,第 2256-2265 页。 -
Ho 等人[2020]
J. Ho, A. Jain, P. Abbeel, Denoising diffusion probabilistic models, Advances in neural information processing systems 33 (2020) 6840-6851. -
宋等人[2020]
Y. Song,J. Sohl-Dickstein,D. P.Kingma,A. Kumar,S. Ermon,B. Poole,通过随机微分方程进行基于分数的生成建模,arXiv preprint arXiv:2011.13456 (2020)。 -
Song 等人[2021]
Y. Song, C. Durkan, I. Murray, S. Ermon, 基于分数的扩散模型的最大似然训练,Advances in Neural Information Processing Systems 34 (2021) 1415-1428。 -
张和陈[2021]
Q. Zhang, Y. Chen, Path integral sampler: a stochastic control approach for sampling, arXiv preprint arXiv:2111.15141 (2021). -
伯纳等人[2022]
J. Berner, L. Richter, K. Ullrich, 基于扩散的生成建模的最优控制视角,arXiv preprint arXiv:2211.01364 (2022)。 -
巴尔加斯等人 [2023]
F. Vargas,W. Grathwohl,A. Doucet,Denoising diffusion samplers,arXiv preprint arXiv:2302.13834 (2023)。 -
里克特等人 [2023]
L. Richter, J. Berner, G.-H. Liu, Improved sampling via learned diffusions, arar. L. Richter, J. Berner, G.-H. Liu, Improved sampling via learned diffusions, arXiv preprint arXiv:2307.01198 (2023). -
Máté 和 Fleuret [2023]
B. Máté, F. Fleuret, Learning interpolations between boltzmann densities, Transactions on Machine Learning Research (2023). -
Kingma 等人[2019]
D. P. Kingma, M. Welling, et al.Kingma, M. Welling, et al., An introduction to variational autoencoders, Foundations and Trends® in Machine Learning 12 (2019) 307-392. -
安德森[1982]
B. D.Anderson, Reverse-time diffusion equation models, Stochastic Processes and their Applications 12 (1982) 313-326. -
Rombach 等人[2022]
R. Rombach,A. Blattmann,D. Lorenz,P. Esser,B. Ommer,使用潜在扩散模型的高分辨率图像合成,in:IEEE/CVF 计算机视觉与模式识别会议论文集》,2022 年,第 10684-10695 页。 -
Fu 等人 [2024]
C. Fu,K. Yan,L. Wang,W. Y.Au, M. C.McThrow, T. Komikado, K. Maruhashi, K. Uchino, X. Qian, S. Ji, A latent diffusion model for protein structure generation, in:图上学习会议,PMLR,2024 年,第 29-1 页。 -
Zheng 等人[2024]
B. Zheng, G. Sun, L. Dong, S. Wang, Ld-csnet:基于潜在扩散的感知压缩传感架构,神经网络(2024)106541。 -
Choi等人[2022]
K. Choi, C. Meng, Y. Song, S. Ermon, Density ratio estimation via infinitesimal classification, in:国际人工智能与统计会议,PMLR,2022 年,第 2552-2573 页。 -
Chen et al.
R. T.Chen,Y. Rubanova,J. Bettencourt,D. K.Duvenaud,神经常微分方程,Advances in neural information processing systems 31 (2018)。 -
Dinh 等人[2016]
L. Dinh, J. Sohl-Dickstein, S. Bengio, Density estimation using real nvp, arXiv preprint arXiv:1605.08803 (2016). -
杜瓦和格拉夫[2017]
D.Dua, C. Graff, Uci machine learning repository, https://archive.ics.uci.edu/ml/index.php, 2017.访问时间:2022-03-13。 -
Zhang et al.
Y. Zhang,Z. Ghahramani,A. J.Storkey, C. Sutton, Continuous relaxations for discrete hamiltonian monte carlo, Advances in Neural Information Processing Systems 25 (2012). -
Zheng 等人[2023]
S. Zheng, J. He, C. Liu, Y. Shi, Z. Lu, W. Feng, F. Ju, J. Wang, J. Zhu, Y. Min, et al、Towards predicting equilibrium distributions for molecular systems with deep learning, arXiv preprint arXiv:2306.05445 (2023). -
Jing 等人 [2023]
B. Jing, E. Erives, P. Pao-Huang, G. Corso, B. Berger, T. Jaakkola, Eigenfold:Eigenfold: Generative protein structure prediction with diffusion models, arXiv preprint arXiv:2304.02198 (2023). -
格雷顿等人[2012]
A. Gretton, K. M.博格沃尔特、M. J.Rasch,B. Schölkopf,A. Smola,内核双样本检验,The Journal of Machine Learning Research 13 (2012) 723-773。