《Graph Information Bottleneck》论文解读

字数统计: 1.1k | 阅读时长≈ 3 分钟

论文传送门：click here

本篇论文是2020Neurips上的论文。

这篇论文将信息瓶颈理论创新性地应用于图神经网络中，具体来说，文章核心围绕着信息瓶颈理论的——minimal sufficient 特点展开的，从理论推导、实例化、实验证明等方面证明了这种方法的重要性。

信息瓶颈理论的最小-充足特点，能够在保证特征表达的同时很好地提高模型的鲁棒性。但其若直接应用在图上，会有两个较大的问题：

因此如何建模这个问题至关重要。如何将IB理论迁移到图中，让我们正式开始了解这篇论文的内容。

图信息瓶颈的核心公式如上图所示，旨在增加潜在表示 $Z$ 与目标 $Y$ 之间的互信息，同时减少潜在表示 $Z$ 与原始特征 $X$ 之间的互信息。这也就是所谓的“最小 - 充足”原则。

针对之前提到的两个问题，文中使用local-dependence assumption来限制 $P (Z | D)$ 的搜索域，同时运用Markov chain来逐层对feature和structure进行提取，使IB原则迁移到图中。

local-dependence assumption

local-dependence assumption：点 $v$ 只与他 $k$ 跳邻居有关，与其他节点是独立的。

Markov chain

Markov chain：第 $l$ 层图结构信息只与原始图结构 $A$ 和第 $l - 1$ 层特征信息有关，第 $l$ 层特征信息只与第 $l$ 层图结构信息和第 $l - 1$ 层特征信息有关。

所以优化目标函数：

min_{P (Z_{X}^{(L)} | D) \in Ω} {G I B}_{β} (D, Y; Z_{X}^{(L)}) ≜ [- I (Y; Z_{X}^{(L)}) + β I (D; Z_{X}^{(L)})]

实际上就是在优化两个分布：

P (Z_{X}^{(l)} | Z_{X}^{(l - 1)}, Z_{A}^{(l)}), P (Z_{A}^{(l)} | Z_{X}^{(l - 1)}, A)

。

具体证明可在appendix中找到。

(1) $I (Y; Z_{X}^{(L)})$ 的下界：

~~为什么我看附录感觉第二个加号应该是减号~~

(2) $I (D; Z_{X}^{(L)})$ 的上界：

所以模型中优化函数实际上优化的是GBI的上界。

本文给出了两个GIB使用方法：GIB-Cat（基于categorical distributions）和GIB-Bern（基于Bernoulli distribution）。

第三步的邻居采样应用了图注意力机制网络（GAT）来计算目标节点邻居的注意力。

此外：

第3、7步使用了重参数化技巧。

$\hat{A I B}$ 的估计：对于两种分布
$\hat{X I B}$ 的估计：假设 $Q (Z_{X}^{(l)})$ 服从混合的高斯分布，具体而言，每一个点的分布服从于若干高斯分布的加权求和，其中权重、均值、方差是可学习的。

至此便有： $I (D; Z_{X}^{(L)}) \to \sum_{l \in S_{A}} {\hat{A I B}}^{(l)} + \sum_{l \in S_{X}} {\hat{X I B}}^{(l)}$ 。

至此完成了理论到实际的转换。

本文针对性的对鲁棒性进行了验证。

本文图的结构服务于特征 $Z$ 的生成，并没有显式的计算结构熵，或许可以将结构熵加入，进一步简化图本身的复杂度，来更好的对信息进行抽取。

来发评论吧~