GraphMAE2: A Decoding-Enhanced Masked Self-Supervised Graph Learner
abstract
图自监督学习(SSL),包括对比和生成方法,为解决现实世界图数据中标签稀缺性的基本挑战提供了巨大的潜力。在这两组图SSL技术中,掩码图自动编码器(例如GraphMAE)——一种生成方法——最近产生了有希望的结果。这背后的思想是用自动编码器架构重建节点特征(或结构)——从输入中随机屏蔽。然而,掩蔽特征重建的性能自然依赖于输入特征的可判别性,并且通常容易受到特征中的干扰。在本文中,在本文中,我们提出了一种掩码自监督学习框架GraphMAE2的目标是克服这个问题。。其思想是对图形SSL的特征重构施加正则化。具体来说,我们设计了多视图随机重掩码解码和潜在表征预测策略来规范特征重构。多视点随机重掩码解码是将随机性引入特征空间重构,而潜在表示预测是在嵌入空间强制重构。大量的实验表明,GraphMAE2可以在各种公共数据集上一致地生成顶级结果,包括在ogbn- Papers100M上具有111M节点和1.6B边的最先进基线上至少提高2.45%。
1.intordution
图神经网络(gnn)在图结构数据的学习表示中被广泛采用。到目前为止,gnn的成功主要发生在(半)监督设置中,其中任务特定的标签被用作监督信息,如GCN [25], GAT[41]和GraphSAGE[13]。然而,在现实场景中,获得足够的标签通常是非常困难的,特别是对于十亿尺度的图[21,22]。
应对这一挑战的一个自然解决方案是在图上执行自监督学习(SSL)[30],其中图模型(例如gnn)由从输入图数据自动构建的标签来监督。沿着这条路线,旨在从另一部分生成输入图的一部分的生成式SSL模型已经得到了广泛的探索[9,22,24,33,43]。简单地说,它首先通过屏蔽节点特征或边缘来破坏输入图,然后学习恢复原始输入。
在掩码预测框架下,最近的一项工作引入了一个掩码图自动编码器GraphMAE[18],用于在图上生成SSL,它在21个数据集的不同基线上为不同的任务产生了优异的性能。通常,自动编码器由编码器、代码/嵌入和解码器组成。编码器将输入映射到嵌入,而解码器的目标是在重构准则下根据嵌入重构输入。GraphMAE的主要思想是通过使用自动编码架构重构编码前随机屏蔽的输入节点特征。其技术贡献在于1)掩码特征重构和2)固定重掩码的设计
解码,其中先前屏蔽节点的编码嵌入在馈送到解码器之前再次被屏蔽。
尽管GraphMAE具有很好的性能,但掩码特征的重建从根本上依赖于输入节点特征的可判别性[8,45],即节点特征的可区分程度。在实践中,图中节点的特征通常是从与每个节点相关联的数据中生成的,例如社交网络中用户发布的内容的嵌入,使其成为节点的近似描述,从而减少了区分性。请注意,在视觉或语言研究中,重建目标通常是对数据的自然描述,即图像的像素和文档的单词。表1进一步表明,当使用较少判别性的节点特征(w/ PCA)时,GraphMAE的性能比有监督的对应对象下降得更明显。也就是说,Graph- MAE作为一种带有特征重构的生成式SSL框架,相对来说更容易受到特征的干扰。
在这项工作中,我们提出了GraphMAE2,其目标是改进图SSL的特征重构。其思想是对目标重构施加正则化。为了实现这一目标,我们引入了两种解码策略:用于减少对输入特征的过拟合的多视图随机重掩码解码和用于具有更多信息目标的潜在表示预测。
首先,我们提出采用多视图随机重掩码解码将随机性引入到输入特征重构中,而不是使用graphmae对被掩节点的编码嵌入进行固定重掩码解码。也就是说,编码后的嵌入被随机地多次重新掩码,它们的解码结果都被强制恢复输入特征。其次,我们提出了潜在表示预测,它试图在嵌入空间中重建被掩盖的特征,而不是在输入特征空间中重建。屏蔽节点的预测嵌入被约束以匹配直接从输入图生成的表示。这两种设计都可以作为生成图SSL中目标构造的正则化。
从GraphMAE继承而来,GraphMAE2是一个简单但更有效的图形生成自监督框架,可以直接与现有的GNN架构耦合。我们对代表不同规模和类型的公共图数据集进行了广泛的实验,包括三个开放图基准数据集。结果表明,在不同的设置下,GraphMAE2可以始终提供优于最先进的图形SSL基线的显著性能。此外,我们表明,与GraphMAE相比,这两种解码策略都有助于提高性能。令人兴奋的是,GraphMAE2作为一种SSL方法在所有数据集上提供了优于经典监督gnn的性能优势,这为自监督图表示学习和预训练提供了前提。
此外,我们将GraphMAE2扩展到具有数亿个节点的大规模图,这在以前很少用于图SSL。我们利用可以产生局部和密集子图的局部聚类策略,使GraphMAE2(和GraphMAE)通过屏蔽特征预测受益。在ogbn-Papers100M的111M节点和1.6B条边上的实验表明,简单的GraphMAE2框架可以比现有方法产生显着的性能改进(参见图1)。
2.method
在本节中,我们首先回顾图SSL的掩码自动编码,并确定其不足之处,即掩码特征重建的有效性容易受到输入节点特征可分辨性的影响。然后,我们提出了GraphMAE2,通过对特征解码施加正则化来克服这个问题。
2.1 Masked Autoencoding on Graphs
符号
掩码特征重构综述。掩码自编码器的想法在graph SSL[18]中得到了成功的实践。作为一种更通用的去噪自编码器,它通过屏蔽操作删除图中的一部分数据,例如节点特征或链接,并学习预测被屏蔽的内容。已经证明,重构被屏蔽节点特征作为唯一的前置任务可以产生很好的性能。本文遵循掩码特征重建的范式,旨在通过解决现有工作中的潜在问题来进一步提高性能。