论文阅读笔记:DEAL_inductive链路预测_分别表征节点特征和拓扑结构+对比学习对齐

张开发
2026/4/3 14:34:58 15 分钟阅读
论文阅读笔记:DEAL_inductive链路预测_分别表征节点特征和拓扑结构+对比学习对齐
诸神缄默不语-个人技术博文与视频目录诸神缄默不语的论文阅读笔记和分类本文首次撰写于2022年7月论文名称Inductive Link Prediction for Nodes Having Only Attribute Information论文ArXiv下载地址https://arxiv.org/abs/2007.08053论文IJCAI官方下载地址https://www.ijcai.org/proceedings/2020/168在该网站中有给出讲解视频链接这TMD是我这么多天以来听到的第一个中国人讲的英文论文视频了感动中国终于有一个我听得懂的英语口音了毛子口音和三哥口音我是真的受够了本文中非论文配图的插图都截自该视频官方GitHub项目working-yuhao/DEAL: IJCAI2020本文是2020年IJCAI论文主要专注于inductive link prediction场景但是模型也可以应用于transductive场景。inductive场景中新节点仅有attribute没有结构信息。本文提出的模型DEAL (Dual-Encoder graph embedding with ALignment) 可以对新query node仅基于其attributes做表征与其他节点嵌入做链路预测。DEAL模型分别对attribute和图结构进行嵌入2个encoder一个是纯MLP一个是直接以独热编码为初始化矩阵MLPweight normalization1做节点表征效果甚至比GCN好简单方法大力出奇迹然后使用一个对齐机制将两个encoder关联起来在训练过程中一起更新使表征在向量空间中对齐具体实现方式是做两个对比学习是否连边相连的节点encoder得到的表征相似度应该高以及2个encoder得到的表征。用余弦相似度来衡量距离。这个损失函数是可以用超参数调整的ranking-motivated loss。在测试时用两个节点的两种表征两两交叉计算相似度线性求和来计算连边概率如果是inductive范式就不计算第一项。可以跟引用了DEAL模型的LeSICiN2做对比。LeSICiN可以说是将DEAL模型extend到了有监督异质图场景对齐机制是两种节点的不同表征做交叉对齐为什么不是每种节点自己对齐自己的我也不知道打分则和DEAL使用的表征对相同只做了inductive场景但不用相似度而用MLP解码。损失函数则直接将3种打分得到的分数视作概率用多任务分类任务范式将3个交叉熵损失函数加权求和。文章目录1. Background Motivation2. DEAL模型2.1 Attribute-oriented Encoder2.2 Structure-oriented Encoder2.3 对齐机制和模型训练2.3.1 encoder本身基于链路预测的对比学习损失函数2.3.2 两个encoder之间的对齐机制2.3.3 训练算法和预测过程3. 实验3.1 数据集3.2 baseline3.3 实验设置3.4 主实验结果3.5 模型分析1. Background Motivation早期链路预测任务关注节点相似性的度量近年来往往通过图嵌入方法来实现链路预测。有些图嵌入方法只能捕获图结构信息能捕获attributes信息的大多关注transductive范式两个节点都在训练时就存在于图中。可以做inductive链路预测但是需要边的模型SDNE3只能捕获图结构信息和GraphSAGE4。G2G5可以对没有局部结构的新节点做inductive链路预测但无法区分特征相似的节点因为它无法很好地捕获节点表征中体现的结构信息。2. DEAL模型在视频中的画法换了个方向2.1 Attribute-oriented Encoder输入是节点attributes输出节点嵌入可以选择各种神经网络本文直接用了MLP激活函数是ELU这里论文对没用GCN的解释是经实验观察聚合太多邻居信息会影响attributes表征效果。我的迷惑点在于在inductive场景下不是本来就不能用GCN吗2.2 Structure-oriented Encoder用节点独热编码作为输入得到节点嵌入就是说这个本来也可以用GCN以邻接矩阵为输入但是实验证明效果不如本文提出的方法。2.3 对齐机制和模型训练学习特征和结构之间的关联。模型训练时2个encoder一起更新参数在向量空间对齐表征。2.3.1 encoder本身基于链路预测的对比学习损失函数ranking-motivated loss证明其效果的参考文献G2G5和Content-based citation recommendation本文提出了一个新的mini-batch learning method with a personalized ranking-motivated loss原版contrastive loss6公式中p-q是成对样本共有k对直接使用contrastive loss的问题是1. 负样本对距离不同因此用同一个marginτ \tauτ不合适。2. 损失函数中没有考虑regularization。y yy是节点是否连边α \alphaα是weight functionϕ \phiϕ通过不同的超参形成ϕ 1 \phi_1ϕ1​和ϕ 2 \phi_2ϕ2​。s ss在本文中用的是余弦相似度。由于logistic loss可看作margin无限的软版hinge loss参考文献A tutorial on energy-based learning没看懂这个啥意思因此本文使用了the generalized logisitic loss function参考文献A view of margin losses as regularizers of probability estimates衡量不同距离样本的重要性。d s p d_{sp}dsp​是shortest path distance2.3.2 两个encoder之间的对齐机制最小化2个encoder的上述损失函数然后加上对齐机制。Tight Alignment (T-align)最小化节点的2种表征如果光用这个的问题是太严格了Loose Alignment (L-align)最大化相连节点的不同表征就是一个结构、一个attributes的相似性用和2.3.1部分介绍的一样的损失函数来做大概是因为作者相信这个损失函数设计得很曼妙是的这个梗是更新的时候加上的最后就是两个链路预测的损失加对齐的损失2.3.3 训练算法和预测过程测试时在inductive场景下λ 1 \lambda_1λ1​为03. 实验3.1 数据集细节略3.2 baselineMLPSEALG2G5GAE细节略3.3 实验设置略。3.4 主实验结果论文里也没说这个Cite.是啥模型。3.5 模型分析细节略。Weight normalization: A simple reparameterization to accelerate training of deep neural networks我直接百度了相关的一些资料① 【深度学习】Weight Normalization: 一种简单的加速深度网络训练的重参数方法_Shwan_Ma的博客-CSDN博客这篇开头就满篇错别字② Generative Modeling with Variational Auto Encoder (VAE) | by Fathy Rashad | ViTrox-Publication | Medium重要内容AE (Auto Encoder) 和VAE (Variational Autoencoder)VAE是用来规范化AE的强迫隐向量空间连续、有意义把每个特征值学成一个高斯分布。后面数学部分简单带过了没仔细看总之大约来说就是这个分布需要通过差分推断来学习也就是需要学习另一个tractable相似分布通过KL散度来学习两个分布的相似程度。对应的中文翻译我是直接看的英文版使用(VAE)生成建模,理解可变自动编码器背后的数学原理 - 知乎③ inference - What does a ‘tractable’ distribution mean? - Cross Validated不能用闭包表现形式解决的问题④ GAN — Why it is so hard to train Generative Adversarial Networks! | by Jonathan Hui | Medium⑤ 重参数 (Reparameterization)_连理o的博客-CSDN博客_重参数⑥ 模型优化之Weight Normalization - 知乎怎么说呢看起来好像就是对参数的一种归一化方法将其拆成两部分然后直接优化这两部分 ↩︎论文阅读笔记LeSICiN_以inductive链路预测范式解决多标签文本分类任务法条预测_relational rotation encoder-CSDN博客 ↩︎Structural deep network embedding ↩︎Inductive representation learning on large graphs ↩︎Deep gaussian embedding of graphs: Unsupervised inductive learning via ranking ↩︎ ↩︎ ↩︎Dimensionality reduction by learning an invariant mapping ↩︎

更多文章