关键词:
链路预测
结构相似性
非负矩阵分解
L2,1范数
核函数
摘要:
链路预测作为复杂网络研究的热点问题之一,旨在通过已观测到的网络结构信息预测尚未连接的两个节点未来产生连边关系的可能性。它不仅深化了我们对网络演化机制的理解,还在挖掘影响网络动态变化的关键因素方面具有重要的理论价值。此外,链路预测在蛋白质作用关系预测、社交网络潜在关系挖掘和分子属性预测等领域具有广泛的应用。
近年来,大量基于不同方法的链路预测算法应运而生,旨在解决链路预测问题,并取得了较好的预测结果。然而,现存的链路预测算法仍面临以下几方面的挑战:
·现有方法大多局限于利用有限的结构信息,未能充分挖掘节点与邻居之间的局部结构,以及节点对间路径的异质性,忽略了这些关键信息的协同作用对预测性能的影响。
·真实网络往往呈现出高维度的特征,且网络拓扑结构复杂,而现有的大部分方法仅关注网络的局部或全局信息,未能同时应对高维度挑战并充分捕获网络的局部和全局信息。
·现实网络蕴含着深层的层次结构信息,且常受到随机噪声的干扰,而当前方法大都仅考虑网络的浅层结构信息,且易受网络随机噪声的影响。
·节点连边的形成不仅依赖于线性关系,还依赖于非线性关系,而大部分现有方法未能充分捕捉这些信息。
针对上述问题,本研究从网络局部结构到全局层次结构、从线性关系到非线性关系等多个方面出发,融合结构相似性和非负矩阵分解技术,提出了针对性的链路预测模型,以提升预测的鲁棒性和准确性。研究工作具体包含以下四方面:
(1)针对节点对与其邻居之间的局部结构及路径异质性对预测性能的影响,本文提出了一种融合局部结构与路径节点信息的链路预测模型。该模型首先分析了预测节点对与其邻居之间的局部拓扑结构,同时,为了应对节点对之间路径异质性问题以及量化不同邻居节点在相似性度量中的差异性,本文采用节点度的倒数作为调节因子。这一策略不仅有效解决了路径异质性问题,还合理平衡了不同邻居节点的贡献度。最后,本文将上述关键局部结构特征统一在同一目标函数中,实现了对网络结构特征的有效利用。该模型在六个真实数据上进行了实验,其中在四个数据集上预测精度最高,与次优模型相比,平均AUC提升了1.56%。
(2)节点的二阶邻居之间的紧密程度、边影响力与网络高阶特征有效描述了网络的局部与全局信息。针对网络高维度下,网络局部和全局信息挖掘不充分的问题,本文提出了一种图正则化自编码器式非负矩阵分解的链路预测模型。该模型利用聚类系数和有偏随机游走策略有效捕捉了节点的二阶邻居之间的紧密程度、边影响力以及网络的高阶特征信息,实现了对网络局部和全局信息的充分挖掘。同时,引入编码组件和正则化技术,在降低数据维度的同时,也进一步增强了模型的解释力和预测能力。最后,将上述关键步骤统一在同一目标函数中,利用拉格朗日乘子法进行优化,确保模型参数的最优解。实验结果表明,该模型的预测性能与次优模型相比,在所有网络上的平均AUC提升了7.14%。
(3)针对网络中复杂的层次结构和随机噪声对预测性能的影响,本文提出了一种带有L2,1范数的深度自编码器式非负矩阵分解的链路预测模型。该模型的核心在于引入深度自编码器思想,将网络表示成多个抽象层,以充分捕获和表达网络中丰富多样的特征,从而有效揭示了网络内部的层次结构。同时,针对网络中普遍存在的随机噪声问题,本文利用L2,1范数消除每一层中随机噪声的干扰,确保模型能够聚焦于核心的网络结构,进一步提高了预测精度。此外,本文还用数学方法对构建的目标函数的收敛性进行了严格证明,确保了模型训练过程的稳定性和预测结果的可靠性。最后,将该模型应用于十二个真实网络中进行实验,并与次优模型进行对比分析,实验结果表明,该模型的预测性能与次优模型相比,在所有网络上的平均AUC提升了1.1%。
(4)鉴于节点对间非线性关系对连边建立的重要作用,本文提出了一种基于深度自编码器式非负矩阵分解的鲁棒链路预测模型。该模型采用多层结构设计思想,有效捕获了网络中的层次结构特征;同时,集成了高斯核函数和多项式核函数,以实现对网络中局部和全局非线性特征的充分捕捉。此外,为了保证模型预测结果的可靠性,本文采用数学方法严格证明了目标函数的收敛性。最后,将该模型应用于六个真实网络中进行实验,与次优模型进行对比分析,实验结果显示,该模型在所有网络上的平均AUC提升了2.38%。