关键词:
复杂网络
社团检测
重叠社团
谱聚类
聚类集成
边划分
摘要:
在许多现实世界系统中,对象与对象之间的关系都能够建模成复杂网络进行分析。其中社团结构是复杂网络的重要属性,通常能够解释复杂网络系统的拓扑结构与功能模块。复杂网络社团检测旨在挖掘这种具有复杂网络结构的系统中的模块化结构,研究这种模块化结构有助于更好了解并挖掘网络系统的潜藏功能。近年来,多个领域的研究者们提出了众多社团挖掘算法,在不同学科领域上对复杂网络社团检测进行了深入研究,随着重叠社团结构这一概念提出,这些算法在重叠社团检测领域值得进一步研究。因此,针对传统的基于谱聚类的社团检测算法无法很好地挖掘重叠社团结构的问题,本文提出了一种基于边划分的谱聚类重叠社团检测算法。此外,复杂网络的社团结构不尽相同,为了使算法在不同结构的网络上都有着较好的鲁棒性,本文进一步提出了一种基于谱聚类思想的集成重叠社团检测算法。这两种算法均是以谱聚类算法思想为基础对重叠社团检测算法进行研究的。本文的主要研究工作如下:(1)提出了一种基于边划分的谱聚类重叠社团检测算法。当前基于谱聚类思想的社团检测算法在检测非重叠社团结构时,能够很好地处理复杂的网络结构,得到较为精确的划分结果,但却无法很好地解决重叠社团检测问题。主要原因在于谱聚类方法通过矩阵谱分析理论得出网络节点的新特征,利用新的数据特征将原网络切成相互没有连接的k个子图,故无法检测重叠社团结构。因此,本文提出了一种基于边划分的谱聚类重叠社团检测算法,其主要思想是将谱聚类算法思想与边划分思想结合,通过构造边与边之间的相似矩阵挖掘网络中边社团的结构,从而挖掘每个社团中的非重叠节点以及候选重叠节点,之后通过分析每个社团候选重叠节点的邻居节点信息逐步挖掘重叠节点,得到最终的重叠社团划分结果。在人工合成的LFR网络上与现有的多个算法的对比实验表明,该方法能够有效地挖掘网络中复杂的重叠社团结构,并且能够有效地解决边划分的过度重叠问题。(2)提出了一种基于谱聚类的复杂网络集成重叠社团检测算法。当前基于谱聚类思想的复杂网络社团检测算法实现简单,不易陷入局部最优,但该类方法计算复杂度相对较高,并且依赖于社团尺度参数的选择,主要原因在于随着网络规模的增大,特征向量计算复杂度过高而无法达到足够的精确度。为了解决该问题,并且提高算法的鲁棒性,本文提出了一种基于谱聚类的复杂网络集成重叠社团检测算法。该方法的主要思想是通过设计一种新的抽样方法尽可能的从每个社团中抽取多个代表点,根据矩阵的摄动理论对抽样点进行多样性的谱聚类划分,从而挖掘网络中节点间的社团信息,然后根据网络的拓扑结构以及多个划分的质量进行加权集成得到权重网络,从而加强并挖掘网络社团结构,获得最终的重叠社团划分。通过在多组不同复杂结构的合成网络以及真实网络上,与现有的几种重叠社团挖掘算法实验对比表明,本算法在不同复杂结构的多组网络中均能得到稳定且良好鲁棒性的重叠社团划分结果。并且通过进一步的模拟实验验证,本算法可以很好地从各社团中抽样得到代表节点,且加权集成网络中社团的结构获得了一定的加强。