关键词:
社团检测
多层网络
重叠社团
稀疏表示
非负矩阵分解
摘要:
随着数据获取技术的快速发展,规模庞大、类型多样、结构复杂的数据日益增多,如果能对数据进行有效地分析与处理,发现数据之间潜在的内部关系,对相关领域的研究将具有重要意义。当前,现实世界中的数据大都可以表示为不同个体以及个体之间的相互联系,因此可以映射成网络的形式。网络中的节点表示个体,边表示个体之间的连接关系。社团检测是网络分析中一个重要的研究方向,旨在将复杂网络中的数据点划分到不同的簇中,使得簇内的联系尽量地稠密,簇之间的联系尽可能地稀疏,从而挖掘出复杂网络中潜在的社团结构,使人们更好地认识和理解复杂网络,研究网络结构、功能和特性,因此被广泛应用于大数据与人工智能的相关研究中。目前已经有许多学者对社团检测问题进行了研究,这些工作主要集中于单层网络,即网络的节点之间只存在一种连接形式,但是现实环境中的网络可能同时具备多种连接类型。比如在社交网络中,个体之间会通过电话、短信、微博等多种方式进行联系,只有获取所有平台的信息,才能准确判断网络中的两个个体是否属于同一个社团。为了涵盖这些关系的多类型特性,通过相同的节点集合,分层描述不同连接,以构成多层网络,并对其进行社团检测显然具有更强的科学意义,因此在最近几年引起了网络科学界的广泛关注。然而,现有方法只是将多层网络的连接简单地平均融合为单层网络,而没有考虑不同连接类型对社团检测的重要程度,从而严重干扰融合后单层网络的社团结构。此外,多层网络中层间连接差异性很大,且多层结构可能会进一步加剧层内连接稀疏性,目前尚缺乏鲁棒的多层网络社团检测策略以系统地挖掘网络结构。针对上述问题,本文对多层网络中社团检测进行了深入研究,取得了如下研究成果:(1)提出了一种新的分层联合表示算法以识别多层网络中的社团。考虑到多层网络中不同连接的噪声差异会导致社团检测性能参差不齐,该算法提出了一种自适应地层加权策略,通过不断更新不同层的权重,以描述各层网络对社团检测的重要程度。此外,算法以非负矩阵分解为基础,同时强制相邻层网络的低维表示向量彼此接近,以获取一致的低维表示,从而揭示跨层共享的社团结构。此外,我们还设计了相关优化方法,通过交替迭代的方式同时优化分解因子和不同层的权重,直到收敛。在包括引文,社交,经济和生物网络等各种类型的复杂网络上的大量实验结果表明该方法具有良好的社团检测准确性。(2)提出了一种基于子空间的多层网络社团检测算法。面对多层网络的稀疏性与连接差异,该方法将稀疏子空间思想推广到多层网络中以提升社团检测鲁棒性,并将不同层之间的低维表示相似性约束作为距离正则项,和非负约束条件共同集成到稀疏子空间聚类框架中,使其能够同时利用数据的全局和局部信息进行图学习。并进一步引入了一种新颖的稀疏约束,以促进学习到的图具有更为清晰的聚类结构。针对该问题,我们还特别设计了一种有效的迭代算法对框架进行优化求解。在多个领域的数据集的实验结果表明该方法可以显著提高复杂网络的社团聚类性能。