关键词:
在线社会网络
社团检测
多属性
半监督
动态
图流
非负矩阵分解
局部信息
摘要:
近年来,网络技术的飞速发展和在线社会网络的日益普及,使得数以亿计的网络用户能够更为便捷的进行网上办公、学习、社交和娱乐,通过这些“在线”的交互方式,人们在形成现实生活中复杂社会关系的同时,也构建了丰富多样的新型在线社会关系。在线社会网络的兴起引起了研究者们的踊跃关注,其中社团结构是网络社会关系的基本组织结构,针对在线社会网络中的社团进行检测,是对在线社会网络进行挖掘分析的前提和基础,有助于揭示网络的构成和特征,进而理解网络的运行方式,具有十分重要的应用价值和研究意义。
在线社会网络通常具备属性多样化、结构动态变化和规模日益庞大等突出特点,给社团检测研究提出了新的问题和挑战,传统针对单质、静态和全局的社团检测方法难以有效应对这些处理需求,迫切需要提出新的模型和方法。本课题以在线社会网络数据挖掘为应用背景,依托于国家科技支撑计划项目“面向融合网络的舆情监控”和国家863计划项目“公众通信网络用户关系与行为分析技术”,对新型在线社会网络中社团检测关键技术进行研究,为在线社会网络社团检测所出现的新问题进行模型建立和解决。具体地,本文的主要工作和成果如下:
1.介绍了课题的研究背景与意义,总结和梳理了社团检测的经典模型和方法,深入分析了在线社会网络所呈现出的新特性,并指出了课题研究所要解决的关键问题,探索了在线社会网络社团检测的新模型和解决思路,进而明确了课题的研究范围和技术路线。
2.针对网络中结构拓扑属性和节点本身内容属性缺乏有效融合分析问题,提出了一种基于联合矩阵分解的多属性网络社团检测方法(CDJMF,Community Detection based on Joint Matrix Factorization)。该方法首先根据节点的自身内容属性进行相似度计算,获取节点之间的相似度矩阵描述;然后结合反映网络拓扑信息的邻接矩阵进行联合矩阵分解模型的构造,进而将两类信息作为社团检测的协同学习项进行统一表述;最后通过对联合特征矩阵的迭代分解获取同一个社团检测结果。该方法通过对不同信息源进行融合分析,提高了多属性网络中社团检测方法的有效性。在网络中的实验结果表明,CDJMF相比已有方法具备更高的社团检测质量。
3.针对动态网络中难以有效结合不同时刻的结构信息进行社团检测问题,提出了一种基于图正则化的半监督动态社团检测方法(SDCD-NMF,Semi-supervised Dynamic Community Detection based on Non-negative Matrix Factorization)。该方法首先提取了历史时刻网络中所包含的有效稳定结构单元;然后将其作为正则化监督项来指导当前时刻网络静态图进行社团检测。该方法将历史时刻稳定信息和当前时刻的结构信息在同一个矩阵分解架构中进行融合分析,为动态网络社团检测提供了新的研究思路和框架。实验表明,所提方法有效利用了历史时刻网络中的稳定信息,提高了社团检测精度。
4.针对在线社会网络中数据流式到达的实时处理需求,提出了一种基于在线非负矩阵分解(ONMF,Online Nonnegative Matrix Factorization)的图流社团检测方法。该方法首先将网络中持续到达的图数据按照流式数据进行缓存处理;然后借鉴梯度下降思想,基于在线非负矩阵分解架构,根据实时到达的图流序列,实时迭代更新已有的社团归属矩阵,并通过有效的学习率和缓存策略设置,保证了图流处理的收敛性和合理性。在真实网络数据集上的实验表明,所提方法能够应对动态到达网络数据流中的实时社团检测需求,并取得了较高的社团检测精度。
5.针对从局部信息出发社团检测中存在对初始节点位置敏感、拓扑信息难以有效利用的问题,提出了一种基于影响力节点集扩展的局部社团检测方法(IN-LCD,Local Community Detection based on Influential Nodes)。该方法首先定义了节点的局部影响力指标,通过该指标计算并构造了局部影响力节点子集;然后从影响力节点子集开始,以迭代更新的方式,进行连续的社团扩张;最后通过所定义的局部相似性指标来精确控制社团的扩张过程,进而完成整个局部社团的获取。在真实和人工网络数据集上的实验表明,所提方法识别性能优于已有的最佳局部社团检测方法,能够更好地利用局部信息进行社团检测。