关键词:
复杂网络
社团检测
标签传播
节点重要性
公共安全数据分析
摘要:
复杂网络是由真实世界里对应复杂系统经过建模得到的一种网络结构,常见的复杂网络有金融交易网络、蛋白质网络、人际关系网络等,在数字化的时代背景下,这类网络已经成为了研究信息传播的重要工具。社团检测是研究复杂网络结构的一种常用技术,研究人员通过社团检测可以揭示复杂网络的拓扑信息,探究各群体之间以及个体之间的潜在关系,因此社团检测及其相关课题具有重要的研究价值和意义。原始的标签传播算法LPA具有简单高效的特点,在社团检测领域具有较高的热度,但其存在稳定性较差且不能适用于重叠社团的检测等问题。本文在深入研究了LPA算法的思想和运行原理后,提出了三种基于LPA改进的算法。论文的主要研究内容如下:(1)针对原始LPA算法的高随机性而导致检测结果不稳定的问题,本文提出一种基于节点重要性的标签传播算法LPANI。首先本文基于k-shell算法和节点活跃度定义了一种节点重要性指标KSNI,并按该重要性递减的顺序对节点进行排序从而确定标签初始化以及标签更新的序列;然后提出一种基于节点影响力的标签初始化方法,运用该方法进行标签初始化可以减少网络中冗余标签的出现,从而有效减少标签迭代的次数;接着本文基于Salton指标定义了标签影响力并利用节点邻接信息定义了新的网络约束系数,用于解决标签更新冲突的问题;最后本文基于模块度增量提出一种社团后处理方法,进一步提高了算法的准确度。(2)为了弥补LPANI算法的不足,让算法的检测结果更贴近真实社团结构。本文提出了一种基于马尔可夫聚类的标签传播算法LPAMC。算法主要做出两点改进:首先,为了更加全面的定义节点重要性,本文利用MCL算法构建节点重要性矩阵,并将其与KSNI指标相结合提出新的节点重要性指标;然后,本文提出了一种基于社团相似度的社团合并策略,避免了模块度增量的分辨率限制问题带来的影响,使社团合并结果更接近真实结构。(3)为了完成重叠社团的检测,本文将LPAMC算进行拓展,提出了SLPAMC算法。主要有以下三个改进点:算法为每个节点设置标签存储列表,允许节点同时携带多个标签;在标签传播阶段筛选出对待更新节点网络约束最大的邻居节点作为标签传播节点,减少了标签传播过程中冗余标签带来的干扰;最后利用预设阈值对节点标签存储列表中的标签进行筛选,去除出现频率低于阈值的标签,剩下的标签则为节点所归属的社团。(4)本文将LPAMC算法和SLPAMC算法应用于某市“公共安全大数据分析”项目。将真实案件中的资金交易信息构建成人员关系网络,利用社团检测技术挖掘网络中的团伙结构,刻画网络中的核心成员,为刑侦工作寻找出更多潜在线索,最后通过案件的侦破验证了算法的在公共安全领域内的可行性。