关键词:
多任务聚类
非负矩阵分解
动态社团检测
共正则化
摘要:
如今,数据的大规模增长致使工程领域中产生了大量具有高维性,动态性,层次性和相关性的复杂数据。针对复杂数据的研究对科技的进步具有重要意义。多任务聚类和动态社团检测作为研究复杂数据的重要方式,受到了学者们越来越多的关注。多任务聚类共同学习多个任务,通过在相关任务间迁移知识提升每个任务的聚类性能。社团检测通过揭示节点间相互关系,找出紧密相连的节点簇,使得簇内节点强连接,而簇间的节点弱连接。动态社团检测跳出静态网络社团检测的局限,结合网络的时序性对社团进行检测。然而,数据的复杂性降低了现有算法在系统功能研究上的准确性,极大的阻碍了多任务聚类和动态社团检测算法的发展。非负矩阵分解(Non-negative Matrix Factorization,NMF)不仅能够提取数据的潜在特征,且可直接用于数据聚类,在复杂数据聚类分析领域受到越来越多的关注。然而,NMF方法仍存在一些问题:(1)NMF模型为欠定方程,致使方程解不唯一;(2)NMF结果不稳定,严重受到随机初始值的影响。为减弱这些问题带来的影响,论文改进了NMF算法并提出了基于模型相关性的多任务聚类算法(MTMC)和基于共正则化非负矩阵分解的动态网络社团检测算法(ACr-ENMF)。论文的主要贡献概括如下:(1)基于模型相关性的多任务聚类算法,构建了联合学习任务内聚类和任务间聚类的多任务学习框架。具体地说,考虑多任务数据维度高、噪声大的特点,任务内聚类采用对称非负矩阵分解(Symmetric Non-negative Matrix Factorization,SNMF)对数据进行降维,通过引入线性回归预测任务内聚类标签,降低直接采用SNMF聚类的不稳定性,提高聚类准确性;任务间聚类利用二部图联合任务与特征进行共聚类,将任务内参数迁移至任务间模型,加强对不同任务间相关性的学习。MTMC算法通过参数迁移将任务内聚类和任务间聚类联合至同一优化模型中,并且通过交替迭代优化得到聚类结果。(2)基于共正则化非负矩阵分解的动态网络社团检测算法,在动态网络进化社团检测中同时考虑了聚类精度和聚类漂移。ACr-ENMF算法利用相邻时刻网络信息的相关性,将前一时刻的特征信息迁移至当前时刻进行社团聚类,进而将不同时刻的时序信息关联起来。具体地说,为了提高动态进化社团检测的准确性,利用前一时刻的网络和社团描述聚类漂移,并通过共正则化将其纳入到ACr-ENMF的目标函数中。ACr-ENMF算法不仅约简了维数、降低了时间复杂度,且更好地描述了动态社团的演化规律。(3)为了验证所提算法的性能,论文在3个多任务数据集和4个动态网络数据集上与现有最先进的相关算法进行实验对比,并采用不同的测量方法消除测量指标带来的误差。实验结果表明,所提算法在各种测量方法上明显优于其他算法。