关键词:
流数据聚类
模糊聚类
手写数字图像
量子聚类
社团检测
摘要:
随着现代科技的发展,人类迈入了信息社会,各行各业的信息数据呈现爆发式的增长。如何从这些海量数据中找到真正有用的信息成为人们关注的热点。数据挖掘(Data mining)技术是信息决策和数据库知识发现的重要工具,聚类技术便是数据挖掘技术中一个非常重要的手段。聚类技术目的是将大量样本或抽象的数据按照相互之间的相似性分成若干个子集合,从而发现数据的结构,帮助人们更好的了解数据之间隐藏的信息。信息科技的进步,导致信息规模增长越来越快,样本包含的特征也越来越复杂,很多传统聚类算法都已无法应对如此大规模的数据,研究人员将注意力转移到能够适应复杂海量数据的新型算法上。本文将结合传统模糊聚类算法并引入流数据聚类的概念,提出了针对海量数据的流数据聚类模型,使算法能够适应大规模数据集。本文主要工作如下:(1)提出了一种基于传统点密度加权FCM聚类算法的适应较大规模手写数字图片识别的方法。本方法根据现有流数据聚类方法,每次读取一个数据点,每次循环只对一个点和现有聚类中心计算隶属度,根据隶属度的最大值来决定是否令该点直接参与聚类模型的更新。本算法的关键步骤就是设计了一个基于流数据的聚类框架,结合在线k-means算法模型更新方法和点密度加权的FCM算法,实现了one-by-one的在线聚类来进行无监督方式的手写数字识别。本算法避免了同时处理所有数字图像数据,极大地减轻了大规模数据处理时对计算机硬件的要求,同时与现有的分块的WFCM算法相比,由于大部分点直接参与了聚类模型的更新,减少了调用WFCM算子的次数,从而节省了计算时间,降低了时间的复杂度,更适合处理规模较大的手写数字图片数据。(2)基于上一部分提出的流数据处理框架,提出了一种改进的流数据处理方法,由于之前提出的算法是基于点密度加权的FCM算法,虽然该算法根据数据样本周围的密度来给每一个数据点加权值以突显出周围密度较大的特点,一定程度上提高了算法的收敛速度,但这种算法需要给数据池中的每一个点都计算权值,这在一定程度上增加了算法的计算复杂度。为了避免这种现象,本章我们提出了一种在SPFCM基础上改进的流数据聚类算法,这个算法在上一章中已经使用过。这个算法的基本原理也是给每个样本点进行加权,但每个样本点的权值都初始化为1,只有聚类中心的权值会不断增加,每多一个点对应的聚类中心的权值就会增加。这样在对后来进入的数据块进行聚类时,这些权值较大的点就更容易成为聚类中心。(3)对现有的社区检测算法做了深入研究发现,社区检测问题和数据聚类问题有很多相似的地方,且目前已有很多用聚类手段来做社区检测的方法。由于对复杂网络的特征矩阵结构较为复杂,现有聚类方法方法效果不是很理想。于是我们引入量子聚类方法对网络的特征矩阵进行聚类来划分社区。首先用结构相似度矩阵来度量网络节点关系的强弱,对由该矩阵提取出的特征矩阵进行聚类,将社区检测问题转化为聚类问题。并在聚类阶段引入节点邻接信息,提高了算法的处理效率并提高了算法性能,并在人工生成网络和真实世界网络上和其他算法做了对比。