关键词:
多模态过程
主成分分析
模糊C均值聚类
自然最近邻标准化
故障检测
摘要:
随着现代科学技术的发展和进步,工业生产中的运行系统变得越来越庞大,系统的复杂性不断提高,系统的相互关联性也成倍增长,一旦这些系统中某一环节发生故障,将出现系统不可控的故障传播与连锁反应,造成巨大的财产损失和人身伤亡。因此,复杂系统的可靠性与可维护性越来越成为现代工业生产中不可忽视的重要安全问题。基于数据驱动的故障检测技术是以过程数据为基础,结合系统监视与控制的算法。该技术可用于过程的维护与监测,从而提高系统的安全性,减少损失,因此在诸多领域得到了广泛的研究与成功的应用。针对工业过程中的多模态特征数据,如何从不同角度解决多模态数据方差差异明显对故障检测带来的影响,运用不同的处理策略来进行处理与优化,使其满足过程数据建模与故障检测的需要,是本论文研究的主要内容,具体工作及贡献如下:
针对化工过程中的多模态数据存在的方差差异明显的问题,提出基于模糊C均值与主成分分析的故障检测方法(Fuzzy c-means Clustering-Principal Component Analysis,FCM-PCA)。首先通过模糊C均值算法(Fuzzy c-means Clustering,FCM)将具有多模态特性的训练样本进行聚类,根据所有样本到聚类中心的距离计算样本所属每个聚类中心的隶属度。其次,以隶属度作为判定依据判断样本所属类别,将训练样本分成若干类别。再次,对每一个分类后的类别进行标准化处理并建立模型,通过核密度估计法确定每一个类别的控制限。最后,将待检测样本划分类别,计算样本在各类别下的Hotelliing’s T2和平方预测误差(Squared prediction error,SPE)(也称Q统计量)统计量并与控制限比较来进行故障检测。将该方法运用于多模态数值例子和田纳西-伊斯曼工业过程并将检测结果与主成分分析方法(Principal Component Analysis,PCA)进行了对比分析,故障检测率大幅提升。FCM算法通过对原始数据分类,有效地提升了PCA处理具有多模态特性数据的能力。
具有较大方差差异的多模态数据需要进行数据标准化处理,但传统的数据标准化方法都有缺陷,如z-score错误地依据全局数据信息,局部近邻标准化(Local neighborhood standardization,LNS)中K值的选取困难,聚类方法处理稀疏程度不同的多模态数据时分类不准确等。为了解决此类问题,本文提出一种基于自然最近邻标准化与相对局部密度的故障检测方法(Natural Nearest Neighbor Standardization and Relative Local Density,NNNS-RLD)。首先,将自然最近邻的思想嵌入到数据标准化中,通过自然最近邻集合的数据信息可以消除数据的多模态特性,将数据处理至原点附近。其次,将密度峰值聚类中密度思想与标准化后的数据结合,利用相对局部密度建立控制限从而进行故障检测。最后将该方法应用于多模态数值例子和田纳西-伊斯曼工业过程,结果表明,NNNS-RLD算法能够及时检测出多模态数据中的故障样本,自动确定近邻集个数并有效地处理稀疏程度不同的多模态数据集。与传统故障检测算法相比,NNNS-RLD方法具有更加优异的检测性能。