关键词:
水电机组
故障检测
随机森林
遗传算法
Spark
摘要:
随着我国电力能源结构的持续优化,水力发电以清洁、可再生的优势扮演着愈发重要的角色。水力发电机组大多部署在环境恶劣的河流上游,且内部零件多,极易发生故障,日常的故障检测有利于及时进行维护工作,从而确保机组正常运行。基于数据驱动的故障检测方法能够充分利用水电数据进行精确的故障检测,但面对高维、异构、海量的水电数据时,现有算法模型的检测准确度和效率已不能满足实际工程要求。在此背景下,本文提出了一种改进型机器学习算法以完成精确的故障检测,同时通过优化后的并行化处理方法有效提升了故障检测模型对大数据的处理能力。论文的主要研究工作如下:
首先,分析对比在水电机组故障检测应用中现存机器学习算法的优势和特点,选择随机森林(Random Forest,RF)作为本文故障检测研究的核心算法。针对原始随机森林算法面对高维数据时,采用简单随机采样的随机化机制,构建的特征子空间多属无效的问题,提出了一种基于奇异值分解和类型抽样(Singular Value Decomposition and Stratified Sampling,SVD-SS)的改进型随机森林算法(SSRF)。实验结果表明,该优化方法有效提升了随机森林的分类性能和故障检测准确率。
其次,为进一步提升算法模型的故障检测精度,本文提出了一种基于自适应遗传算法(Adaptive Genetic Algorithm,AGA)的改进型随机森林算法(AGA-SSRF)。在遗传算法优化中,设计了一种基于Tanh函数和正态分布的自适应非线性交叉概率和变异概率调节公式,有效提高了遗传算法的收敛速度和稳定性。同时通过参数交叉分析实验,确定了SSRF中对性能影响最大的三个参数为决策树数量、决策树最大深度和叶节点的最小样本数,并使用AGA对其进行全局参数寻优。实验结果表明,基于AGA-SSRF的水电机组故障检测模型对8类故障的平均检测准确率达到了96.23%,检测精度进一步提高。
最后,针对单机状态下故障检测模型在海量水电数据处理时计算效能低、可靠性差的问题,本文在应用Spark技术的过程中,基于索引技术提出了一种并行优化策略,对AGA-SSRF故障检测模型进行了并行化处理。同时,基于Py Qt5设计开发了一个并行化故障检测系统,在完成并行计算的基础上实现了检测结果的可视化。实验结果证明,基于AGA-SSRF的水电机组故障检测模型在Spark平台上的并行化计算性能得到了增强,模型的训练速度以及故障检测的效率均有显著提升。并行化故障检测系统的整体性能良好,与传统已有故障检测技术相比,具有较好的鲁棒性和可靠性。