关键词:
继电保护
缺陷记录
文本挖掘
专业词典
知识图谱
文本质量评价
摘要:
继电保护装置对于电力系统的重要性毋庸置疑,然而,保护装置缺陷却时有发生,威胁其作为第一道防线的可靠性,进而影响系统安全稳定运行。随着电网规模持续扩大,继电保护装置数量增加,一方面,设备运行维护压力增大,现场缺乏缺陷诊断、消除以及缺陷记录填报的智能化辅助措施;另一方面保护装置历史缺陷处理数据累积,而又缺乏相应的文本数据挖掘方法,使大量资源闲置浪费。近年来,人工智能的发展突飞猛进,与工业生产过程的融合逐渐深入,自然语言处理与文本挖掘技术在电力行业也有成功应用案例。这为我们利用文本挖掘方法,分析继电保护装置缺陷文本信息,实现缺陷定级诊断和消除的智能化,弥补现场人员经验的不足,提高二次设备运维水平提供了可能。有鉴于此,本文以继电保护装置缺陷管理办法和某地区电网实际继电保护缺陷数据为基础,开展了如下工作:(1)构建了继电保护缺陷文本语料库,利用自然语言处理技术结合机器学习方法,扩充完善了现有的保护缺陷专业词典。首先,梳理了继电保护行业相关语料,以此构建了继电保护缺陷文本语料库;其次,在停用词表、分词词典、同义词表三个方面对现有的继电保护专业词典进行优化完善;最后,对实际缺陷记录文本使用专业词典前后的分词结果以及缺陷文本的自然语言特性进行分析,结果表明,该专业词典能够提高缺陷文本切分质量,具有一定的实用价值。(2)基于现有的传统领域本体构建思想,提出了传统领域本体构建思想与TF-IDF相结合的继电保护缺陷本体构建的流程,实现了继电保护缺陷本体构建。首先,对常规的本体构建方法做了总结,包括手工构建思想和自动构建流程;然后,结合继电保护缺陷文本特点,以传统构建思想为基础,辅助以TF-IDF的方法,实现了继电保护领域术语、概念的抽取及其关系的定义;最后,利用Protégé对本体构建实例进行了可视化展示。(3)针对继电保护装置缺陷记录文本特征,提出了基于语法规则和远程监督的实体关系综合抽取方法,构建了继电保护缺陷知识图谱。首先,根据继电保护缺陷记录文本的语法特征定义了语法规则集,实现了对近邻词位实体的关系抽取;其次,运用远程监督学习方法训练关系分类模型,实现了实体关系的自动抽取;最后,提出了可信度指标评价关系预测结果并对结果进行修正,实现了实体关系综合抽取。(4)针对现有实际缺陷记录文本中存在的问题,提出了一种基于层次分析法和熵权法组合赋权的缺陷记录文本质量评价方法,实现了文本质量综合评价,同时验证了知识图谱的实用性。首先,梳理了现有的缺陷记录文本存在的问题,针对这些问题分别提出了对应的评价指标及量化计算规则;其次,利用层次分析法和熵权法分别从主观和客观两个角度确定了各指标的权重;最后,利用知识图谱和现有缺陷数据,经处理、计算获得其评价指标数值矩阵和指标权重,实现了缺陷文本的质量评价,并对评价结果做了相应的统计分析。