关键词:
水质监测
数据ETL
统计分析
评估模型
在线分析
摘要:
随着物联网行业的爆发式发展,计算机技术已经在水务各个行业得到普遍的应用,目前已收集存储了大量的历史数据。然而,如何利用这些沉睡已久的数据进行有效的分析,以此为水务行业决策者在作出决策时提供参考依据,也为用户了解水质情况、参与监督工作提供平台等,这些问题成为目前智慧水务迈入大数据时代的重点。基于智慧水务的相关需求,济南市水质检测中心已着重推进济南水质检测数据分析等相关工作,二十多年来已经收集了海量的水质检测历史数据及单指标实时检测数据,将这些数据及时的存储、进行合理的数据ETL与有效的挖掘分析,以更加精细和动态的方式管理水务,为供水部门及水质监测中心提供及时有效的辅助决策建议,是本系统的工作重点。本文描述的系统是基于实际需求建立的一个集水质数据采集、数据ETL、多维检索、多维统计分析、水质评估、在线分析于一体的水质综合分析评估系统。对于水质检测的历年月报数据以及单指标在线实时检测数据进行梳理,划分出多个样品类别,并按照不同检测性质,对水质数据进行多方面的处理、查询与分析。在数据收集模块,一方面将关系型数据库中的数据传输到Hadoop集群的Hive仓库中,实现了用户指定关系型数据库手动采集和系统设定MySQL数据库定时传输两种功能;另一方面,将所有历史数据以及企业实时数据库中的数据实时地传送到分布式搜索引擎ElasticSearch(ES)中,为数据抽取提供统一且高效的接口。在数据处理方面,原始数据由于大部分是由人工记录,其中存在大量无效的、不规范的以及描述性的数据,通过正则表达式等手段使数据规范;在数据检索方面,提供了多指标任意组合检索、模糊查询、按指定属性排序、全文分页等多种检索条件;在统计分析方面,提供了按样品类别或检测性质在某一检测时间段上的最大最小值、均值、众数、检出率、合格率、检测次数、超标倍数等一系列统计值,为用户提供更直观的数据把控;在水质评估方面,配置了管网水化学稳定性判定指数模型、地表水单指标等级分析模型、健康风险综合指数、N1指数、口感指数、污水可生化性等分析模型,以及通过单因子评价模型、主成分分析模型和BP神经网络模型对济南水质检测数据进行综合评价,量化各分数以得到评价结果;在实时数据分析方面,根据Nl指数、口感指数、健康风险综合指数和水质综合评价等模型,针对数据中地点信息,实时展示水质指标的变化趋势及水质信息,并可根据需求查询特定地点的水质情况。本系统是采用SpringBoot技术建立的服务器端框架,基于vue-cli搭建的前端框架,前后端完全分离,使得各部分逻辑更加清晰及协同工作更方便。系统所有功能基于B/S模式,部分算法由Java调用R语言实现,依靠开源的成熟的可视化库***和R语言分析挖掘图形库实现多样可视化。本文实现的系统为济南水质检测中心提供了界面友好的、操作简洁的水质检测数据分析系统。该系统中使用的模型是世界相关行业人员经过大量研究分析后得出的评价模型,在水质综合评价中,对于模型参数的训练也严格要求验证集准确率达到小数点后三位。该系统为用户提供在线的水质评价,实时了解饮水水质情况;也为水务部门提供性能良好的评价平台,辅助其更好的做出决策,解决了水质监测中心对于水质检测数据分析的迫切需求。