关键词:
数据分析
数据处理
云原生
负载预测
弹性扩缩容
摘要:
在国家“十四五”规划的纲要指导下,数字化转型成为众多传统企业的重要发展方向。我国粗钢产量在2022年正式超过10亿吨,钢铁企业的生产数据和业务数据快速增长,但企业数字化转型过程中并未充分挖掘数据的潜在价值。传统钢铁企业在数字化转型的过程中的重要目标是如何解决企业部门之间的数据隔阂的问题,以及进行数据分析时,如何高效并灵活地查询数据。
针对上述问题并结合企业实际需求,本文实现了一个基于云原生架构的钢铁企业大数据分析系统,该系统基于云原生、数据处理以及数据分析等技术,致力于解决企业部门之间的数据孤岛问题,为企业提供兼顾低延迟响应和高灵活性的数据查询分析能力。为方便系统的扩展开发,系统采用了可灵活扩展的架构。同时,为系统的性能满足业务需求以及保证系统的稳定性,本文对负载预测问题做出相应研究以支持集群主动弹性扩缩。论文的主要工作如下:
(1)针对企业现状和实际业务需要对系统进行需求分析和数据交互分析,并对系统的总体需求进行详细分析。对系统的主要功能模块进行分解,采用UML用例图的方式对数据资源管理模块、数据处理模块、数据分析模块、用户管理模块和监控管理模块等系统主要功能模块的需求进行了详细介绍,并确定了系统的非功能性需求。
(2)为确保系统的性能满足业务需求以及保证系统的稳定性,本文给出一个基于集成学习的负载预测算法,首先根据不同的样本划分方式将样本进行两次划分,使用两次划分的样本对多个弱学习器进行两阶段训练,并使用训练得到的弱学习器进行并行预测。将预测结果根据权值进行聚合,以得到最终预测结果,使用负载预测结果为集群的动态扩缩提供支持。
(3)对钢铁企业大数据分析系统进行架构设计并实现了各个功能模块。将负载预测算法应用于集群的动态扩缩。对系统的主要功能模块的设计进行详细介绍,主要使用类图和时序图的方式介绍各个模块中主要功能的设计并给出系统的数据库设计。其中,数据处理模块使用Flink数据计算引擎实现了对数据的抽取、处理和加载;数据分析模块基于多维数据分析、预计算和多个数据计算引擎给出了一个数据分级存储和查询方案,实现兼顾低延迟响应和高灵活性的查询服务。系统设计与实现完成后,根据需求设计,对系统的主要功能进行测试,各个系统模块都给出了详细的测试用例。
经过完整的系统测试,系统的各个功能模块均符合需求,系统性能也满足非功能需求的指标。经验证,本文的钢铁企业大数据分析系统可正常投入使用。