关键词:
手足口病
传染病预测模型
LSTM
EEMD
组合模型
摘要:
背景手足口病(HFMD)是一种由多种肠道病毒引起的常见传染性疾病,传染能力强、传播速度快,且现阶段没有针对性治疗的药物,严重威胁着全世界儿童的生命健康。建立HFMD预测模型,对HFMD疫情进行及时预警,是疫情防控的重要手段。对于医院门诊数据进行挖掘,能够掌握医院就诊的整体趋势以及疾病的发展趋势,以便于在疫情暴发前期及时预警,避免就诊高峰导致的院内交叉感染。过去的研究中建立的模型主要关注于构建过程的优化和组合方式的创新,在数据本身的处理和优化方面存在不足,在预测效果上仍有提升的空间。本研究旨在结合时间序列分解方法,对于HFMD医院门诊数据建立准确高效的组合预测模型,为HFMD疫情的防控和医疗资源的分配提供科学可靠的帮助。
方法本研究所使用的数据来源于重庆医科大学附属儿童医院临床科研大数据中心,收集整理2015年1月1日至2023年7月27日期间每天的HFMD门诊量,对数据进行描述性统计分析,并按8:2的比例划分训练集和测试集,训练集用于模型训练和参数选择,测试集用于模型性能的评价和对比。首先基于ARIMA模型和LSTM模型分别对HFMD门诊量进行预测;然后,结合两种独立模型的优势,使用LSTM模型对ARIMA模型的残差进行预测,构建ARIMA-LSTM组合模型;通过集成经验模态分解方法(EEMD)将时间序列分解,并使用得到的分量训练LSTM模型,构建EEMD-LSTM、ARIMA-EEMD-LSTM组合预测模型。最后对各模型的预测效果进行评价,使用均方根误差(RMSE)和平均绝对误差(MAE)评价模型的预测精度,决定系数(R2)评价模型预测值与实际值的拟合效果。数据清洗、模型训练和预测以及模型评价指标计算由R 4.2和Python 3.8实现。
结果2015年1月1日至2023年7月27日期间HFMD门诊总量为128420例,平均每天41例。对HFMD时间序列的描述性统计发现其发病有明显的周期性,以1年为周期,并且表现出显著的双峰特征,两个发病高峰期分别在每年的5-7月和10-12月。根据数据特征确定ARIMA模型的参数为p=5,d=1,q=2,其在测试集上的RMSE、MAE和R2分别为6.95、3.68和0.990;LSTM模型在测试集上的RMSE、MAE和R2分别为13.93、8.07和0.961;ARIMA-LSTM组合模型在测试集上的RMSE、MAE和R2分别为9.85、8.11和0.980;EEMD-LSTM组合模型在测试集上的RMSE、MAE和R2分别为6.20、3.98和0.992,其中EEMD方法将HFMD时间序列分解为了11个本征模态函数;ARIMA-EEMD-LSTM在测试集上的RMSE为4.37,MAE为2.94,R2为0.996,其中,EEMD对ARIMA模型的残差进行分解得到了11个本征模态函数。比较5个模型的预测表现,发现ARIMA-EEMD-LSTM组合模型在预测精度和拟合优度上表现最好,EEMD-LSTM组合模型表现次之。
结论在构建的所有模型中,ARIMA-EEMD-LSTM组合模型实现了最好的预测效果,其对于2022年1月7日至2023年5月22日期间HFMD发病趋势的预测在波动幅度和波动频率上都与实际观测值十分接近。对于HFMD甚至其他传染性疾病,ARIMA-EEMD-LSTM组合模型能够提供精准的预测,为疾病防控提供科学有效的参考;将EEMD-LSTM、ARIMA-EEMD-LSTM两个模型与ARIMA、LSTM、ARIMA-LSTM相比较,EEMD方法的加入让模型的预测性能有了明显的增强,这可以为未来的传染病预测模型提供新的思路。