关键词:
手足口病
变量筛选
疾病预测
动态贝叶斯网络模型
带约束的向量自回归模型
ARIMAX
摘要:
背景:手足口病(Hand,foot and mouth disease,HFMD)是我国常见的儿童传染病,在成都市的发病率常年居于丙类传染病前三位,由于缺乏全病毒疫苗和特效药物,HFMD对儿童健康和公共卫生造成了重大负担。然而,影响HFMD的环境因素众多、关联模式复杂,且发病具有季节性,疾病预测对防控HFMD的意义重大,急需研究HFMD与环境因素的复杂关联,据此构建预测模型、探索发病规律,为HFMD的预防和控制提供依据。
方法:采用成都市2011~2017年HFMD和10种环境变量数据,分别使用日和周为数据分析单位,以2年、3年、4年、5年、6年和7年为样本量。本研究探索的复杂关联包括变量间的相关关系和滞后效应,通过Pearson相关联合交叉相关分析(Pearson-CCA)和动态贝叶斯网络(Dynamic Bayesian networks,DBN)识别变量间的复杂关联,筛选HFMD可能的预测因子。根据Pearson-CCA和DBN模型识别的变量复杂关联模式,分别建立Pearson-CCA-ARIMAX、Pearson-CCA-向量自回归(Vector autoregression,VAR)、DBN和带约束的向量自回归(Constrained vector autoregression,CVAR)四种模型,采用均方误差平方根(Square root mean square error,RMSE)和平均绝对百分误差(Mean absolute percentage error,MAPE)评价模型的预测准确度,比较在何种复杂关联模式下建立的预测模型更准确,选出预测误差最小的最优模型。使用相对最优模型比较更新数据的多步动态预测和不更新数据直接预测的效果,得出相对准确的预测方法,然后分析成都市HFMD的发病趋势,解释环境变量与HFMD的变量复杂关联。
结果:(1)复杂关联:本研究使用DBN模型识别的变量复杂关联建立的模型预测准确度高于使用Pearson-CCA建立的预测模型,DBN模型可以更准确地识别多变量间的相关关系和滞后效应。以日为分析单位时,最优模型的DBN关联模式显示,风速、日照、气压、温度、湿度、PM10、NO2在滞后1~2天与HFMD相关,降水和SO2在滞后2天与HFMD相关,温度日较差与HFMD无关;以周为分析单位时,温度、湿度、日照、温度日较差、PM10在滞后1周与HFMD相关,风速、气压、降水、SO2、NO2与HFMD无关。温度、湿度、日照和PM10在两种分析单位下均与HFMD相关,这四种环境因素是HFMD的重要影响因素。
(2)预测:在ARIMAX、VAR、DBN和CVAR四种模型中,预测准确度由高到低依次为CVAR、DBN、VAR和ARIMAX,CVAR是相对最优模型。日单位模型的预测准确度和稳定性高于周单位,样本量包含3~4个季节周期的预测表现最佳。相对最优CVAR模型1~10步外推的动态预测效果优于直接预测,且外推步长控制在最大滞后阶数左右时预测准确度最高。
(3)相对最优模型变量复杂关联解释:使用脉冲响应分析解释环境变量与HFMD间的关联方向和持续时间,结果显示在日单位相对最优CVAR模型中,风速、温度、湿度、PM10、SO2和NO2每改变1个单位,在未来10天对HFMD的影响基本是前1~4天呈现负向影响,然后转为正向影响,最后在一段波动后逐渐趋于无影响;日照、气压和降水每改变1个单位,在未来10天对HFMD的影响基本是先正后负,继而转为正,然后趋于无影响,总体呈现正向影响。
结论:DBN能够准确识别多元变量间的复杂关联,据此建立的CVAR在模型结构、预测准确度和复杂关联解释等方面具有较强优势,使用CVAR模型可以较准确地预测成都市HFMD发病趋势。因此,CVAR模型可以为卫生部门发现潜在的HFMD疫情和制定疾病预防和控制措施提供参考。