关键词:
缺失数据
混频MIDAS预测模型
混频极限学习机预测模型
摘要:
本文研究基于缺失数据的混频极限学习机预测模型,指当数据发生缺失时,统计时间频率变量之间不相同的混频模型。旨在处理管理科学预测研究里,当缺失数据发生且存在混频数据的问题。在当今大数据时代背景下,移动互联网、物联网的飞速发展,数据的来源和获取各种各样,并且保持高速增长的态势,时常伴随着数据采集时得到的样本数据不完整,获得的样本数据之间的采集频率不一致的问题。这些问题的发生备受关注。总结混频问题研究面临如下主要问题:(1)在数据的采集过程中,经常出现数据的缺失,导致无法对研究对象进行有效预测。(2)在现实生活中,经常会出现时间统计频率不相同的自变量和因变量数据采样模型情况。(3)在对已有的混频模型研究中发现,对于一元自变量混频预测模型问题研究时,由于数据两端长度不同,随着一元自变量数据的增多,一元自变量混频预测模型表现出非线性特征,导致预测结果的不准确性。(4)同理,对已有的多元混频预测模型问题进行研究时,随着自变量的改变和增加,多元自变量和自变量之间可能会出现混频长度等不一致的情况,而且多元自变量和因变量之间也会存在更加复杂的非线性和不确定关系,导致在处理数据方面的问题变得越来越复杂。因此,本文首次尝试灰色绝对关联理论、混频数据预测理论和极限学习机理论进行集成,处理能源需求预测管理中,共同存在数据的缺失问题和数据的混频问题的研究。从三个方面说明本文的主要研究:第一,建立完备数据的一元混频极限学习机回归预测模型。在现有的混频预测模型中,最常用的是一元混频MIDAS模型。但是,在研究过程中发现,已有的混频MIDAS模型的构造总是基于时间序列回归预测问题讨论,且主要应用以金融市场和宏观经济为背景的研究,针对已有的一元混频MIDAS模型来说,随着自变量维度的增加,非线性特征越来越明显,导致预测误差会越来越大。与此同时,对于一元自变量混频MIDAS预测模型,通过数学推导变化发现自变量总是以一维的形式展开进行研究,这种形式忽略了一元自变量情况下,自变量内部之间可能存在的关联信息,具有一定的局限性。针对以上不足,提出一元混频极限学习机模型,扩充原有一元混频MIDAS数据预测模型,新的一元混频模型应用于中国能源需求分析中,分析对比模型预测结果,证明所提出新模型的合理性。第二,建立基于缺失数据的一元混频极限学习机回归预测模型。在客观实际中,缺失数据经常发生,有必要研究带有缺失数据的混频MIDAS模型,缺失数据的发生很少在混频预测模型中进行研究。为解决客观实际中出现混频采样缺失数据的情况,本文建立基于缺失数据的一元混频极限学习机预测模型。首先,进行预测研究时,会考虑某个可能带有缺失数据的影响自变量对预测因变量结果的影响。其次,带有缺失数据的一元混频MIDAS预测模型本身无法直接预测结果,而且变量数据间存在非线性关系。灰色绝对关联分析模型是处理缺失问题的有效模型,通过判断两组数据序列的相似程度,识别对应的关联关系,进行缺失数据填补。本文使得灰色绝对关联分析模型和一元混频极限学习机预测模型有效集成,让新模型应用于中国能源需求预测问题中,预测一元自变量含有缺失混频数据,预测结果与对比模型预测结果比较,证明所提出模型的有效性。第三,建立基于缺失数据的多元混频极限学习机回归预测模型。预测分析过程中的自变量的个数往往不止一个,而且自变量与自变量、自变量与因变量之间总是相互影响,通过混频模型研究中发现,随着自变量研究维度和多元自变量的数据信息量的增加,用已有的多元混频MIDAS预测模型具有很大的局限性,而且时常伴随着缺失数据的发生。因而,建立带有缺失数据的多元混频预测模型是研究重点。以多元混频MIDAS预测模型为基础,构建基于缺失数据的多元混频极限学习机预测模型,需要解决的问题如下:(1)多个自变量与自变量、自变量与因变量之间混频数据维度增加后,会存在更加复杂的非线性特征关系,估计参数明显增多。(2)多个自变量与自变量、自变量与因变量之间混频数据维度增加后,可能会出现多个缺失值。为解决上述不足,提出基于缺失数据的多元混频极限学习机预测模型,将新模型应用于中国能源需求预测问题中,通过使用含有缺失值的多元混频数据,与对比模型预测结果比较,证明所提出模型的有效性。