关键词:
大数据
特征筛选
分位数估计
变系数模型优化
贝叶斯推断
摘要:
随着时代发展和科技进步,数据的收集能力和存储能力大大提升,高维甚至超高维数据越来越频繁地出现在各个研究领域。与此同时,数据维度的迅猛增长导致大量无关变量产生,从数千甚至数百万个变量中筛除无用信息,选出重要变量,保证有用信息的完整度,是一项很有意义的工作。在超高维数据模型中,变量的维数一般远大于样本量,很多经典方法的表现难以满足实际需求。例如最小二乘法的求解需要用到协方差矩阵的逆矩阵,当变量维度大于样本量时,样本的协方差矩阵是一个奇异矩阵,最小二乘法的求解无法正常进行。再比如极大似然估计方法中,超高维的样本数据将导致似然方程的个数远远小于未知参数的个数,使得模型参数不可识别。此外,超高维数据中存在大量的白噪变量,如果将所有的变量全部用于统计模型,可能会导致模型估计出现较大的偏差。因此,快速有效的筛选“重要的”预测因子,降低数据维数非常有必要。对超高维数据选择“重要的”预测因子时,对于模型已知的数据,可以根据具体的模型进行判别。实际中,数据的模型往往是未知的,需要用不依赖模型的判别指标进行判别。本文基于分位数的有关性质,提出一种新的判别指标,用来判定在分位点τ处,变量X和变量Y之间的独立性,然而单个分位点的信息并不能完全涵盖变量间的相关信息,为了更全面准确的判定变量间的独立性,需要将分位区间上的信息进行整合,本文给出了三种不同的整合方式:最大值法,平均值法和加权平均值法,并分析了三种方法各自的优点和不足。基于分位数的判别指标有以下优点:(1)不需要模型假设,具有很好的灵活性;(2)对于重尾数据和异构数据不敏感,具有很强的鲁棒性;(3)计算复杂度较低,仅为O(n)等。随后本文基于分位数判别指标提出一种高维数据的特征筛选方法,称为联合分位数特征筛选方法(Quantile-Composited Feature Screening,简称QCS)。本文中筛选指标采用加权平均值法,先求出各预测因子与变量之间的相关性指标,再通过阈值法选取“重要的”预测因子。文中给出了QCS方法的相关性质并进行了证明,从理论上保证了QCS方法的筛选有效性,并通过大量的Monte Carlo模拟和实际数据模拟验证了QCS方法的有效性,实验结果显示:与已有的几种经典方法相比,QCS方法能够实验更优的筛选效果。此外,本文进行了筛选速度对比实验,结果显示QCS的计算耗时呈线性增长,而其他对比方法的计算复杂度呈二次增长。由此可见,QCS方法具有筛选效率高、速度快的特点。选出“重要的”变量后,一个很顺理成章的工作就是进行模型构建。常用的传统参数模型虽然具有很好的回归特性,但是忽略了数据集中可能存在的动态特征,而在实际应用中,这种情况非常普遍。为了更好的适应数据的动态特征,使模型更好地贴合数据,需要将模型的参数从一个固定数值变成一个动态的函数,从而产生了变系数模型。变系数模型具有其他模型不可替代的优势,它保留了参数模型的可解释性等优良性质,还具有很好的灵活性和适应性。模型的估计往往都基于理想的无偏假设,即所有的预测因子都被充分收集,误差项的条件期望为零,此时可以得到一致性的参数估计,但是无偏假设在实际应用中几乎不成立。首先,预测因子的稀疏性不一定严格成立,“不重要”的变量不一定对模型没有贡献,将这些“不重要”变量当做随机误差可能会导致估计偏差;此外,无法百分百确定哪些预测因子与响应变量相关,特别是预测因子的维度很高时,数据中会出现大量的“不重要”预测因子,白噪影响的积累可能会导致选择“重要的”预测因子时,漏掉部分“重要的”预测因子,这是已有的筛选技术都无法完全避免的;此外,“重要的”预测因子和“不重要的”预测因子之间可能存在相关性,很可能导致误差的条件期望不为零。针对上述问题,本文中提出一个有效的方法,通过构造一个人工变量,将其引入变系数模型中,使模型优化至无偏,而且在一定条件下,引入新变量后模型依然具有线性形式。本文对新模型的无偏性进行了严格的证明,并给出了模型系数的估计方法。为了验证方法的有效性,本文进行了大量模拟实验。结果显示:在模型漏选“重要的”变量或者预测因子之间存在一定相关性时,该方法不论是参数估计精度还是预测准确度都大大优于已有方法,在模型不漏选且预测因子几乎不相关时,该方法也能达到与最小二乘法相当的效果。贝叶斯统计推断是一种基于贝叶斯定理的统计推断方法,该方法提供了一种灵活、概率化的推断和建模框架,对于处理不确定性和复杂问题非常有效。在贝叶斯统计推断中,将模型参数视为随机变量,并使用概率分布来表示参数的不确定性,通过结合先验分布和观察到的数据,计算参数的后验分布,从而得到参数值更准确的估计。第五章主要研究了贝叶斯方法在参数更新迭代方面的应用。结合贝叶斯统计推断的有关理论知识,计算参数的条件后验分布,给出两种参数估计方法:基于条件后验的抽样方法;边际分布和联合后