关键词:
混合属性数据
数据处理
条件概率转换
分类数据表示
多特征融合
摘要:
随着信息技术的快速发展和互联网的普及,不同形式的数据以前所未有的速度产生和积累,其中包括结构化的混合数据(即由分类数据和数值数据构成)。由于混合数据中的分类数据和数值数据具有显著不同的特征(如,数值数据具有良好的代数运算而分类数据却没有),因此混合数据不能直接输入基于单一数据的机器学习算法中。此外,基于数值输入的机器学习算法在分类和预测任务中已广泛应用,所以将混合数据转换/编码/表示为数值数据的过程是非常有必要的。然而,上述的混合数据处理过程仍然未能取得令人满意的表示性能,如何有效提升转换/编码/表示后的数据质量,成为混合数据处理领域亟待解决的问题。
本文聚焦于混合数据的处理研究,围绕条件概率转换和四类编码方法中的缺点与不足,以提高混合数据的分类性能为目标提出了3个新方法,通过大量的实验验证了所提方法的有效性。本文的研究工作和具体贡献如下:
(1)针对条件概率转换方法(简称CPT)因“属性条件独立性假设”而导致其条件概率的不准确估计问题,受独依赖值差度量的启发,通过构建属性之间的最大带权生成树,找出除根结点属性外其他属性的父结点属性来缓解该假设。此外,设计了一种基于互信息的属性加权方法。最后,结合上述两个改进方法提出了一种基于属性加权的独依赖条件概率编码方法(简称AWODCPE)。在混合数据分类任务上的实验结果表明,AWODCPE能有效提高CPT的转换性能。
(2)在进一步的研究中发现,当遇到具有多标签或高基数分类值的混合数据时AWODCPE方法可能面临维度灾难问题。此外,AWODCPE方法中的属性加权方法计算了全部属性之间的互信息,这可能存在信息冗余。为此,为了缓解维度灾难本文利用多维缩放法将AWODCPE转换后的高维数据降维到合理范围,并通过最大化异类样本与同类样本之间距离设计一种基于必连与勿连约束的属性加权方法来缓解信息冗余问题,结合这两个方案提出了一种基于属性加权的等距嵌入方法(简称AWIE)。大量的实验结果显示AWIE提高了后续分类算法的性能,这表明AWIE改善了转换性能。
(3)通过广泛的研究发现,现有的分类数据表示方法没有将分类属性细分为序数属性和名义属性(即没有考虑分类属性的序数性),丢失了序数属性的排序关系,从而不能取得令人满意的表示性能。为此,以序数、名义和数值三类属性为研究对象,融合它们的属性内和属性间等多种特征关系,提出一种多特征融合的分类数据表示框架(CR-MFF),提高了聚类分析的性能指标。具体地,1)在属性内表示学习中,考虑序数属性内部的排序信息以及名义属性内部的概率信息;2)在属性间表示学习中,考虑序数、名义和数值三类属性之间组合的交互信息;3)融合了属性内和属性间表示的多种特征信息。因此,CR-MFF不仅充分提取了分类属性的复杂特征信息,也挖掘了分类属性之间的排序关系。在混合、分类和名义数据等不同特征的20个数据集上的大量实验证明:CR-MFF与8个优秀的对比算法相比,它显著提升了谱聚类方法的聚类性能。