关键词:
不平衡数据
欠抽样
集成学习
代价敏感
决策树
摘要:
现实世界中广泛存在不平衡数据,其分类问题是数据挖掘领域的一个研究热点。传统的分类算法以整体预测精度为训练目标,导致多数类预测精度高,少数类预测精度差。而在手机换机预测这一实际应用中,少数类样本即换机用户的分类正确率更为重要,因此如何改善类间样本的不平衡,增加少数类的识别率,同时兼顾多数类的准确度,是亟需解决的一个问题。目前在不平衡数据分类问题上有两种常用的处理方法。一种是算法层面,通过设计新算法或改进原有分类算法使其对不平衡数据有效。另一种是数据层面,通过改变训练集的样本分布来消除或减弱数据的不平衡程度。本文针对不平衡数据分类问题,以手机换机预测为应用背景,在算法层面和数据层面做了如下工作:1.在算法层面,提出一种分级式代价敏感决策树算法。首先利用粗糙集对原始数据进行属性约简并计算各属性重要度,然后根据属性重要度和专家经验知识对属性分块建立分级结构,最后以基尼系数和误分代价为分裂标准构建代价敏感决策树,作为每一级的基分类器,形成分级式代价敏感决策树模型。实验结果表明,该算法既可以直接对原始数据集进行处理,保证了信息的完整性,又能有效处理欠抽样后平衡的数据集,有效缩小了问题的求解规模,且此算法在一定的不平衡度内具有较好的稳定性。2.在数据层面,提出一种基于样本权重的欠抽样方法,该方法引入了样本权重来反映样本所处的区域,首先根据各类样本的数量初始化各样本权重,并通过多次聚类对各个样本的权重进行修改,权重小的多数类样本即处于多数类的中心区域;然后按权重大小对多数类样本进行欠抽样,使位于中心区域的样本较容易被抽中,并与所有少数类样本组成Bagging成员分类器的训练数据,得到若干个决策树子分类器;最后根据各子分类器的正确率进行加权投票生成预测模型。实验结果表明,该方法充分利用了少数类和多数类的分布信息,抽样所得样本较好地保持了多数类信息,同时有效缩小了数据集规模,提高了分类器的分类性能。