关键词:
离群点检测
大数据
脑与行为关联分析
医学影像
质控
摘要:
背景及目的:
高质量的数据是使分析产生可靠结果并得出可信赖的结论的前提条件。随着技术的进步,包括医学影像在内的很多学科领域已步入大数据时代。对数据进行人工检查已无法满足大数据时代所面临的海量数据分析的要求,因此,各种自动化离群值检测方法成为必须。目前国际上针对大样本数据的离群样本点检测如何选择合适的方法尚未形成共识,也缺乏对不同离群点检测方法的系统性比较研究。针对这一问题,本研究利用九种经典的多变量、无监督的离群值检测方法对一套真实的影像遗传学大样本数据集以及一套仿真数据集进行了离群值检测,系统比较了九种方法所检测出的离群样本点的异同,并探究了其对后续脑影像数据和认知行为学数据之间关联分析的影响,旨在为大样本数据分析场景下的离群值检测选择合适的方法提供参考。
材料与方法:
本研究使用的真实数据集为中国健康汉族人群影像遗传学大样本队列数据库(Chinese Imaging Genetics Study,CHIMGEN)中的认知行为学数据和脑结构影像数据。首先,基于CHIMGEN中的八类认知行为学数据,分别利用九种离群点检测算法,包括基于K近邻求和(KNN-SUM)、基于K近邻累加求和(KNN-AGG)、局部离群因子(LOF)、局部距离离群因子(LDOF)、基于连接的离群因子(COF)、自然离群因子(NOF)、基于反向K近邻的离群点检测(INFLO)、基于密度的空间聚类算法(DBSCAN)和孤立森林(i FOREST)进行离群点检测。其次,对每类认知行为学数据的九种方法检测结果在十个离群点比例阈值(0.5%,1%,3%,5%,10%,15%,20%,30%,40%,50%)上进行比较分析。具体地,针对每类行为学数据以及每个阈值,从四个方面对不同方法检测出的离群点进行了比较:(1)不同数量的方法同时检测出的离群点占所有方法检测出的总离群点个数的比例,以及不同方法检测出的离群点的重叠率;(2)基于不同方法(DBSCAN除外)所计算出的样本离群分数之间的斯皮尔曼相关系数;(3)基于不同方法所检测出的离群点在各数据维度之间的各向异性分数以评估不同方法所检测的离群点在数据离群维度方面的异同;(4)利用线性回归方程分别在去除离群点前后进行脑灰质体积影像学指标和认知行为学数据之间的关联分析,以考察基于不同方法检测的离群点对脑与行为关联分析结果的影响。除真实数据集外,我们还产生了五套具有不同维度的仿真数据,进一步考察了数据维度对不同离群点检测方法的影响。
结果:
本研究主要发现以下四个结果:(1)低阈值(即离群值检测比例较低)的情况下,只被一种方法检测出的离群点占总离群点的比例高达50%以上,随着阈值的增大,该比例逐渐降低;(2)KNN-SUM和KNN-AGG方法、KNN-SUM与DBSCAN方法、KNN-AGG与DBSCAN方法检测出的离群点重叠率较高,达到80%以上;(3)真实数据与仿真数据均提示在低维度数据上INFLO方法对样本离群程度的评估和其它方法差异很大,而在高维度数据上NOF方法对样本离群程度的评估和其它方法差异很大;(4)分别针对不同方法所检测的离群点,均表现出将离群点去除后的脑影像-行为关联分析的模型拟合度F值相较于去除前要显著升高,且随着阈值的升高呈现先上升后下降的趋势,但不同方法之间未表现出明显差异。
结论:
基于上述结果,本研究可得到以下三点结论:(1)总体来讲,不同方法所检测出的离群点差异较大,尤其是当离群点检测比例设定较低时;相比较而言,本研究所涉及的九种方法中,KNN-SUM、KNN-AGG与DBSCAN三种方法所检测到的离群点的相似性较高;(2)INFLO方法和NOF方法对样本离群程度的评估会受到量表数据维度较大的影响;对低维数据应尽量避免使用INFLO方法,而对高维数据应尽量避免使用NOF方法。(3)针对不同离群点检测方法所检测出的离群点分别予以去除后,通过线性回归分析所得到的脑影像指标与认知行为数据的关联程度在不同方法之间差异较小,但不论用何种离群点检测方法,去除离群点后脑影像指标与认知行为数据的关联程度均有显著提升,说明大样本数据中的离群点仍会对线性回归分析结果产生不利影响,说明大样本数据质控过程中对离群点进行检测十分必要。