关键词:
抑郁症
logistic回归
BP神经网络
支持向量机
分类模型
摘要:
目的:抑郁症是当前社会广泛存在且日益严峻的心理疾病,其不仅严重影响患者的身心健康,也给患者的家庭和整个社会造成沉重负担。迄今为止,抑郁症的发病机制尚不清楚,但已有许多研究发现其与复杂的遗传因素、表观遗传因素和环境相互作用有关,例如TPH2基因相关位点的甲基化水平与抑郁症等心理疾病的发生、发展存在不同程度的关联。本文结合实例数据,围绕抑郁症患者的识别与抑郁症的预后情况预测问题,构建了基于logistic回归、BP神经网络和支持向量机的三种分类模型,初步实现对抑郁症患者的识别和预后情况的预测,为临床工作者对抑郁症患者的病情诊断和预后评估提供一定的模型选择参考。方法:根据纳入和排除标准,在南京中大医院收集了共计291位确诊抑郁症的住院病人和共计100位同期参加体检的健康对照的相关资料,主要收集信息包括研究对象的个体基本信息、生活事件得分、儿童期创伤问卷得分和根据外周血样本测得的TPH2基因的38个位点的甲基化水平。对收集数据进行清洗、核查,对缺失数据进行分组中位数填补。利用卡方检验、t检验和基于秩的非参数检验对可能影响抑郁症发病和预后的因素进行单因素筛选,用多因素逐步logistic回归进行多变量筛选,综合两者结果并结合临床专业人员的建议,从上述资料中筛选出可能的影响因素。将上述筛选出的变量作为输入变量,分别将是否为抑郁症患者和治疗2周后汉密尔顿抑郁量表得分下降是否超过50%为因变量,建立logistic回归、BP神经网络和支持向量机三种分类模型,通过经验法结合试凑法求得各模型的最佳参数组合,采用10折交叉验证对各模型的泛化性能进行评估,以约登指数最大时的概率作为界值进行分类,通过灵敏度、特异度、阳性预测值、准确度、G-mean、F-measure和受试者特征曲线及受试者特征曲线下面积来评价和比较三种模型的综合性能。本研究采用R 3.6.2对数据进行处理及分析。结果:根据研究目的,本研究结果主要分为以下两部分:(1)对抑郁症患者的识别筛选了16个可能与抑郁症相关的变量:性别、负性生活事件得分、儿童期创伤问卷得分和13个位点的甲基化水平(TPH2_11_86、TPH2_11_121、TPH2_11_154、TPH2_3_92、TPH2_4_156、TPH2_5_203、TPH2_7_54、TPH2_7_184、TPH2_8_106、TPH2_9_117、TPH2_9_142、TPH2_9_160、TPH2_9_178);将16个变量作为模型的输入变量,分别用来训练基于不同变量筛选标准的logistic回归模型(全部进入和逐步回归)、BP神经网络模型和基于四种核函数(线性核函数、径向基核函数、多项式核函数和sigmoid核函数)的支持向量机模型。对于模型各参数,均采用经验法结合试凑法进行确定,选择10折交叉验证测试集误判率最小时的参数组合。结果发现,以约登指数最大时的概率为界值,全部进入的logistic回归10折交叉验证的灵敏度为0.653,特异度为0.840,阳性预测值为0.922,准确度为0.701,G-mean为0.741,F-measure为0.765,AUC为0.802;BP神经网络的最佳隐层神经元个数为2,因此构建16-2-1的神经网络模型,其10折交叉验证的灵敏度为0.900,特异度为0.800,阳性预测值为0.929,准确度为0.875,G-mean为0.849,F-measure为0.914,AUC为0.875;对于支持向量机,径向基核函数表现最好。其最优参数组合为cost=5,gamma=0.5,10折交叉验证的灵敏度为0.900,特异度为0.920,阳性预测值为0.970,准确度为0.905,G-mean为0.910,F-measure为0.934,AUC为0.956。(2)对抑郁症患者预后情况的预测筛选了15个可能与抑郁症的预后相关的变量:性别、年龄、负性生活事件得分、儿童期创伤问卷得分、8个位点的甲基化水平(TPH2_1_154、TPH2_2_139、TPH2_2_217、TPH2_5_203、TPH2_7_142、TPH2_7_170、TPH2_8_237、TPH2_9_134)、有无伴侣、首次发病年龄和发病次数;将15个变量作为模型的输入变量,分别用来训练基于不同变量筛选标准的logistic回归模型(全部进入和逐步回归)、BP神经网络模型和基于四种核函数的支持向量机模型。对于模型各参数,均采用经验法结合试凑法进行确定,选择10折交叉验证测试集误判率最小时的参数组合。结果发现,以约登指数最大时的概率为界值,全部进入的logistic回归10折交叉验证的灵敏度为0.661,特异度为0.586,阳性预测值为0.721,准确度为0.632,G-mean为0.622,F-measure为0.690,AUC为0.6