关键词:
随机森林
XGBoost
AdaBoost
认知异常
相关因素
摘要:
目的:本研究应用随机森林、XGBoost和AdaBoost模型筛选中国健康与养老追踪调查数据库与认知有关的变量,再使用logistic回归模型对筛选后的数据进行分析,以探求中国45岁及以上中老年人影响认知的相关因素,为该人群认知情况的了解及其预防提供科学依据。
方法:
1.本研究使用2018年中国健康与养老追踪调查数据(CHARLS),调查对象为45岁及以上人群。采用标准认知调查问卷和认知状态电话访谈(Telephone Interview of Cognitive Status,TICS)量表评价研究对象的认知状况。参考既往文献,分别按照不同年龄段、教育程度和性别计算认知功能总分的均值减去1倍标准差,高于此界值则评定为正常,否则则评定为认知异常(Cognitive Abnormalities,CA)。
2.将整理好的数据按4:1的比例划分为训练集和测试集,并对训练集进行降采样处理,使其成为平衡数据,利于模型建立。
3.使用训练集数据分别构建随机森林、AdaBoost和XGBoost三种机器学习模型,根据三种模型计算出各自变量的重要性排名,通过向前变量选择法,逐步引入变量,以AUC面积作为衡量标准,筛选出最佳变量组合,以这些最佳变量组合构建logistic回归模型。比较三组logistic回归模型,选出最佳模型的变量进行进一步的解释说明。
4.本研究使用python3.9.7软件建立随机森林模型、XGBoost和AdaBoost模型,应用R4.3.0软件进行logistic回归分析,P≤0.05为差异有统计学意义。
结果:
1.本研究最终有13269个观察单位,认知异常患病率为17.24%。其中男性6735人,患病率为12.20%;女性6534人,患病率为21.14%。经过4:1的比例划分训练集和测试集后,训练集有观察单位10615人,患病率为17.15%,测试集有观察单位2654人,患病率为17.63%。
2.训练集CA1820人,非CA8795人,经过欠采样处理非CA为1820人,二者比例为1:1,数据达到平衡,训练集共有样本量为3640人。
3.随机森林模型筛选出了75个变量,构建logistic回归模型,筛选出了24个变量;XGBoost模型筛选出了159个变量,构建logistic回归模型,筛选出27个变量;AdaBoost筛选出了32个变量,构建logistic回归模型,筛选出26个变量。随机森林模型结合logistic回归BIC值为4531.039,5折交叉准确率为69.31%;XGBoost模型结合logistic回归模型BIC值为4555.334,5折交叉准确率为67.20%;AdaBoost模型结合logistic回归模型BIC值为4450.550,5折交叉准确率为70.80%,AdaBoost模型结合logistic回归模型均略优于随机森林模型联合logistic回归模型和XGBoost模型联合logistic回归模型,因此选择AdaBoost模型结合logistic回归模型筛选出的变量进行解释分析。
***模型结合logistic回归模型结果:经济因素中最近一周烟酒等花销大OR值大于1;家具家电及耐用消费品支出大、电子货币存款多、金融机构存款多、过去一年领到工资OR值均小于1。健康状况与功能指标中15岁以前的身体状况一般、自评健康非常满意、填写问卷求助程度、走1公里无法完成、去商店买食品杂货无法完成、家里没有电话、有腰疼OR值分别为1.822、1.603、1.449、1.416、1.881、1.690、0.748。体检指标中最近常规检查男女专科、常规检查心电图OR值分别为1.926、0.523。住房情况指标中室内整洁度一般、居住房屋可以宽带上网OR值分别为1.417、0.728。基本信息和生活习惯指标中男性、大专及以上学历、汉族、主要生活在城乡或镇乡结合区、若需要有配偶可以照顾、每周喝1-6次啤酒、一个月内有上网社交为认知异常的保护因素,OR值分别为0.611、0.240、0.651、0.626、0.765、0.428、0.501;80岁及以上年龄、婚姻一点也不满意、最近一个月睡眠时间超过8小时为认知异常的危险因素,OR值分别为1.776、2.465、1.352。
结论:
1.本研究数据AdaBoost模型联合logistic回归模型的组合优于随机森林模型组合和XGBoost模型组合。
2.本文最终筛选出了26个CA相关变量。CA患病风险男性低于女性,汉族低于少数民族。认知异常的相关因素有年龄、婚姻满意度、睡眠时长、15岁以前的身体状况、自评健康状况、室内整洁程度、文化程度、生活区域、饮酒频率等。经济指标显示经济越好越有利于延缓认知衰退。生活能力指标显示随着能力的