关键词:
生物信息学
机器学习
阿尔兹海默症
诊断模型
腺苷酸环化酶激活多肽1基因
摘要:
目的:利用生物信息学技术和机器学习(ML)算法筛选阿尔兹海默症(AD)相关基因并构建其诊断模型,探讨AD患者的免疫学特征,为AD诊断提供新的生物标志物。方法:从基因表达综合(GEO)数据库中下载AD相关的基因表达数据集GSE125583,通过差异分析获得差异表达基因(DEGs),借助基因本体论(GO)功能富集分析和京都基因与基因组百科全书(KEGG)信号通路富集分析探讨DEGs的生物学功能及信号通路,并绘制蛋白-蛋白相互作用(PPI)网络,采用Cytoscape软件和最小绝对收缩和选择算子(LASSO)回归、极限梯度提升(XGBoost)和随机森林(RF)3种ML算法对枢纽(Hub)基因进行筛选,将筛选后的Hub基因通过RF构建AD诊断模型并进行特征重要性排序,以测试集评价AD诊断模型和关键基因的效能。采用单样本基因集富集分析(ssGSEA)对AD组与对照组进行免疫细胞浸润分析。结果:差异分析共筛选出1287个DEGs。GO功能富集分析,DEGs主要参与神经信号、突触和囊泡等相关的生物学功能;KEGG信号通路富集分析,DEGs主要在离子转运、神经递质和配体门控等通路上富集。3种ML算法共筛选出9个交集Hub基因。AD诊断模型,对AD诊断性能最高的前4个关键基因分别为腺苷酸环化酶激活多肽1(ADCYAP1)、脑源性神经营养因子(BDNF)、血小板衍生生长因子受体β(PDGFRB)和趋化因子受体4(CXCR4),对应受试者工作特征(ROC)的曲线下面积(AUC)值分别为0.852、0.795、0.820和0.756;模型的AUC值为0.828,准确率为81.25%,灵敏度为84.40%,特异度为71.43%。免疫细胞浸润分析,AD组织中巨噬细胞、单核细胞、各种自然杀伤(NK)细胞和淋巴细胞浸润程度较高,其中,NK细胞/自然杀伤T(NKT)细胞和浆细胞样树突状细胞与4个关键基因显著相关(P<0.05)。结论:基于生物信息学技术与ML算法筛选出的特征基因对AD具有一定的诊断能力,ADCYAP1等基因可能会成为AD诊断的潜在生物标志物,对AD的早期防治具有重要意义。