关键词:
早发型子痫前期
计算生物学
机器学习
基因表达
细胞微环境
巨噬细胞
摘要:
目的通过生物信息学分析及机器学习方法探索早发型子痫前期(early-onset pre-eclampsia, EOSP)的特征基因及相关免疫细胞浸润分析。方法在基因表达综合(Gene Expression Omnibus, GEO)数据库中, 以"early-onset pre-eclampsia"为检索词, 检索EOSP与正常妊娠的胎盘组织mRNA序列。采用R语言对芯片数据进行背景校正、标准化、汇总和探针质量控制, 下载注释包进行ID转换, 提取表达矩阵, 使用limma软件包分析去除批次效应后的元数据中EOSP与正常妊娠之间差异表达基因(differentially expressed genes, DEGs)。通过支持向量机递归特征消除(support vector machine-recursive feature elimination, SVM-RFE)分析和LASSO回归模型识别特征基因。通过计算受试者工作特征曲线的曲线下面积(area under the curve, AUC)分析特征基因的诊断能力。然后回顾性收集2022年1月1日至2023年2月28日在首都医科大学附属北京妇产医院分娩的15例EOSP及15例正常妊娠孕产妇的胎盘组织, 应用实时荧光定量聚合酶链反应和蛋白质印迹法验证特征基因的表达情况, 并在验证集中进一步验证。最后, 使用CIBERSORT分析EOSP中免疫细胞浸润的相对比例。组间差异分析采用t检验。结果共检索获得3个基因数据集, 包括GSE44711(EOSP与正常妊娠各8例)、GSE74341(EOSP与正常妊娠分别为7例和5例)及GSE190639(EOSP与正常妊娠各13例), 合并GSE44711和GSE74341数据集后共筛选出了29个DEGs, 其中包括27个上调及2个下调的基因。GO富集分析结果显示这29个DEGs主要参与促性腺激素分泌、女性妊娠、调控内分泌过程、内分泌激素分泌及激素分泌的负调节过程。通过LASSO回归算法及SVM-RFE算法联合分析共筛选出8个特征基因, 分别为EBI3、HTRA4、TREML2、TREM1、NTRK2、ANKRD37、CST6及ARMS2;定量逆转录聚合酶链反应和蛋白质印迹法验证特征基因的表达差异均有统计学意义(P值均<0.05, CST6除外)。Logistic回归分析结果显示, TREML2、ANKRD37、NTRK2、TREM1、HTRA4、EBI3及ARMS2的AUC(95%CI)分别为0.979(0.918~1.000)、0.969(0.897~1.000)、0.969(0.892~1.000)、0.979(0.918~1.000)、0.990(0.954~1.000)、0.990(0.954~1.000)、0.903(0.764~1.000)。免疫细胞浸润结果显示EOSP胎盘组织中的M2巨噬细胞的浸润比例显著低于对照组(0.167±0.074与0.462±0.091, P=0.002), 但单核细胞和嗜酸性粒细胞的浸润比例明显高于对照组(0.201±0.004与0.085±0.006, 0.031±0.001与0.001±0.000, P值均<0.05);特征基因与浸润性免疫细胞之间的相关性分析结果显示7个特征基因与免疫细胞之间密切相关(P值均<0.05)。结论通过生物信息学分析及机器学习方法筛选出7个对于EOSP的早期诊断具有重要意义的特征基因, 为后续子痫前期的预防及治疗提供了新的研究靶点和依据。