关键词:
肺纤维化
自噬
机器学习
生物信息学
免疫浸润
最小绝对收缩与选择算子
基因富集分析
工程化组织构建
摘要:
背景:肺纤维化的早期诊断是及时开展抗纤维化药物治疗的基础,因此,探索并发现能够有效应用于肺纤维化早期诊断的理想生物标志物对疾病治疗至关重要。目的:通过生物信息学和机器学习技术对肺纤维化过程中涉及的与自噬相关关键基因进行深入分析,探究与自噬相关的肺纤维化核心基因是否可以作为评估肺纤维化进展中可靠的生物标志物。方法:基于GEO数据库(是由美国国家生物技术信息中心开发和维护的一个公共数据库,用于存储和共享生物信息学数据)下载肺纤维化GSE24206和GSE110147两个数据集,利用R软件中的“limma”包将两组基因表达矩阵归一化处理。从GeneCards数据库(由美国国家生物技术信息中心创建,该知识库自动整合了约200个Web来源的以基因为中心的数据,包括基因组、转录组、蛋白质组、遗传、临床和功能信息)提取自噬相关基因集;对肺纤维化数据集进行差异基因分析,将差异基因与自噬基因集交叉对比提取共同基因,识别肺纤维化过程中可能发挥作用的自噬基因。交集基因通过GO、KEGG进行功能富集和细胞免疫浸润分析。通过蛋白质-蛋白质相互作用和机器学习筛选与自噬相关的肺纤维化核心基因,并对核心基因进行集富集分析。将筛选出的核心基因构建诊断模型,用校准曲线来评估线形图模型的预测能力,采用外部数据集GSE21369进行受试者工作特征曲线分析,验证与自噬相关的肺纤维化基因的表达特征,通过Coremine数据库预测与基因IL6、COL1A2相关的中药。培养人胚肺成纤维细胞,通过转化生长因子β1处理造模,利用qRT-PCR技术验证IL6、COL1A2在模型细胞中的相对表达。结果与结论:①获得肺纤维化差异基因51个、与自噬基因交集基因25个,GO分析显示25个交集基因与细胞外基质组织、胶原代谢过程、胶原原纤维组织、生长因子结合等过程有关,KEGG分析显示25个交集基因主要与磷脂酰肌醇3-激酶-蛋白激酶B信号通路、细胞外基质-受体相互作用等信号通路有关;②免疫浸润分析发现,肺纤维化组活化记忆性CD4+T细胞、M0巨噬细胞、静息树突状细胞表达显著升高(P<0.05),呈强相关性;③共筛选出2个参与肺纤维化进展的自噬特征基因:COL1A2、IL6,列线图模型显示两核心基因预测肺纤维化的发病较为准确,受试者工作特征曲线分析显示2个特征基因均具有诊断意义;COL1A2、IL6与细胞周期通路、丝裂原活化蛋白激酶信号通路、Janus激酶-信号转导与转录激活子信号通路以及细胞因子与细胞因子受体相互作用相关;预测到与COL1A2、IL6相关的中药共20味,功效以清热解毒、活血行气为主;细胞实验验证了COL1A2、IL6在肺纤维化中高表达。结果表明:COL1A2、IL6可能是肺纤维化潜在的诊断生物标志物,但是它们与肺纤维化相关的特异性尚需进一步研究。