关键词:
不确定性肺结节
机器学习
拉曼光谱
血小板
TCR免疫组库
摘要:
肺癌是全球发病率和死亡率最高的肿瘤。我国肺癌的5年生存率仅为16%,早期诊断可以显著改善肺癌患者结局。低剂量计算机断层扫描(Low-Dose CT,LDCT)是国际公认为有效的肺癌早期诊断方法,基于LDCT的肺癌筛查已经在美国和欧洲有效地降低20%-26%的肺癌死亡率。随着健康意识的提高,LDCT检查的人数不断增加,导致肺结节的检出率增加。肺结节并不总是指示肺癌,超过96%的阳性筛查结果属于假阳性,72%的被筛查者需要随访,其中有18.5%为不确定性肺结节(Indeterminate Pulmonary Nodules,IPNs),12%-50%经手术切除的IPNs为良性。过高的假阳性导致过度诊断、过度治疗、医疗资源浪费以及受检者心理焦虑增加,因此鉴别诊断IPNs是一个重要的临床和社会问题。除了有创检查之外,传统肺结节诊断技术主要包括LDCT、肺癌高危临床因素评估和功能成像等。近年来,越来越多新型肺结节诊断标志物的研究被报道。这些研究主要通过从气道上皮细胞、呼出气、肺泡灌洗液、痰液、血液、唾液和尿液中检测具有差异的肿瘤相关核酸、蛋白、细胞等来实现诊断目的。机器学习作为人工智能的一个分支,用于辅助传统和新型肺结节诊断技术的研究日益增多,但尚未能够满足临床对IPNs鉴别诊断的要求。因此鉴别诊断IPNs仍是亟待解决的技术问题。呼出气挥发有机物检测、外周血血小板特征检测、血清拉曼光谱特征检测和外周血TCR免疫组库检测是四种新型的疾病诊断方式。早期研究已经显示它们具有鉴别诊断IPNs的潜在价值。针对IPNs鉴别诊断的临床和技术问题及前期研究基础,本文提出机器学习辅助多种新型低创方法鉴别诊断IPNs的方法与模型。本研究的目的是筛选出可区分IPNs恶性和良性的诊断标志物,采用机器学习方法构建分类器,为IPNs的准确鉴别诊断提供辅助手段。此外,本研究试图阐明新构建的鉴别诊断IPNs分类器的临床适用性,探讨拉曼光谱检测的生物学基础,系统地解析良性和恶性IPNs TCR差异基序,并提供包含IPNs诊断模型的网络服务器。本文的主要研究内容及结果如下:1.本文完成了338例IPNs患者呼出气挥发有机物检测,研究发现包括四氯乙烯、丁醇、甲基硫醚和5-庚-2-酮,6-甲基等四种物质的组合可以在gausspr Poly算法整合下鉴别诊断IPNs。该分类器命名为Lung Voc Doc,其在两个独立验证集的诊断AUC分别为0.6和0.72,在所有独立验证集的阳性预测值为0.8。2.本文完成了419例IPNs患者外周血血小板特征检测和常规医学信息挖掘,研究发现年龄、p PLT、p PCT、b PCT、肺结节直径等五个特征的组合可以在XGBoost算法整合下鉴别诊断IPNs。相应模型命名为SCHC模型,其在内部验证组诊断AUC分别为0.72。SCHC模型在20-30mm肺结节的60岁以上或男性的个体IPNs鉴别诊断上表现良好(AUC>0.8)。该模型在其他中心的独立测试集表现出较差的泛化能力,这可能由提取和检测仪器的不同导致,为进一步技术推广提供了改进方向。3.本文完成了883例患者血清拉曼光谱特征检测,其中IPNs患者663例。基于方差检验完成拉曼光谱差异特征筛选,由差异特征构建的SVM模型(命名为Lung Ra Doc)可以很好区分良性组、恶性组以及健康组。Lung Ra Doc在独立验证组鉴别诊断IPNs的诊断AUC为0.89,阳性预测值为0.93,具有优秀的诊断性能,有潜力在临床实践中辅助IPNs鉴别诊断。Lung Ra Doc诊断效能不受临床分期、病理分型、肺结节大小和肺结节磨玻璃征等重要临床因素干扰。并且,随着临床分期越高,模型预测值越高,说明该模型在疾病恶性程度评估及疾病治疗监测上有应用价值。此外,该方法在小于10mm的肺结节上表现出较好的诊断能力。本文通过蛋白组学方法发现Lung Ra Doc的有效性可能来自于血清中细胞骨架蛋白。细胞骨架蛋白稳定性好,因此该方法不受样本存储时间影响。4.本文完成了109例患者外周血TCR组库特征检测,其中IPNs患者99例。外周血TCR免疫组库检测可以在SVM算法整合下准确鉴别诊断IPNs。相应模型命名为TCRnodseek,独立验证组中AUC为0.80,阳性预测值为0.95,为肺结节的精确诊断提供了辅助手段。该方法具有解释度高,需要样本量少的特点。5.本文还构建了包含5个IPNs鉴别诊断模型的网页服务器(http://***/TB-LNPs),可以在保障数据安全和并行访问基础上免费在线使用,为肺癌防治提供必要的平台支持。综上所述,本文针对临床痛点难点问题,应用机器学习方法辅助基于化学的挥发性有机物检测,基于血液学的血小板特征检测,基于物理学的拉曼光谱检测,以及基于免疫学的免疫组库检测等多个