关键词:
子宫颈肿瘤
甲基化
甲基化单倍型负荷
机器学习
朴素贝叶斯模型
摘要:
目的利用人基因的甲基化特征,构建预测宫颈癌及癌前病变的机器学习预测模型。方法对2014年4月至2015年3月来自中国医学科学院肿瘤医院、天津市中心妇产科医院、河南省新密妇幼保健院、四川大学华西第二附属医院和山西长治医学院附属和平医院的224例宫颈脱落细胞标本进行人DNA甲基化检测,通过CpG高密度、高关联、高甲基化基因片段筛选和LASSO回归算法,筛选出与宫颈癌病变相关的高甲基化基因片段。以宫颈上皮内瘤变2级(CIN2)及以上病变为研究结局,以144例门诊患者标本为训练集,构建随机森林(RF)、朴素贝叶斯(NB)和支持向量机(SVM)3种机器学习预测模型,以80例参与宫颈癌筛查项目女性的宫颈脱落细胞标本为验证集对预测模型进行验证。以组织学诊断结果为金标准,比较3种机器学习预测模型与HPV检测和细胞学诊断对CIN2及以上病变的检出效能。结果训练集144例中,HPV阳性34例,阳性率为23.61%。细胞学诊断为无上皮内病变或恶性细胞(NILM)37例,不能明确意义的非典型鳞状上皮细胞(ASC-US)及以上病变107例。组织学诊断为未见宫颈上皮内病变或宫颈良性病变28例,CIN131例,CIN218例,CIN331例,鳞癌36例。从45个基因中筛选出7个高甲基化基因片段,构建了RF、NB和SVM机器学习预测模型。验证集80例中,HPV阳性28例,阳性率为35.00%。细胞学诊断为NILM 65例,ASC-US及以上病变15例。组织学诊断为未见宫颈上皮内病变或宫颈良性病变39例,CIN110例,CIN210例,CIN311例,鳞癌10例。在验证集中,RF模型、NB模型、SVM模型、HPV检测和细胞学诊断CIN2及以上病变的受试者工作特征曲线下面积(AUC)分别为0.90、0.88、0.82、0.68和0.45。DeLong检验显示,RF模型、NB模型和SVM模型的AUC差异无统计学意义(两两比较均P>0.05),RF模型、NB模型的AUC高于HPV检测(均P<0.01),RF模型、NB模型、SVM模型的AUC高于细胞学诊断(均P<0.01)。RF模型与NB模型相比,灵敏度相近(分别为80.65%和77.42%),但NB模型的特异度远高于RF模型(分别为93.88%和73.47%)。结论基于人DNA甲基化构建的宫颈癌及癌前病变机器学习预测模型中,NB模型对CIN2及以上病变的预测效能良好,或可用于女性的宫颈癌及癌前病变筛查。