关键词:
肝细胞癌
早期诊断
基因表达的秩序关系
最小冗余最大相关
支持向量机
摘要:
肝细胞癌(hepatocellular carcinoma,HCC)是一种常见的恶性肿瘤,其在全球癌症相关死亡人数中排名第三。目前,HCC的早期检测方法主要有血清标记物检测与影像学检查。其中,血清标记物的灵敏度不高,无法鉴别大约1/3以上的肝癌患者。影像学检查对于直径<2厘米且分化较好的早期肿瘤的诊断敏感性约50%左右。因此,对于影像学检查难以辨别的早期肝癌组织中发生的微小病理改变,通常采用肝穿刺活组织检查来鉴定,然而活检经常会出现未取到癌组织而发生漏检的情况。事实上,超过80%的肝癌是由肝硬化发展而来。虽然目前已有一些方法可以用于区分HCC和非HCC患者的肝硬化(非癌旁肝硬化),但其预测的准确率却远远不能令人满意。因此,迫切需要更加准确的诊断模型来辅助临床场景下的早期肝癌诊断,从而增加肝癌的治疗机会和生存率。本文在来自不同实验室的1091个HCC样本和242个非癌旁肝硬化样本的基因表达谱数据集中,利用样本内基因表达量的秩序关系(relative expression orderings,REOs)分别获得在95%以上的样本中保持高度稳定、但在两者间逆转的基因对,并将得到的逆转基因对作为用于HCC早期诊断的候选分子标志。然后使用最小冗余最大相关(minimum redundancy maximum relevance,m RMR)和增量特征选择去除不相关特征。最终,我们筛选得到了由11基因对(TRMT112和SF3B1,MFSD5和COLEC10,FDXR和APC2,LAMC1和CHST4,UBE4B和HGF,NCAPH2和APC2,HSPH1和MTHFD2,TMEM38B和AGO3,PLGRKT和COLEC10,HNF1A和APC2,ARPC2和SF3B1)构成的标志。应用支持向量机(support vector machine,SVM)算法进行分类,并进行5-折交叉验证,结果显示此分子标志在训练集中的准确性为100%。进一步地,我们研究了11基因对标志在几个独立数据集上的肝癌识别能力。对于活检取样数据,该分子标志正确分类100%的HCC样本(共99例)与100%的非癌旁肝硬化样本(共44例)。特别地,97例HCC癌旁正常组织和80例HCC癌旁肝硬化组织均被该分子标志分类为HCC。对于手术切除数据,此分子标志将89.63%的HCC样本(共926例)和100%的非癌旁肝硬化手术切除样本(共18例)正确分类。同时,该分子标志还将93.7%的HCC癌旁肝硬化样本(共254例)及100%的HCC癌旁正常组织样本(共644例)分类为HCC。结果表明,11对基因可以作为早期HCC的诊断标志。即使是对于取样位置不准确的微量活检样本(癌旁正常或癌旁肝硬化),该标志可以将HCC及其癌旁组织从非癌旁肝硬化组织中区分开来,并且在个体层面上对肝癌早期诊断有实际和有效的帮助。