关键词:
影像组学
黏液性卵巢癌
随机森林
支持向量机
逻辑回归
摘要:
研究背景与目的:黏液性卵巢癌(mucinous ovarian carcinoma,MOC)是上皮性卵巢癌中相对少见的一种亚型,约占3%-5%。位于卵巢的黏液性癌一部分为卵巢原发,另一部分可由消化道、胰腺、子宫、乳腺等部位转移而来,两者临床表现较为相似,而且发病率较低,发病原因尚不明确,致使关于原发性与转移性MOC的研究较少,因此目前原发性与转移性MOC的鉴别相对困难,误诊率较高。影像组学可从影像图像中提取肉眼无法分辨的高维信息,通过机器学习算法对各种信息进行处理,在疾病的早期诊断、分期分型以及预后分析等方面发挥重要作用。本研究通过对MOC临床特征和影像组学特征的分析,建立影像组学模型和临床-影像组学模型鉴别原发性与转移性MOC,为临床诊断提供参考。材料与方法:回顾性分析67例经病理证实的MOC患者,其中原发性MOC患者45例,转移性MOC患者22例,按照7:3的比例划分训练集(47例)与测试集(20例)。利用3D Slicer软件沿患者增强CT静脉期(VP)影像图像的肿瘤区域逐层进行手动勾画,生成感兴趣区(Region of interest,ROI),并导入3D Slicer软件中的Radiomics插件中进行特征提取,将提取的特征使用t检验或Wilcoxon符号秩和检验以及最小绝对收缩与选择子算法(The least absolute shrinkage and selection operator,LASSO)进行影像组学特征筛选并通过随机森林、支持向量机和逻辑回归3种机器学习方法分别建立影像组学模型,并使用受试者工作特征曲线(ROC)及曲线下面积(AUC)、灵敏度、特异度和准确度等效能参数评估和比较影像组学模型中3种机器学习算法的预测性能。接下来,收集原发性与转移性MOC患者的年龄、HE4、CA125、CA199、AFP、CEA、PLT、白细胞、肿瘤直径、肿瘤单双侧以及有无腹水等临床特征,并比较原发性与转移性MOC在临床特征之间的差异,筛选有意义的临床特征,P<0.05有统计学意义。将临床特征以及增强CT的VP影像图像提取的影像组学特征联合并使用同样的3种机器学习算法建立临床-影像组学模型,进一步对3种临床-影像组学模型进行评估和比较。最后,将整个数据集随机分解50次,建立不同的训练集及测试集,使用AUC值与准确度比较影像组学模型与临床-影像组学模型的预测效能。结果:(1)在影像组学模型中,通过Radiomics插件从增强CT的VP图像中共提取851项影像组学特征,通过两独立样本t检验或Wilcoxon符号秩和检验筛选出的影像组学特征共10项,包含4项形状特征和6项小波变换特征。LASSO回归算法进行特征降维后,筛选出6项影像组学特征建立影像组学预测模型。(1)影像组学随机森林模型在训练集的AUC值为0.975(95%CI 0.969-0.981),准确度为97.1%(95%CI 96.4%-97.8%),灵敏度为96.0%,特异度为100.0%;测试集的AUC值为0.725(95%CI 0.700-0.7501),准确度为67.1%(95%CI 64.6-69.7%),灵敏度为71.0%,特异度为75.0%。(2)影像组学支持向量机模型在训练集的AUC值为0.822(95%CI 0.811-0.832),准确度为:84.9%(95%CI 84.1%-85.7%),灵敏度为96.0%,特异度为74.0%;测试集的AUC值为0.663(95%CI 0.633-0.692),准确度为70.4%(95%CI 67.6-73.2%),灵敏度为65.0%,特异度为73.0%。(3)影像组学逻辑回归模型在训练集的AUC值为0.824(95%CI 0.807-0.840),准确度为84.5%(95%CI 62.7%-69.2%),灵敏度为89.0%,特异度为74.0%;测试集的AUC值为0.660(95%CI 0.627-0.692),准确度为69.7%(95%CI 67.2-72.1%),灵敏度为71.0%,特异度为75.0%。将构建的影像组学模型运行50次,基于随机森林算法的影像组学模型优于其他两种影像组学模型。(2)在临床-影像组学模型中,原发性与转移性MOC在HE4、CA199、AFP、PLT、白细胞、肿瘤直径和有无腹水等临床特征上均无统计学意义(P>0.05),在年龄、CA125、CEA和肿瘤的单双侧上有统计学意义(P<0.05)。将临床特征和851项影像组学特诊在通过两独立样本t检验或Wilcoxon符号秩和检验筛选后得到12项临床-影像组学特征,经过LASSO回归算法降维后得到6项临床-影像组学特征构建3种机器学习模型。(1)临床-影像组学随机森林模型在训练集的AUC值为0.988(95%CI 0.984-0.992