关键词:
机器学习
COX回归
预后模型
可解释性
SEER
摘要:
泌尿系统恶性肿瘤,包括肾癌、输尿管癌、膀胱癌和前列腺癌。根据在JNCC(Journal of the National Cancer Center)上发布2022年中国恶性肿瘤疾病负担情况,恶性泌尿肿瘤总发病人数约为23万人,死亡人数约为9万人,在所有癌种中排在了第七位,患者预后显得尤为重要。预后模型在预测癌症患者其疾病的发展进程或其出现特定结局的风险的工作中起着十分重要的作用。目前在临床上已经应用了包括美国癌症联合委员会(American Joint Committee on Cancer,AJCC)TNM分期系统和列线图等多种医学评分预后模型,但这些模型都基于统计回归模型,其预测准确性低,难以满足临床需求。近年来,机器学习模型在临床上的应用发展迅速,但因其缺乏可解释性难以在临床上实际应用。因此,本文使用机器学习算法对泌尿肿瘤患者的生存预后进行预测,并研究选择适用的可解释性方法,以期更高效、更准确和更具有可解释性的预后模型来识别估计生存预后较差的患者,从而改善泌尿肿瘤患者的预后。本研究做出以下工作:
1.使用机器学习模型对膀胱癌患者生存率进行预测,用于更准确地预测膀胱癌患者预后。针对目前膀胱癌预后模型以统计回归模型为主,其预测准确率低的问题,本文利用随机森林(Random Forest,RF)和梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型进行预测。其中GBDT模型的预测效果最好,其中一年生存率的预测准确率达到0.874,AUC(Area Under the Curve)值达到0.833,与作为对比基准模型的COX回归相比,能够更准确地预测膀胱癌患者的生存率。
2.构建输尿管癌患者的生存率列线图,用于临床更准确地预测输尿管癌患者预后。针对输尿管癌现有传统学预后模型研究不足且AJCC分期系统预测准确率低的问题,本文为输尿管癌患者构建一个列线图模型。通过对列线图可视化,临床工作者能够更方便地对输尿管癌患者进行个体化的预后评估,从而为患者提供更加精准和个性化的治疗方案。
3.分析基于可解释性机器学习模型的输尿管癌患者生存率预测,确定适用于临床应用的最佳方案。使用基于RF和GBDT模型进行预测,并对模型进行评估。对于模型的可解释,使用了多种可解释性方法,包括特征排序重要性、部分依赖图(Partial Dependence Plot,PDP)、个体条件期望图(Individual Conditional Expectation,ICE)、全局代理模型(如决策树)等,来确定对模型预测最具影响力的特征。结果表明,RF模型表现最佳,其AUC值相比于列线图提升了4.3%。对于模型的可解释性,全局代理的决策树模型更适合临床实际应用。最终得到基于RF的输尿管癌生存预测模型结合全局代理的决策树模型可用于临床上对输尿管癌患者的生存预测分析。
本文利用机器学习算法对膀胱癌和输尿管癌患者的生存预后进行预测,提高了预测准确性,满足了泌尿肿瘤患者预后的临床需求。此外,对基于机器学习的输尿管癌生存预测模型使用了多种事后可解释性方法进行分析,最终选定全局代理模型为最优方法,与输尿管癌生存预测模型相结合,可用于临床上的实际应用,进而辅助医生进行临床决策。