关键词:
信息量法
机器学习模型
ROC曲线
易发性评价
模型解释
摘要:
中国山区面积广大,地质灾害分布广泛且愈发频繁,如何获得准确的易发性评价结果是防灾减灾工作的关键。为构建高精度的易发性评价模型并进行可解释性分析,以山西省忻州市的繁峙县、代县和五台县为研究区,基于地理信息系统,选取14个影响因子,运用方差膨胀因子(variance inflation factor,VIF)和容差(tolerance,TOL)两个指标进行多重共线性检验筛选因子,构建易发性评价体系。运用信息量模型(information method,IM)辅助选取非灾害样本,并与灾害点样本组合形成完整的数据集,随后使用人工神经网络(backpropagation neural network,BP)、随机森林(random forest,RF)和极致梯度提升算法(extreme gradient boosting,XGBoost)三种机器学习方法构建易发性评价模型。基于效果最优的模型,运用SHAP(shapley additive explanations)算法进行解释。结果显示:随机森林方法构建的易发性评价模型表现最佳,其受试者工作特征(receiver operating characteristic,ROC)曲线下面积最大,具有更合理的分级区间和更高的预测精度;预测结果显示,极高易发区多分布在靠近山区道路和河流的区域,面积占比达到21.2%;SHAP分析表明地质灾害主要受地形起伏度、植被指数、距道路距离等八项因素影响;依赖性分析和局部解释进一步揭示了特征因子对预测结果的具体影响,可为该区域的灾害防治和了解灾害的发生规律提供指导。