关键词:
机器学习
泥石流
易发性评价
域自适应
异质性
摘要:
泥石流易发性评价是泥石流防治工作中的一个重要环节,合理可靠的评价结果可为相关地区制定科学的防灾减灾方案提供重要依据。得益于遥感技术、地理信息系统、全球定位系统与计算机技术的发展,泥石流易发性评价技术已日趋成熟与完善。机器学习方法具有强大的非线性处理能力及鲁棒性等优势,近年来得到了广泛应用。现有的相关研究大多基于单一研究区域进行建模分析,在实际应用中,仍存在一些难题亟待解决。例如单一研究区域泥石流的样本数量较少时可能出现的少量缺陷数据严重影响模型表现以及样本代表性不足等问题。此外,当研究者面对多个研究区域时,基于单一研究区域建立的模型通常缺乏对其余研究区域的泛化能力,而泥石流易发性评价的目的在于为所有研究区域的用地规划以及防灾减灾工作提供统一的决策依据,对多个研究区域分别进行独立易发性评价还会出现评价标准不一的问题,进而影响最终决策的合理性。本文首先以提升模型性能为目的,选定北京市房山区为实例研究区对泥石流易发性评价过程中的负样本获取策略以及机器学习算法进行优选。随后引入域自适应理论,基于迁移成分分析方法,提取房山区与陇南地区的燕子河流域的共同特征进行联合评价,为机器学习应用于多区域泥石流易发性评价提供理论途径。为了降低样本异质性对模型的影响,本文以四川省北川县为实例研究区,探究无监督聚类方法在解决样本异质性问题中的应用。模型性能的提升、不同研究区域的域自适应与样本异质性问题的解决使得机器学习模型可以被推广至多个研究区域,最终本文结合上述研究成果完成了多区域的泥石流易发性评价。论文的主要工作与成果如下:1.对泥石流易发性评价的发展历程、不同研究区域的域自适应方法以及样本异质性的解决方案进行了系统性回顾,并详细阐明了泥石流易发性评价过程中的数据收集处理方法及模型的建立与评价方法。2.提出了多种泥石流负样本获取策略以提升负样本的可靠性。以房山区为实例研究区,在单网格、多网格与流域单元作为基本样本表征形式的条件下分别基于支持向量机(Support vector machine,SVM)算法、SPY技术与孤立森林(Isolation forest,IF)算法来获取泥石流负样本,并与对应的泥石流正样本相结合形成了9组建模数据集。基于各组数据集分别进行了评价因子分析与建模预测来比较不同负样本获取策略的优势与缺陷。结果表明,基于SVM算法的负样本获取策略较为依赖分类器性能,整体表现较不稳定。基于SPY技术的负样本获取策略对数据集要求较低,且对算法无明显依赖,能够改善多组数据集质量。基于IF算法的负样本获取策略的假设条件与流域单元数据集符合地很好,可被用于提高相应数据集的质量。3.结合不同样本表征形式与负样本获取策略形成的9组数据集,基于SVM、随机森林(Random forest,RF)、梯度提升树(Gradient boosting decision tree,GBDT)以及Stacking算法完成了36组机器学习模型的训练与评价。结果表明,Stacking模型具有较高的预测准确度,但其模型复杂度明显大于其余模型,且训练预测效率较低。RF模型在预测准确度、模型复杂度与训练预测效率三个方面表现较为均衡,是一种易于推广的优质算法。4.引入域自适应理论,采用迁移成分分析方法,提取不同研究区域的共同特征,实现了不同研究区域的联合评价。论文以房山区与燕子河流域为实例研究区,基于迁移成分分析方法将两研究区域的特征矩阵投影至共同的特征空间。选取RF为建模算法,基于两研究区域的样本来共同建立一个统一模型,并与基于单一研究区域样本建立的传统模型进行比较分析。结果表明,统一模型预测准确度虽不及传统模型,但统一模型的建立可有效缓解单一研究区域的样本短缺问题,提高建模效率。另一方面,统一模型的敏感性、特异性、准确率与AUC分别达到了82.2%、79.6%、80.6%与0.84,该模型表现仍是令人满意的。5.提出了基于无监督聚类方法的泥石流样本异质性的解决方案。论文以北川县为实例研究区,优选出模糊C均值聚类算法将研究区样本划分为4类。对各类数据集进行了评价因子分析并建立了个性化模型,并与基于总数据集获取的评价因子及全局模型进行了对比。结果表明,相同的评价因子在各类数据集中能发挥的预测能力具有较大差异,展现出该区域泥石流样本较强的异质性。另一方面,大部分评价因子在各类数据集中预测能力强于总数据集,最终个性化模型的总体表现也优于全局模型。因此,模糊C均值聚类算法在样本异质性问题的解决中具有良好的应用前景。6.进行了多区域的泥石流易发性评价。以流域单元为样本表征形式,基于迁移成分分析方法提取了3个研究区域的共同特征。将3个研究区域视作一个整体,基于模糊C均值聚类算法对所有样本统一进行类型划分以降低泥石流样本的异质性对模型的影响。基于各个类型中的样本分别进行共同特征分析并建