关键词:
易发性评价
支持向量机模型
逻辑回归模型
多层感知机模型
XGboost模型
频率比法
程序化
摘要:
滑坡易发性评价通过分析影响滑坡的不同地质条件组合,评价潜在滑坡的地理空间分布,通常被认为是评估滑坡的首要步骤。以往基于Arc GIS平台实现的滑坡易发性评价经验模型或半定量模型带有一定的主观性,而机器学习算法通过样本来训练模型,能够客观的得出结果,所以被广泛的应用。但Arc GIS平台与机器学习算法兼容性不强,研究者大都是在Arc GIS中进行评价因子相关操作,然后再借助其他软件进行模型训练。这样多平台切换使操作繁琐复杂,同时也无法将这一套操作集成化形成一个简单快速并且不需大量人工操作的自动化易发性评价系统。本文基于机器学习与GIS空间分析等理论,对滑坡自动化易发性评价系统进行研究。主要是通过总结和对比现有的滑坡易发性评价体系方法和结果,对评价因子数据提取、因子分级、特征数据预处理及机器学习模型预测易发区等技术进行探讨,然后利用Python语言将这些技术编程实现并集成为一套完整的滑坡易发性自动化分区程序系统,解决前述的多平台操作问题。取得的主要成果如下:(1)归纳总结了一套程序化可行性大的滑坡自动化易发性评价体系,为后续实现滑坡自动化易发性评价程序提供技术指导。对比分析了滑坡易发性评价过程中运用的各种方法,提出了以栅格单元为基础评价单元、以快速聚类法筛选非滑坡单元、以7种评价因子建立评价指标体系、以频率比法进行因子分级、以四种典型机器学习算法作为评价模型、以ROC曲线及准确率为评判标准和以自然断点法为区划方法的滑坡自动化易发性评价体系。(2)利用Python语言编程实现了评价因子数据提取、分级、预处理等技术。以蓝田县为实例,研究了评价指标体系中高程、坡度、坡向、剖面曲率、地层岩性、降雨量和植被覆盖率等7种因子的数据提取算法,以频率比法对提取出的因子数据进行分级和分析,并对数据集进行预处理,转化为能够直接用于模型训练及预测的数据集。(3)通过频率比法分析了各因子敏感区间与滑坡发生的相关性。统计结果表明:研究区高程在500m~1000m范围内,坡度在10°~35°范围内,降雨量在650mm~800mm范围内,NDVI在0.4~0.6范围内,坡向为西、西北向,坡型为凹型,地层岩性为松散岩组及软硬相间岩组上滑坡频率比大于1,与滑坡发生密切相关。(4)利用Python语言编程实现了逻辑回归模型、多层感知机模型、支持向量机模型、XGboost模型的程序调用与参数优化,并以此对蓝田县进行滑坡易发性评价。以分类准确率,ROC曲线与AUC值三项指标评价模型性能,计算结果表明:四种模型的分类准确分别为:84.43%、82.81%、91.31%、88.15%;四种模型的AUC值分别为0.9024、0.9031、0.9287、0.9108。综合两者结果表明支持向量机模型在本研究区的滑坡易发性评价中泛化性能最佳。(5)以四种模型预测易发区的历史灾点数量占比和频率比来检验本次实现的程序系统的可行性。统计结果表明:四种模型在高易发区的滑坡占比分别为64.57%、54.33%、80.32%、69.05%,表明滑坡主要集中在高易发区,比较符合实际情况;在高易发区的滑坡频率比分别为3.92、1.78、3.01、3.76,都是远大于1,均表现出较强的相关性。综合两者说明本次开发的程序具体较高的可行性。(6)设计了滑坡自动化易发性评价系统两大模块的工作流程,开发了滑坡自动化易发性评价系统。系统集成了评价因子提取与预处理模块、评价模型计算与预测结果检验模块,实现了因子选择、因子提取、因子分级、数据预处理、输出专题图件、模型选择、模型参数配置、计算结果及易发性区划成果展示等功能,能够简便、快速的进行滑坡易发性评价。