一种基于混合采样的滑坡易发性评价建模样本挑选方法技术

技术编号：35207377 阅读：14 留言：0更新日期：2022-10-15 10:18

本发明专利技术提供了一种基于混合采样的滑坡易发性评价建模样本挑选方法，该方法针对传统的欠采样方法和过采样方法在采样时存在的不足，将对传统欠采样方法易丢失重要信息的问题进行优化，并和过采样技术进行结合，形成混合采样方法。本发明专利技术首先应用单分类支持向量机模型(One

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合采样的滑坡易发性评价建模样本挑选方法

[0001]本专利技术涉及滑坡易发性评价领域，尤其涉及一种基于混合采样的滑坡易发性评价建模样本挑选方法。

技术介绍

[0002]随着计算机性能的提升，数据处理和预测也进入了高速发展阶段，其中以地理信息科学(GIS)为基础，结合机器学习模型的方法在滑坡易发性评价领域中被广泛应用,如支持向量机模型、梯度提升树模型、随机森林模型等。机器学习模型相较于传统的数理统计模型，其结果具有更强的量化能力。尽管目前有大量的研究证明机器学习和深度学习能够尽可能的适应不同采样策略下的样本，但不可否认的是建模学习得到高精度的前提仍然是大量的建模样本支持。
[0003]根据实际调研结果，不同区域中滑坡与非滑坡样本比例往往是不一致的，其中在大量区域中滑坡样本是远远小于非滑坡样本的，在数据二分类建模分析中，数据样本相差过大时，我们就可默认研究区存在样本不平衡问题，其中样本数量较多的一类被称为多数类，较少的一类被称为少数类。在滑坡易发性评价中，滑坡相比较非滑坡而言是更值得关注和统计的，但在数据不平衡下往往会导致在建立模型时，模型会过多关注多数类样本的特征，忽略少数类样本的信息，导致模型预测结果出现偏差和过拟合情况。
[0004]目前通用的采样方法来解决样本不平衡问题主要分为随机过采样和随机欠采样。随机过采样是指在少数类样本中随机选择一些样本，然后通过复制所选择的样本进而生成样本数据集，将他们添加到原样本数据中扩大原数据集从而得到新的少数类集合。对于随机过采样，由于需要对少数类样本进行...

【技术保护点】

【技术特征摘要】
1.一种基于混合采样的滑坡易发性评价建模样本挑选方法，其特征在于：包括：S1：加载原始总指标数据集，在数据集中的所有数据与原点间构建超平面；S2：将步骤S1中获取的原始数据输入至OCSVM模型中，进行数据的欠采样处理，得到滑坡数据和非滑坡数据；S3：从相似的滑坡数据中和不相似非滑坡数据中选择部分作为训练数据，并输入至SMOTE模型中，进行训练数据的过采样处理，得到新滑坡数据集；S4：对于新滑坡中每一个样本x，以欧氏距离为标准计算它到新滑坡数据集中所有样本的距离，得到其k近邻；S5：根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个样本x，从其k近邻中随机选择若干个样本，假设选择的近邻为xn，对于每一个随机选出的近邻xn，结合原样本构建新的样本，即为挑选得到的样本。2.如权利要求1所述的一种基于混合采样的滑坡易发性评价建模样本挑选方法，其特征在于：步骤S1中，数据集中的每一个数据都包含多个指标因子构成的自变量x以及对应的因变量y，自变量x包括高程、坡向和坡度，因变量y为是否发生滑坡。3.如权利要求1所述的一种基于混合采样的滑坡易发性评价建模样本挑选方法，其特征在于：步骤S2中具体包括以下步骤：S21：在分类正确的基础上，最大化超平面与原点的距离；S22：通过对耦合问题进行处理及加入松弛变量ξ，将最大化超平面与原点的距离的问题转化为求解优化的目标函数；S23：通过导出对偶问题和使用核技巧，采用支持向量对上述优化的目标函数进行求解，得到决策函数；S24：通过决策函数，得出对偶问题，对非滑坡数据中与滑坡数据相似的样本进行剔除，得到更...

【专利技术属性】
技术研发人员：吴宏阳，周超，梁鑫，袁鹏程，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人