一种基于混合采样的滑坡易发性评价建模样本挑选方法技术

技术编号:35207377 阅读:14 留言:0更新日期:2022-10-15 10:18
本发明专利技术提供了一种基于混合采样的滑坡易发性评价建模样本挑选方法,该方法针对传统的欠采样方法和过采样方法在采样时存在的不足,将对传统欠采样方法易丢失重要信息的问题进行优化,并和过采样技术进行结合,形成混合采样方法。本发明专利技术首先应用单分类支持向量机模型(One

【技术实现步骤摘要】
一种基于混合采样的滑坡易发性评价建模样本挑选方法


[0001]本专利技术涉及滑坡易发性评价领域,尤其涉及一种基于混合采样的滑坡易发性评价建模样本挑选方法。

技术介绍

[0002]随着计算机性能的提升,数据处理和预测也进入了高速发展阶段,其中以地理信息科学(GIS)为基础,结合机器学习模型的方法在滑坡易发性评价领域中被广泛应用,如支持向量机模型、梯度提升树模型、随机森林模型等。机器学习模型相较于传统的数理统计模型,其结果具有更强的量化能力。尽管目前有大量的研究证明机器学习和深度学习能够尽可能的适应不同采样策略下的样本,但不可否认的是建模学习得到高精度的前提仍然是大量的建模样本支持。
[0003]根据实际调研结果,不同区域中滑坡与非滑坡样本比例往往是不一致的,其中在大量区域中滑坡样本是远远小于非滑坡样本的,在数据二分类建模分析中,数据样本相差过大时,我们就可默认研究区存在样本不平衡问题,其中样本数量较多的一类被称为多数类,较少的一类被称为少数类。在滑坡易发性评价中,滑坡相比较非滑坡而言是更值得关注和统计的,但在数据不平衡下往往会导致在建立模型时,模型会过多关注多数类样本的特征,忽略少数类样本的信息,导致模型预测结果出现偏差和过拟合情况。
[0004]目前通用的采样方法来解决样本不平衡问题主要分为随机过采样和随机欠采样。随机过采样是指在少数类样本中随机选择一些样本,然后通过复制所选择的样本进而生成样本数据集,将他们添加到原样本数据中扩大原数据集从而得到新的少数类集合。对于随机过采样,由于需要对少数类样本进行复制来扩大数据集,造成模型训练复杂度加大。另一方面也容易造成模型的过拟合问题,因为随机过采样是简单的对初始样本进行复制采样,这就使得学习器学得的规则过于具体化,不利于学习器的泛化性能,造成过拟合问题。随机欠采样即从多数类样本S中随机选择一些样本组成样本集E。然后将样本集E从S中移除,进而得到新的数据集Snew=S

E。随机欠采样方法通过改变多数类样本比例以达到修改样本分布的目的,从而使样本分布较为均衡,但是这也存在一些问题。对于随机欠采样,由于采样的样本集合要少于原来的样本集合,因此会造成一些信息缺失,即将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息。
[0005]在目前进行滑坡易发性评价时,滑坡数据往往通过野外实际调研得到,是很准确的数据,而由于研究区面积辽阔、存在大量人难以达到地方,因此非滑坡数据往往存在一定不确定性,但研究者往往将高质量的滑坡数据和低质量的非滑坡数据同时进行建模,导致模型出现过多冗余、错误数据,使得模型精度较低。
[0006]滑坡是我国主要的地质灾害类型,对土地资源可持续利用和经济可持续发展造成了不可估量的破坏。特别是二十一世纪以来,大量人类工程活动,严重影响了地质环境稳定性,加上在地震、火山爆发、强降雨等因素的影响,使得滑坡发生频率与规模逐步增加,造成人员伤亡和经济损失也呈直线上升。据2020年自然资源部发布的全国地质灾害通报,全国
共发生地质灾害7840起,造成直接经济损失50.2亿元,人员伤亡197人。其中共发生滑坡共计4810起,占比超过总地质灾害的60%,较2019年4220起滑坡有不少增长,尤其是在四川、重庆等地,存在众多潜在的滑坡隐患,严重威胁群众生命安全和财产安全。准确开展滑坡易发性评价能够为政府对土地利用合理规划提供有力的技术支持。

技术实现思路

[0007]本专利技术的目的在于克服传统随机过采样和欠采样的不足,将单分类支持向量机(One

Class Support Vector Machine,OCSVM)和合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)进行结合构成一种混合采样模型,用来解决滑坡易发性评价中样本不平衡问题,进而提高滑坡评价的预测精度。
[0008]一种基于混合采样的滑坡易发性评价建模样本挑选方法,包括:
[0009]S1:加载原始总指标数据集,在数据集中的所有数据与原点间构建超平面;
[0010]S2:将步骤S1中获取的原始数据输入至OCSVM模型中,进行数据的欠采样处理,得到滑坡数据和非滑坡数据;
[0011]S3:从相似的滑坡数据中和不相似非滑坡数据中选择部分作为训练数据,并输入至SMOTE模型中,进行训练数据的过采样处理,得到新滑坡数据集;
[0012]S4:对于新滑坡中每一个样本x,以欧氏距离为标准计算它到新滑坡数据集中所有样本的距离,得到其k近邻;
[0013]S5:根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn,对于每一个随机选出的近邻xn,结合原样本构建新的样本,即为挑选得到的样本。
[0014]进一步地,步骤S1中,数据集中的每一个数据都包含多个指标因子构成的自变量x以及对应的因变量y,自变量x包括高程、坡向和坡度,因变量y为是否发生滑坡。
[0015]进一步地,步骤S2中具体包括以下步骤:
[0016]S21:在分类正确的基础上,最大化超平面与原点的距离;
[0017]S22:通过对耦合问题进行处理及加入松弛变量ξ,将最大化超平面与原点的距离的问题转化为求解优化的目标函数;
[0018]S23:通过导出对偶问题和使用核技巧,采用支持向量对上述优化的目标函数进行求解,得到决策函数;
[0019]S24:通过决策函数,得出对偶问题,对非滑坡数据中与滑坡数据相似的样本进行剔除,得到更为纯粹的滑坡和非滑坡数据。
[0020]进一步地,最大化超平面与原点的距离的公式为:
[0021][0022]subject to(w
·
x
i
)≥ρ
[0023]其中,w为斜率,x
i
为第i个自变量,ρ为常数项,F为正有理数集合,R为实数集。
[0024]进一步地,优化的目标函数为:
[0025][0026]subject to(w
·
Φ(x
i
))≥ρ

ξ
i

i
≥0
[0027]其中,w为斜率,x
i
为第i个自变量,ρ为常数项,F为正有理数集合,R为实数集,ξ
i
为第i个松弛变量。
[0028]进一步地,所述决策函数为:
[0029][0030]其中,α
i
为Lagrange乘数,w(x
i
,x)为核函数,ρ为常数项。
[0031]进一步地,构建新的样本的公式为:
[0032]x
nev
=x+rand(0,1)
×
(xn

x)
[0033]其中,x表示原始样本,x
nev
表示新的样本。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合采样的滑坡易发性评价建模样本挑选方法,其特征在于:包括:S1:加载原始总指标数据集,在数据集中的所有数据与原点间构建超平面;S2:将步骤S1中获取的原始数据输入至OCSVM模型中,进行数据的欠采样处理,得到滑坡数据和非滑坡数据;S3:从相似的滑坡数据中和不相似非滑坡数据中选择部分作为训练数据,并输入至SMOTE模型中,进行训练数据的过采样处理,得到新滑坡数据集;S4:对于新滑坡中每一个样本x,以欧氏距离为标准计算它到新滑坡数据集中所有样本的距离,得到其k近邻;S5:根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn,对于每一个随机选出的近邻xn,结合原样本构建新的样本,即为挑选得到的样本。2.如权利要求1所述的一种基于混合采样的滑坡易发性评价建模样本挑选方法,其特征在于:步骤S1中,数据集中的每一个数据都包含多个指标因子构成的自变量x以及对应的因变量y,自变量x包括高程、坡向和坡度,因变量y为是否发生滑坡。3.如权利要求1所述的一种基于混合采样的滑坡易发性评价建模样本挑选方法,其特征在于:步骤S2中具体包括以下步骤:S21:在分类正确的基础上,最大化超平面与原点的距离;S22:通过对耦合问题进行处理及加入松弛变量ξ,将最大化超平面与原点的距离的问题转化为求解优化的目标函数;S23:通过导出对偶问题和使用核技巧,采用支持向量对上述优化的目标函数进行求解,得到决策函数;S24:通过决策函数,得出对偶问题,对非滑坡数据中与滑坡数据相似的样本进行剔除,得到更...

【专利技术属性】
技术研发人员:吴宏阳周超梁鑫袁鹏程
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1