区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法制造技术

技术编号:38872246 阅读:17 留言:0更新日期:2023-09-22 14:08
本发明专利技术提出了区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,包括以下步骤:S1,将具有潜在滑坡区域的地理底图输入并行深度森林算法中,并从中筛选无关特征,获取候选特征集,从候选特征集中过滤出冗杂特征,构成优质特征集;S2,将获取的优质特征集送入多粒度扫描阶段处理;S3,结合Spark对每层级联森林模型进行并行化训练;S4,对并行深度森林算法的有效性进行验证。本发明专利技术提出的算法无论是在运行效率上还是模型精确度上都有显著的提高,此外通过该方法所挖掘出的知识,能够在金融领域、医疗领域上提供巨大的帮助。医疗领域上提供巨大的帮助。医疗领域上提供巨大的帮助。

【技术实现步骤摘要】
区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法


[0001]本专利技术涉及大数据挖掘领域,特别是涉及一种大数据环境下的Spark和NRSCA策略并行深度森林算法。

技术介绍

[0002]滑坡作为常见的山区突发性地质灾害,是指斜坡受到外界因素(例如降雨、地震、人类工程活动等)的诱发呈现不稳定状态,导致岩土体沿一定的软弱面(带)做整体下滑的现象,常常埋没村庄、毁坏道路、破坏农田及堵塞江河,有的地区甚至会进一步诱发高山峡谷泥石流等次生灾害。长期以来威胁着广大人民群众的生命财产安全,制约了地区经济发展,也为国土空间规划管控带来了困难。而区域滑坡危险性评价是针对一定区域评估其在某个时间段发生特定规模的滑坡地质灾害的可能性,能够为地方政府提出相应的防治对策建议,为地质灾害防治管控及城镇规划、土地利用等提供基础依据。
[0003]在现今大数据时代,许多学者开始针对历史滑坡数据及相关诱发因素的大数据进行挖掘,借助人工智能和地理信息技术(GIS)深度融合,进行区域滑坡危险性评价的研究。2014年,Christos Polykretis等利用神经网络和传统数据统计相结合,针对希腊伯罗奔尼撒半岛采用高程、坡度、坡向、地表覆盖、岩性、距水系、公路和断层的距离为统计指标,进行了滑坡危险性评价;2015年,Ahmed Mohamed Youssef等采用随机森林法和研究区高程分布、斜坡坡向、坡度、耕种区分布、地形剖面指数、岩性、距水系距离、降雨量等指标融合,针对沙特阿拉伯阿西尔省进行了滑坡危险性评价及编图;2017年,Kaixiang Zhang等采用随机森林决策树法针融合地理信息技术对中国三峡中部区域,结合地貌、地质、水文、地表覆盖及环境诱发因素等指标,做出滑坡危险性评价;2020年,Deliang Sun等采用随机森林法结合地貌、地质条件、环境因素及人类工程活动等下属22个指标,对中国三峡区域奉节县和巫山县进行了滑坡危险性评价。
[0004]综上所述,机器学习特别是随机森林融合地理信息技术在区域滑坡危险性评价领域虽已取得丰硕的成果,但仍存在一些不足:(1)在地理信息ArcGis软件中,通常针对研究区选择分辨率为25m*25m—1000m*1000m(视数据来源及评价精度需求而定)的地理底图来逐个提取所有斜坡单元的地质地貌参数及特征,协助专家进行滑坡危险性评价。若采用25m*25m左右的分辨率,虽然精度上足以反映单个斜坡单元的特征,但提取数据过程中会产生数千万甚至更多的栅格数据,而单处理器系统的计算性能无法满足需求的处理速度。若根据1000m*1000m的分辨率来进行提取,容易造成覆盖范围过大包含多个斜坡在内,显然不符合单个斜坡自身的实际情况。(2)机器学习需要让模型在不断训练学习过程中积累以提高有效的知识标识,另外要具有知识泛化和推理能力,而传统机器学习方法,无法在完成当前训练任务的同时保留对上个任务的记忆,难以形成训练知识的复用泛化,因此如何设计既能提高大区域滑坡危险性评价的预测精度,使得其处理速度满足实际应用的方法,同时使学习过程具有知识复用和泛化能力,具有重大意义。
[0005]深度森林是基于森林的集成学习方法,其超参数较少,具有良好的表征学习能力,
被广泛应用于图像识别、故障诊断、指标预测等各个领域。然而随着大数据时代的到来,各个领域的数据量和特征量呈指数级增长,深度森林面对数据量和特征量的增长,其训练代价明显增加,训练效果下降。因此,设计适用于处理大数据的深度深林算法才能适用于大区域滑坡危险性评价需求。

技术实现思路

[0006]本专利技术旨在至少解决现有技术中存在的技术问题,为了实现本专利技术的上述目的,本专利技术提供了区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,包括以下步骤:
[0007]S1,将具有潜在滑坡区域的地理底图输入并行深度森林算法中,并从中筛选无关特征,获取候选特征集,从候选特征集中过滤出冗杂特征,构成优质特征集;
[0008]S2,将获取的优质特征集送入多粒度扫描阶段处理;
[0009]S3,结合Spark对每层级联森林模型进行并行以获得滑坡结果。
[0010]本专利技术的一种优选方案,S1具体包括以下步骤:
[0011]S11,首先计算出每个特征Fisher Score(FS
f
)和SU
δ
(f,C);然后根据SU
δ
(f,C)和FS
f
计算原始特征集中每个特征的特征分割参数FSP,并且根据FSP的大小进行降序排序;最后按照FSP值,从高到低将原始特征集划分为候选特征集合和无关特征集合两部分,其中,特征分割参数FSP的计算公式如下;
[0012]FSP=FS
f
*SU
δ
(f,C)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0013]FSP表示特征分割参数;
[0014]FS
f
表示特征f的Fisher Score的值;
[0015]SU
δ
(f,C)表示衡量特征f和标签集合C的相关性;
[0016]*表示相乘;
[0017]其中,
[0018][0019]FS
f
表示特征f的Fisher Score的值;
[0020]k表示样本数;
[0021]n
c
表示类别为c的样本数;
[0022]μ
fc
表示特征f在类别c中的均值;
[0023]μ
f
表示特征f的均值;
[0024]表示特征f在类别c中方差的平方;
[0025][0026]SU
δ
(f,C)表示衡量特征f和标签集合C的相关性;
[0027]NH
δ
(f;C)表示当前特征f和标签集合C的邻域互信息;
[0028]NH
δ
(f)表示当前特征f的邻域信息熵;
[0029]NH
δ
(C)表示当前标签集合C的邻域信息熵;
[0030]S12,提出并通过冗余系数RF对候选特征集进行过滤,进一步筛选出大量冗余特征,获取优质特征集,冗余系数RF的计算公式如下:
[0031][0032]f
i
表示假设的第一特征;
[0033]f
j
表示假设的第二特征;
[0034]RF
i,j
表示f
i
与f
j
的冗余系数;
[0035]SU
δ
(f
i
,f
j
)表示衡量当前特征f
i
和第二特征f
j
的相关性;
[0036]NH
δ
(f;C)表示当前特征f和标签集合C的邻域互信息。
[0037]本专利技术的一种优选方案,S2具体包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,包括以下步骤:S1,将具有潜在滑坡区域的地理底图输入改进的并行深度森林算法中,并从中筛选无关特征,获取候选特征集,从候选特征集中过滤出冗杂特征,构成优质特征集;S2,将获取的优质特征集送入多粒度扫描阶段处理;S3,结合Spark对每层级联森林模型进行并行化获得滑坡结果。2.根据权利要求1所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S1具体包括以下步骤:S11,首先计算出每个特征Fisher Score(FS
f
)和SU
δ
(f,C);然后根据SU
δ
(f,C)和FS
f
计算原始特征集中每个特征的特征分割参数FSP,并且根据FSP的大小进行降序排序;最后按照FSP值,从高到低将原始特征集划分为候选特征集合和无关特征集合两部分,其中,特征分割参数FSP的计算公式如下;FSP=FS
f
*SU
δ
(f,C)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)FSP表示特征分割参数;FS
f
表示特征f的Fisher Score的值;SU
δ
(f,C)表示衡量特征f和标签集合C的相关性;其中,FS
f
表示特征f的Fisher Score的值;k表示样本数;n
c
表示类别为c的样本数;μ
fc
表示特征f在类别c中的均值;μ
f
表示特征f的均值;表示特征f在类别c中方差的平方;SU
δ
(f,C)表示衡量特征f和标签集合C的相关性;NH
δ
(f;C)表示当前特征f和标签集合C的邻域互信息;NH
δ
(f)表示当前特征f的邻域信息熵;NH
δ
(C)表示当前标签集合C的邻域信息熵;S12,提出并通过冗余系数RF对候选特征集进行过滤,筛选出大量冗余特征,获取优质特征集,冗余系数RF的计算公式如下:f
i
表示假设的第一特征;
f
j
表示假设的第二特征;RF
i,j
表示f
i
与f
j
的冗余系数;SU
δ
(f
i
,f
j
)表示衡量当前特征f
i
和第二特征f
j
的相关性;NH
δ
(f;C)表示当前特征f和标签集合C的邻域互信息。3.根据权利要求1所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S2具体包括以下步骤:S21,随机扫描:特征预处理阶段得到特征集合S,其大小为x,类别数为y,从S中随机抽取h个特征组成一个特征片段,重复抽取b次,共生成b个特征片段,将每个特征片段导入到随机森林中训练,得到b个y维的类向量;S22,等距提取:将特征集合S等分为b个特征片段,每份大小为将每个特征片段导入到完全随机森林中训练,同样得到b个y维的类向量;S23,初始化类向量:重复上述两个阶段z次,将z次训练后得到的类向量进行拼接,最后得到2zby维的原始类向量E。4.根据权利要求1所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S3具体包括以下步骤:S31,并行构建级联森林:利用Spark框架搭建并行深度森林,结合FFM

II的特征筛选机制,根据级联森林训练得出的准确率剔除非关键特征,平衡增强类向量和原始类向量维度;S32,负载均衡:通过TSM

SCA的任务调度机制,利用SCA算法计算出最优的任务分配方案,然后Spark集群按照方案分配任务。5.根据权利要求4所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特...

【专利技术属性】
技术研发人员:贾俊毛伊敏刘绍芬孟晓捷刘港
申请(专利权)人:江西理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1