【技术实现步骤摘要】
区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法
[0001]本专利技术涉及大数据挖掘领域,特别是涉及一种大数据环境下的Spark和NRSCA策略并行深度森林算法。
技术介绍
[0002]滑坡作为常见的山区突发性地质灾害,是指斜坡受到外界因素(例如降雨、地震、人类工程活动等)的诱发呈现不稳定状态,导致岩土体沿一定的软弱面(带)做整体下滑的现象,常常埋没村庄、毁坏道路、破坏农田及堵塞江河,有的地区甚至会进一步诱发高山峡谷泥石流等次生灾害。长期以来威胁着广大人民群众的生命财产安全,制约了地区经济发展,也为国土空间规划管控带来了困难。而区域滑坡危险性评价是针对一定区域评估其在某个时间段发生特定规模的滑坡地质灾害的可能性,能够为地方政府提出相应的防治对策建议,为地质灾害防治管控及城镇规划、土地利用等提供基础依据。
[0003]在现今大数据时代,许多学者开始针对历史滑坡数据及相关诱发因素的大数据进行挖掘,借助人工智能和地理信息技术(GIS)深度融合,进行区域滑坡危险性评价的研究。2014年,Christos Polykretis等利用神经网络和传统数据统计相结合,针对希腊伯罗奔尼撒半岛采用高程、坡度、坡向、地表覆盖、岩性、距水系、公路和断层的距离为统计指标,进行了滑坡危险性评价;2015年,Ahmed Mohamed Youssef等采用随机森林法和研究区高程分布、斜坡坡向、坡度、耕种区分布、地形剖面指数、岩性、距水系距离、降雨量等指标融合,针对沙特阿拉伯阿西尔省进行了滑坡危险性评价及编图;2017年,K ...
【技术保护点】
【技术特征摘要】
1.区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,包括以下步骤:S1,将具有潜在滑坡区域的地理底图输入改进的并行深度森林算法中,并从中筛选无关特征,获取候选特征集,从候选特征集中过滤出冗杂特征,构成优质特征集;S2,将获取的优质特征集送入多粒度扫描阶段处理;S3,结合Spark对每层级联森林模型进行并行化获得滑坡结果。2.根据权利要求1所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S1具体包括以下步骤:S11,首先计算出每个特征Fisher Score(FS
f
)和SU
δ
(f,C);然后根据SU
δ
(f,C)和FS
f
计算原始特征集中每个特征的特征分割参数FSP,并且根据FSP的大小进行降序排序;最后按照FSP值,从高到低将原始特征集划分为候选特征集合和无关特征集合两部分,其中,特征分割参数FSP的计算公式如下;FSP=FS
f
*SU
δ
(f,C)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)FSP表示特征分割参数;FS
f
表示特征f的Fisher Score的值;SU
δ
(f,C)表示衡量特征f和标签集合C的相关性;其中,FS
f
表示特征f的Fisher Score的值;k表示样本数;n
c
表示类别为c的样本数;μ
fc
表示特征f在类别c中的均值;μ
f
表示特征f的均值;表示特征f在类别c中方差的平方;SU
δ
(f,C)表示衡量特征f和标签集合C的相关性;NH
δ
(f;C)表示当前特征f和标签集合C的邻域互信息;NH
δ
(f)表示当前特征f的邻域信息熵;NH
δ
(C)表示当前标签集合C的邻域信息熵;S12,提出并通过冗余系数RF对候选特征集进行过滤,筛选出大量冗余特征,获取优质特征集,冗余系数RF的计算公式如下:f
i
表示假设的第一特征;
f
j
表示假设的第二特征;RF
i,j
表示f
i
与f
j
的冗余系数;SU
δ
(f
i
,f
j
)表示衡量当前特征f
i
和第二特征f
j
的相关性;NH
δ
(f;C)表示当前特征f和标签集合C的邻域互信息。3.根据权利要求1所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S2具体包括以下步骤:S21,随机扫描:特征预处理阶段得到特征集合S,其大小为x,类别数为y,从S中随机抽取h个特征组成一个特征片段,重复抽取b次,共生成b个特征片段,将每个特征片段导入到随机森林中训练,得到b个y维的类向量;S22,等距提取:将特征集合S等分为b个特征片段,每份大小为将每个特征片段导入到完全随机森林中训练,同样得到b个y维的类向量;S23,初始化类向量:重复上述两个阶段z次,将z次训练后得到的类向量进行拼接,最后得到2zby维的原始类向量E。4.根据权利要求1所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特征在于,S3具体包括以下步骤:S31,并行构建级联森林:利用Spark框架搭建并行深度森林,结合FFM
‑
II的特征筛选机制,根据级联森林训练得出的准确率剔除非关键特征,平衡增强类向量和原始类向量维度;S32,负载均衡:通过TSM
‑
SCA的任务调度机制,利用SCA算法计算出最优的任务分配方案,然后Spark集群按照方案分配任务。5.根据权利要求4所述的区域滑坡危险性评价的Spark和NRSCA策略并行深度森林算法,其特...
【专利技术属性】
技术研发人员:贾俊,毛伊敏,刘绍芬,孟晓捷,刘港,
申请(专利权)人:江西理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。