一种基于LSTM的时间序列滑坡数据预测方法技术

技术编号:37769575 阅读:13 留言:0更新日期:2023-06-06 13:32
本发明专利技术公开了一种基于LSTM的时间序列滑坡数据预测方法。该发明专利技术在时间序列数据上具有一定的通用性,该专利以滑坡数据为说明案例。滑坡数据主要包括地表压力、比湿度、地表径流、降雨、根位土壤湿度、平均温度、蒸腾作用、风速、纵横面、坡度和高程,针对滑坡数据的预测,其准确度比较低的情况,使用长期短期神经网络(LSTM)对某地区的滑坡进行了预测,其所开发的模型准确率超过了95%。针对模型中存在的泛化问题,收集更多的真实滑坡事件数据,从而提高模型的泛化能力。模型的泛化能力。

【技术实现步骤摘要】
一种基于LSTM的时间序列滑坡数据预测方法


[0001]本专利技术涉及深度学习关于时间序列预测领域,针对滑坡地质灾害数据预测技术。

技术介绍

[0002]滑坡属于突发自然灾害类,其所产生的破坏不仅局限于山区,还进入了邻近的建筑,如房屋和道路。该灾难会夺取许多人的生命,其中一些人无家可归,影响他们的生计。山体滑坡造成的破坏的激增,引起了全球许多研究人员对开发滑坡灾害早期预测系统的关注。通过适当开发的监测系统,可以预先预测滑坡发生的可能性。它将有助于采取必要的措施来控制和减轻山体滑坡对人类生命和经济造成的破坏。滑坡评价系统主要解决了两个问题:滑坡发生的时间、地点。然而,研究人员仍然难以准确预测即将到来的山体滑坡的时间和地点。这是因为山体滑坡是由几个因素引发的,如暴雨、地震、雪融化、洪水、火山或任何其他自然原因都会导致斜坡不稳定。此外,土壤和岩石的各种地形条件也增加了边坡的破坏。
[0003]计算机技术的发展,使得深度学习神经网络被广泛地应用到各个时间序列领域。现有的基于传统滑坡预测方法主要分为:
[0004](1)基于知识的方法。利用分析层次结构过程开发滑坡预测模型,使用经验方法,如双变量、多变量和频率比等。
[0005](2)基于主成分分析的方法。基于判别分析、确定因子和熵指数的滑坡预测。
[0006](3)基于机器学习的方法。基于机器学习的方法主要为传统的机器学习算法。
[0007]大多数研究人员将滑坡预测视为一个静态回归问题。然而,滑坡的发生是由于各种影响因素的渐进变形和不稳定的结果,因此,简单地将其视为一个静态回归的问题并不是一个非常好的预测方法。随着深度学习的不断进步和发展,其在工业领域的应用越来越广泛,包括在时间序列数据预测方面,如交通流量的预测、空气污染的预测和金融数据的预测等。但是关于深度学习在滑坡数据方面的预测上的研究并不是非常多,另外,预测结果的精度一直以来也是长期关注的问题。
[0008]本专利技术就是着力于解决时间序列滑坡数据的预测和预测结果的精度问题。本专利技术在时间序列数据预测领域有一定的通用性,并针对LSTM网络的泛化能力做出了改进。

技术实现思路

[0009]为了克服上述现有技术的不足,本专利技术提出了一种基于LSTM的时间序列滑坡数据预测方法。该技术引用了深度学习中的关于时间序列数据预测比较常用的长短期记忆神经网络(如附图1所示),并针对模型的泛化问题对LSTM进行了进一步的改进。
[0010]本专利技术所采用的技术方案是:
[0011]步骤1:数据预处理。消除异常值:将不符合标准的滑坡事件数据从数据集中删除。特征缩放:需要将所有特征带到相同的规模,这样一个特征就不会仅仅因为它的大小而比另一个更影响学习过程。类权重:训练过程中将权重设置为 50。
[0012]步骤2:数据的窗口化。为了充分利用时间序列数据的潜力,将数据转换为一个有监督的学习问题的形式
[0013]步骤3:数据分割。将数据集分成70%的训练集和15%的验证集,剩下15%的数据用于测试网络的性能。
[0014]步骤4:LSTM网络参数的选择。层数是根据一个可能的经验法则选择的。隐藏层可以是推广神经网络性能的一个决定因素。
[0015]步骤5:山体滑坡预测有两类:山体滑坡正类,和没有山体滑坡负类。使用骰子系数和计算模型的精度。
[0016]步骤6:评价指标。采用平均绝对误差和最大绝对误差来计算预测值和真实值之间的误差。
[0017]与现有技术相比,本专利技术的有益效果是:
[0018](1)在滑坡数据预测精度上,能够达到更高的预测精度;
[0019](2)对于网络的泛化问题,增加更多的滑坡事件数据能提高网络的泛化能力。
附图说明
[0020]图1为:长短期神经网络结构示意图。
[0021]图2为:网络参数细节图。
[0022]图3为:LSTM网络训练准确性的曲线
[0023]图4为:骰子系数的学习曲线
[0024]图5为:不同的评估指标图
具体实施方式
[0025]下面结合附图和公式对本专利技术进一步说明。
[0026]数据预处理。消除异常值:在收集的数据集中,很少有地点出现异常值,据报告显示,大多数夜间滑坡发生在中午12点左右。异常值通过仔细检查后,并通过在滑坡发生前设置9

12小时的降雨阈值来消除,将不符合标准的滑坡事件数据从数据集中删除。特征缩放。特征缩放是在向神经网络呈现数据之前的关键步骤之一。在机器学习中,需要将所有特征带到相同的规模,这样一个特征就不会仅仅因为它的大小而比另一个更影响学习过程。为了实现这一目标,使用 python中的sklearn预处理库缩放了所有参数。类权重。获得的数据集出现不平衡,大多数类值为“0”或没有滑坡。因此,为了避免在大多数类上的学习,我们在训练过程中将权重设置为50。
[0027]数据的窗口化。为了充分利用时间序列数据的潜力,将数据转换为一个有监督的学习问题的形式。每个窗口包括来自先前时间段的数据和要做的预测。对于实验,将时间延迟设置为6。这种数据安排使网络学习了6个时间段,并预测第7个时间段。以此类推,下一次数据输入为第2至第8个时间段,并预测第9 个时间段。
[0028]数据分割。将数据集分成70%的训练集和15%的验证集,剩下15%的数据用于测试网络的性能。
[0029]LSTM网络参数的选择。层数是根据一个可能的经验法则选择的。隐藏层可以是推广神经网络性能的一个决定因素。因此,应仔细决定隐藏层的数量。隐层数应为输入和输出
单位之和的2/3倍,它复制到使用输入层作为过去的几小时,输出作为预测未来的时间(网络参数细节见附图2)。例如,如果必须用过去的24 小时来预测未来的一个小时的数据,则将使用(2/3)*25=17,17则可以是最优的选择。
[0030]山体滑坡预测有两类:山体滑坡正类,和没有山体滑坡负类。混淆矩阵的2x2 维数,真正数表示为TP,真阴性表示为TN,误报表示为FP和假负数FN(如附图5所示)。使用这些指标,我们可以使用骰子系数和计算模型的精度。骰子系数是使用公式1计算的,而精度使用公式2计算。
[0031][0032][0033]使用不同的时间滞后值包括2小时,4小时,6小时,8小时,16小时和24 小时。但是,对于所有的实验,未来预测时间设置为1。使用不同的批量大小,包括8,16,32和64。
[0034]回归损失函数在用于预测和预测,采用平均绝对误差(MAE),用于计算预测值和真实值的绝对差值,如公式3所示。
[0035][0036]这里,y表示真实值,y^表示预测值,N代表实验数据的总数。mse是另一种常见的采用损失函数,如公式4所示。均方根损失函数计算公式如5所示。
[0037][0038][0039]二元分类损失的选择如公式6所示,骰子系数中的二元交叉熵系数损失函数如公式7所示,使用骰子系数损失来训练网络是是因本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LSTM的时间序列滑坡数据预测方法,其特征在于,包括以下步骤:步骤1:数据预处理。消除异常值:在收集的数据集中,很少有地点出现异常值,据报告显示,大多数夜间滑坡发生在中午12点左右。异常值通过仔细检查后,并通过在滑坡发生前设置9

12小时的降雨阈值来消除,将不符合标准的滑坡事件数据从数据集中删除。特征缩放。特征缩放是在向神经网络呈现数据之前的关键步骤之一。在机器学习中,需要将所有特征带到相同的规模,这样一个特征就不会仅仅因为它的大小而比另一个更影响学习过程。为了实现这一目标,使用python中的sklearn预处理库缩放了所有参数。类权重。获得的数据集出现不平衡,大多数类值为“0”或没有滑坡。因此,为了避免在大多数类上的学习,我们在训练过程中将权重设置为50。步骤2:数据的窗口化。为了充分利用时间序列数据的潜力,将数据转换为一个有监督的学习问题的形式。每个窗口包括来自先前时间段的数据和要做的预测。对于实验,将时间延迟设置为6。这种数据安排使网络学习了6个时间段,并预测第7个时间段。以此类推,下一次数据输入为第2至第8个时间段,并预测第9个时间段。步骤3:数据分割。将数据集分成70%的训练集和15%的验证集,剩下15%的数据用于测试网络的性能。步骤4:LSTM网络参数的选择。层数是根据一个可能的经验法则选择的。隐藏层可以是推广神经网络性能的一个决定因素。因此,应仔细决定隐藏层的数量。隐层数应为输入和输出单位之和的2/3倍,它复制到使用输入层作为...

【专利技术属性】
技术研发人员:周焕来吴俊男曾靓王子彦田浩琨许文波贾海涛王俊
申请(专利权)人:一拓通信集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1