当前位置: 首页 > 专利查询>合肥学院专利>正文

一种基于随机森林的EMD-LSTM对PM2.5浓度预测的方法技术

技术编号:35031912 阅读:12 留言:0更新日期:2022-09-24 23:06
一种基于随机森林的EMD

【技术实现步骤摘要】
一种基于随机森林的EMD

LSTM对PM2.5浓度预测的方法


[0001]本专利技术涉及空气污染物浓度预测
,具体是涉及一种基于深度学习建模技术的PM2.5浓度预测方法,更具体的是涉及一种基于随机森林的EMD

LSTM对PM2.5浓度预测的方法。

技术介绍

[0002]近年来,空气污染逐渐成为人们不可小觑的一个重点问题,它直接和人们的身体健康挂钩。PM2.5一般认为是空气动力学粒径不超过2.5μm的气溶胶颗粒物总称,其也是大多数城市影响空气污染的核心指标。如果人长期暴露在充满PM2.5的环境中,那么就会显著的增加其患病的概率,会对人本身的呼吸系统、神经系统、心血管系统及生殖系产生严重的危害。国际上的癌症研究机构也发现PM2.5是导致癌症的第一因素,并将它视为影响环境和身体健康的主要因素。因此,如何对PM2.5浓度进行准确的预测已成为大众的关注热点,也是各类大气环境保护机构谈论的热点话题。
[0003]在传统的PM2.5浓度预测方面已经存在很多建设性的模型,主要分为以下四种:(1)针对时间序列进行研究的时间序列模型;(2)基于深度学习而形成的深度学习模型;(3)浅层神经网络;(4)传统的线性模型。这些模型中,时间序列模型和传统线性模型只能反映出一般的线性模型,而对那些复杂的非线性以及离散的数据不能有效的反映。而浅层神经网络虽然对非线性或离散的数据有一定的反映能力,但是对于一些复杂的函数表发能力有限。所以浅层神经网络的泛化能力比较差。在深度学习方面主要利用了时序中的时间依赖关系,所以很能利用这方面的长期记忆机智捕捉到时间依赖性特征。但是这类模型递归比较复杂,这就导致了模型的效率比较低下。基于机器学习的模型主要是基于气象和空气质量数据这两个方面的先验知识从而模拟并且有效的预测PM2.5浓度的预测。但是这两个方面的数据特征太多,在数据处理以及机器模型计算的时候会影响预测精度以及消耗很多的人力物力,所以如何选取有效的预测特征成为了至关重要的一环。
[0004]有鉴于此,本专利技术提出了一种基于随机森林的EMD

LSTM对PM2.5浓度预测的方法。

技术实现思路

[0005]本专利技术的目的在于提出一种基于随机森林的EMD

LSTM对PM2.5浓度预测的方法,首先选取气象因子以及空气质量因子这两大类特征,再通过设定相应的阈值挑选出合适的特征数据。并且选择的特征分别用经验模态方法将其分解为几个本征模函数及一个残差,再将其放入长短期记忆人工神经网络中对其进行预测,再将其预测的结果进行相加,最终得出PM2.5浓度的预测结果。
[0006]为了实现上述目的,本专利技术所采用的技术方案为:
[0007]一种基于随机森林的EMD

LSTM对PM2.5浓度预测的方法,步骤如下:
[0008](1)收集整理PM2.5数据时间序列;
[0009](2)对缺失数据、错误数据分别进行线性插值法和取平均取值法补足;
[0010](3)对已处理好的PM2.5数据进行随机森林特征重要性的选择;
[0011](4)对已选出来的特征进行EMD经验模态分解;
[0012](5)将分解出来的特征数据放入长短时期记忆神经网络去预测;
[0013](6)将各分解出来的特征预测出来的结果进行相加得到最终的预测结果。
[0014]作为本专利技术的优选技术方案,该预测方法中:
[0015]步骤(1)中采取的数据是前一周的PM2.5浓度数据,即选取前七天的数据作为训练数据来预测后一天的PM2.5浓度。
[0016]步骤(2)中对于保存的数据如果出现错误的数据值,则删除这部分数据值,取前后两天的数据取平均值代替;如果出现了缺失数据值的情况,采用一阶拉格朗日线性插值法处理;线性插值方法用于构造线性函数,利用公式(1)从样本缺失值的前后得到,则缺失值F(x)值等于该点x带入公式(1)后的值;
[0017]F
(x)
=ax+b
ꢀꢀ
(1)。
[0018]步骤(3)中利用相关性分析和重要性分析对整个数据进行特征选取;具体步骤如下:
[0019](a)以步骤(1)收集的天气质量和天气状况的数据集作为输入,每个特征的基尼指数计算为G
m
,应满足如下公式(2):
[0020][0021]其中,G
m
代表基尼指数,K代表K个类别,q
mK
代表一个节点m个中等类别K个总数的百分比,q
mK'
代表另一个节点m个中等类别K个总数的百分比;
[0022](b)节点k处的特征X
j
的重要性如下公式(3)所示:
[0023][0024]其中,代表变量重要性度量,G
l
和G
r
分别代表当前基尼指数后的两个新节点的基尼指数;
[0025](c)最后,归一化应该满足如下公式(4):
[0026][0027]最终,步骤(3)中通过随机森林特征重要性的选择得到气温TEMP、风速WSPD、AQI、PM2.5、PM10、NO2、O3、CO共八个特征作为模型的输入数据。
[0028]步骤(4)中对所筛选出来特征的时间序列进行EMD经验模态分解;首先输入时间序列,对其进行经验模态分解,分解为8个本征模函数和一个残差;其满足如下公式(5):
[0029][0030]其中,I
n
代表输入的第n个数据原始序列,IMF
n
表示第n个数据所分解出来的本征模函数,R
n
表示第n个数据分解后出现的残差。
[0031]步骤(6)中将所有EMD本征模函数和残差经过LSTM模型训练输出整合后就得到最终的预测结果,将所有的本征模函数值和残差值相加后就得到预测值。
[0032]与现有技术相比,本专利技术的有益效果表现在:
[0033]本专利技术公开了一种基于随机森林的EMD

LSTM对PM2.5浓度预测的方法,通过对以往数据进行特征选择,再通过设定相应的阈值挑选出合适的特征数据。然后再将挑选中出来的数据进行经验模态分解得出相应的几个特征和残差。最后将分解出来的几个特征和残差放入长短期神经记忆网络中去训练,得出相应的预测结果,之后将得出的几个预测结果进行相加便得出最终的预测结果。本专利技术的PM2.5浓度预测的方法,其预测结果精准,并且减少了不必要的运算量。
附图说明
[0034]图1为基于随机森林的EMD

LSTM对PM2.5浓度的流程图。
[0035]图2为选取数据重要性可视化的特征重要性条形图。
[0036]图3

10依次为对AQI、CO、NO2、O3、PM2.5、PM10、风速WSPD、气温TEMP数据进行EMD分解后的图形。
具体实施方式
[0037]本专利技术提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机森林的EMD

LSTM对PM2.5浓度预测的方法,其特征在于,步骤如下:(1)收集整理PM2.5数据时间序列;(2)对缺失数据、错误数据分别进行线性插值法和取平均取值法补足;(3)对已处理好的PM2.5数据进行随机森林特征重要性的选择;(4)对已选出来的特征进行EMD经验模态分解;(5)将分解出来的特征数据放入长短时期记忆神经网络去预测;(6)将各分解出来的特征预测出来的结果进行相加得到最终的预测结果。2.如权利要求1所述的方法,其特征在于,步骤(1)中采取的数据是前一周的PM2.5浓度数据,即选取前七天的数据作为训练数据来预测后一天的PM2.5浓度。3.如权利要求1所述的方法,其特征在于,步骤(2)中对于保存的数据如果出现错误的数据值,则删除这部分数据值,取前后两天的数据取平均值代替;如果出现了缺失数据值的情况,采用一阶拉格朗日线性插值法处理;线性插值方法用于构造线性函数,利用公式(1)从样本缺失值的前后得到,则缺失值F(x)值等于该点x带入公式(1)后的值;F
(x)
=ax+b
ꢀꢀ
(1)。4.如权利要求1所述的方法,其特征在于,步骤(3)中利用相关性分析和重要性分析对整个数据进行特征选取;具体步骤如下:(a)以步骤(1)收集的天气质量和天气状况的数据集作为输入,每个特征的基尼指数计算为G
m
,应满足如下公式(2):其中,G

【专利技术属性】
技术研发人员:吴晓璇朱俊
申请(专利权)人:合肥学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1