基于深度学习模型与经验模态分解耦合的PM2.5污染浓度长时空预测方法技术

技术编号:34766464 阅读:18 留言:0更新日期:2022-08-31 19:18
一种基于深度学习模型与经验模态分解耦合的PM2.5污染浓度长时空预测方法,收集PM2.5污染数据以及相关变量数据,数据清洗,相关性分析确定选择变量的相关性;构建图数据结构并输入至模型的GAT模块,得到PM2.5污染的空间信息;将PM2.5序列输入至模型的EMD模块,分解为若干个低频率的时间序列以及残差,并进行拼接,得到PM2.5污染的时间序列信息;整合空间信息以及时间序列信息,得到PM2.5污染的时空信息,输入至模型的GRU模块,再通过全连接层得到最终的预测结果。本发明专利技术将PM2.5污染的时间与空间信息结合,并将信号分解领域的经验模态分解算法和深度学习算法结合,提高PM2.5长步长预测的精度。预测的精度。预测的精度。

【技术实现步骤摘要】
Systems.2020: 163

166.DOI:10.1145/3397536.3422208)该研究通过构建图数据结构,将PM2.5 浓度数据与天气变量数据结合,融入PM2.5的领域知识,体现了PM2.5空间上的扩散与传输,使其能够捕捉PM2.5预测时的长期依赖关系。但其构建图数据结构时未能体现城市节点之间的关联,并且未对PM2.5的时序数据进行处理,其预测仅在数据量较大时才较准确,当数据量过少时其预测精度较低。
[0007]学术文献3(刘金培,陈丽娟,汪漂,陈华友.基于MEMD和空间层次聚类的PM2.5三角模糊序列多因子组合预测研究[J/OL].控制与决策:1

9[2022

02

17].DOI:10.13195/j.kzyjc.2021.1163)该研究提出基于多元经验模态分解和空间层次聚类的PM2.5三角模糊序列多因子组合预测模型。运用皮尔曼相关系数分析PM2.5与本地污染物浓度、气象要素间的关联度,选取本地影响因子;其次,计算PM2.5与空间污染物浓度间的关联度,并据此对邻近城市 K

means空间聚类得到核心影响、一般影响和偏远影响城市群,并统计各城市群不同污染物的综合指数,即空间影响因子;进而,利用MEMD对PM2.5和影响因子的三角模糊序列同时进行分解,重构得到高频、低频以及趋势序列。最后,用BP、LSTM、LSSVR分别对子序列进行多输入单输出的预测,最后集成得到计算结果。此研究的局限主要是要求对大气污染数据要求高,并且通过组合预测模型进行计算,算法复杂度较高,计算效率较慢。
[0008]相关的现有专利1(CN202011041190.3一种基于深度学习的PM2.5高精度时空预测方法(审中

实质审查))公开了一种基于深度学习PM2.5浓度时空预测的方法,该方法不仅可以提高长期时空预测的精度,而且可用于预测空间连续大范围未来时刻的PM2.5浓度,满足实际应用中的需求。包括步骤1)选取影响PM2.5的多源数据进行预处理和影响因素分析,所述多源数据包括地面监测站点PM2.5数据、气象数据、空间相关数据以及物理特征数据;步骤2)对所述多源数据进行时空匹配;步骤3)基于时空相关性将多源数据进行聚类并找到合适的时间滞后值;步骤4)利用递归的LSTM模型,对各个聚类的站点PM2.5进行训练,并评估本预测方法的精度;步骤5)对预报结果进行精细PM2.5时空分布制图。
[0009]现有专利2(CN202110598978.2一种基于图自监督学习的PM2.5预测方法及存储介质(审中

实质审查))涉及一种基于图自监督学习的PM2.5预测方法及存储介质,通过运用图神经网络对非欧数据强大的学习能力,建立预测模型。本专利技术中,PM2.5预测方法包括:步骤1)输入区域内多站点的历史环境时空数据进行图构建;步骤2)构建PM2.5预测模型;步骤3)输入时空图序列数据,训练步骤2构建的预测模型;步骤4)计算模型预测的准确率,若准确率超过预设阈值,则执行步骤5,否则,返回步骤3;步骤5)将区域内多站点数据输入训练好的预测模型,获得区域内多站点的PM2.5预测浓度值。
[0010]现有专利3(CN201911359480.X一种融合EMD和LSTM的城市PM2.5 浓度预测方法(审中

实质审查))涉及一种空气质量浓度预测方法,尤其是涉及一种融合EMD和LSTM的深度学习城市PM2.5浓度预测方法。包括步骤:1) 获取每小时时间序列数据,对获取的数据进行数据清洗;2)使用经验模态分解 EMD对PM2.5浓度数据进行平稳化处理,得到多个分量;3)确定滑动时间窗口 T,对每个分量进行数据序列段切分处理,并归一化统一量纲,得到多个数据集;4) 将数据集划分为训练集和测试集,分别构建LSTM网络模型进行训练,使用训练好的模型对各个分量进行预测,并对其进行反归一化处理,得到最终的城市 PM2.5浓度预测结果;5)在此基础上构建长短期记忆神经网络LSTM模型并进行训练;6)使用训练好的模型进行预测,并对其进行反归一化处理,得到最终的城市PM2.5浓度预测结果。
[0011]上述三项专利基本上侧重于利用深度学习技术,选取相关变量来对PM2.5 浓度进行预测,然而相关的专利却存在如下问题:专利1选取的变量过多,容易造成算法复杂度过高,模型实用性不足;专利2采用的GCN是针对于全图的计算方式,一次计算需要更新全图的节点特征,对于复杂多变的PM2.5预测来说适用性不足;专利3仅考虑了PM2.5时间序列,未利用造成PM2.5污染的空间信息,在面对长步长时空预测时预测精度有限。
[0012]科学合理的PM2.5长时空序列预测方法是保障大气污染联防联控政策的前提,现有技术存在以下问题:
[0013]1.方法的使用受限,现有的研究多针对于短时间预测,在实际应用过程中无法满足要求;
[0014]2.实用性差,需要海量的大气污染数据和地理数据,数值模拟模型需要大量参数,构建模型较复杂,需要计算资源过多;
[0015]3.现有的深度学习方法大多数仅针对PM2.5序列,或提取PM2.5污染的空间相关信息时复杂度较高,对于长时空预测的精度不够。

技术实现思路

[0016]针对现有技术存在的缺陷,本专利技术的目的在于提供一种基于 GAT

EMD

GRU深度学习算法的PM2.5浓度长时空预测方法,提供一种新的解决PM2.5浓度预测问题的思路,将信号分解领域的经验模态分解算法与深度学习算法结合,提高PM2.5长时空预测的精度。
[0017]为了达到上述目的,本专利技术的技术方案如下:
[0018]一种基于深度学习模型与经验模态分解耦合的PM2.5污染浓度长时空预测方法,步骤如下:
[0019]步骤000,收集PM2.5污染数据以及相关气象变量数据并进行数据清洗,并进行相关性分析;
[0020]步骤010,通过收集到的数据,构建图数据结构,并输入至模型的GAT模块,得到PM2.5污染的空间信息;
[0021]步骤020,根据经验模态分解算法,将PM2.5污染序列分解为若干个低频的子污染序列以及残差,将子序列以及残差进行拼接,得到PM2.5污染的时间信息;
[0022]步骤030,选用门控循环单元作为基本单元,将前述两步得到的时空特征信息进行聚合,并输入至GRU中进行计算,最后通过全连接层输出,得到预测结果。
[0023]优选的,还包括以下步骤:
[0024]步骤001,通过皮尔逊相关系数(Pearson correlation coefficient),进行相关性分析,确定选取气象变量与PM2.5污染之间的相关性。
[0025]优选的,步骤010还包括以下步骤:
[0026]步骤011,根据选取的变量以及关联规则,构建图数据结构。
[0027]步骤012,将图数据结构输入至GAT中,基于GAT的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习模型与经验模态分解耦合的PM2.5污染浓度长时空预测方法,其特征在于,包括以下步骤:步骤1,收集PM2.5污染数据以及相关气象变量数据,数据清洗并进行相关性分析;通过皮尔逊相关系数进行相关性分析,确定选取的相关气象变量数据与PM2.5污染数据之间的相关性,皮尔逊相关系数公式如下:此为总体相关系数,其中,X、Y指两个随机变量,指PM2.5与单个相关气象变量;单个相关气象变量数据与PM2.5污染数据为总体的样本,cov(X,Y)指PM2.5数据与单个气象变量数据的协方差,σ指样本数据的标准差,E[]指求随机变量的期望,μ指样本数据的均值;对于样本数据,即PM2.5数据以及单个气象变量数据,cov(X,Y)和σ公式为:cov(X,Y)=E[XY]

E[X]E[Y]将其代入到ρ
X,Y
的公式中,得到样本的皮尔逊相关系数r:其中,X
i
,Y
i
指随机变量X,Y中的样本,指单条PM2.5污染数据与单条单个气象变量数据,指PM2.5污染数据与单个气象变量数据的总体均值,n为数据的数量;步骤2,通过步骤1中清洗过的相关气象变量数据,构建图数据结构,并基于注意力机制以及图数据结构,构建模型GAT

EGRU的GAT模块,将PM2.5污染数据以及相关气象变量数据输入,得到新的空间特征信息;步骤2.1,根据步骤1中选取的相关气象变量数据以及关联规则,构建图数据结构,关联规则如下:A
ij
=H(d
θ

d
ij
)
·
H(m
θ

m
ij
)其中,d
ij
=||ρ
i

ρ
j
||,其中,A
ij
代表是否有关联:数值为0时表示无关联,数值为1时表示有关联,ρ
i
代表图数据结构中城市节点i的位置,d
ij
表示两个节点之间的距离;m
ij
表示城市节点i与城市节点j之间的山脉海拔高度,在求解m
ij
的公式中,h(
·
)为高度函数,λ为占比参数,sup{}表示求上界;||
·
||为向量的L2范数,H(
·
)为阶跃函数,当且仅当x>0时,H(x)=1;d
θ
、m
θ
为距离和海拔高度的阈值;步骤2.2,基于GAT的注意力机制以及步骤2.1的图数据结构,构造模型的GAT模块,具体地,构造GAT的公式如下:
其中,a:R
p

×
R
p


R为自注意力机制,W∈R
p
×
p

为权重矩阵,M是节点i邻居节点的集合,为节点i的空间特征矩阵,e
ij
表示节点j对节点i的重要性;为了使e
ij
易于在不同节点之间进行比较,使用Softmax函数对j的所有注意力系数进行归一化,得到α
ij...

【专利技术属性】
技术研发人员:杨光飞张强关晓微
申请(专利权)人:大连凌空数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1