一种基于空间时域卷积网络的PM制造技术

技术编号:37701613 阅读:6 留言:0更新日期:2023-06-01 23:47
本发明专利技术公开了一种基于空间时域卷积网络的PM

【技术实现步骤摘要】
一种基于空间时域卷积网络的PM
10
浓度精细化预测方法


[0001]本专利技术涉及空气污染物浓度预测、时空异质性提取、深度学习建模等技术。具体涉及一种基于空间时域卷积卷积网络的PM
10
浓度精细化预测模型。

技术介绍

[0002]粒径小于10微米的颗粒物通常称为可吸入颗粒物,也称PM
10
。PM
10
在空气中停留时间较长,人体吸入颗粒物后会在呼吸系统内聚集,可能引起多种疾病,对人体健康造成严重的危害。因此,精确化预测PM
10
浓度对保护空气环境质量和公众健康具有重要意义。
[0003]当前,细颗粒物预测建模已有许多研究基础。一些研究人员构建了面向源的化学扩散模型(CTMs),该模型通过排放清单、气象与化学机制估计颗粒物浓度,此方法的缺陷在于严重依赖于大气物理和化学反应的先验知识,难以有效解释其中的非线性和异质性特征。线性统计、时序模型通过曲线拟合和参数估计对颗粒物(PM
10
)进行预测,但这类模型无法反映复杂的非线性系统,预测误差普遍较大。浅层学习模型能够学习输入与输出之间复杂的非线性依赖关系,对PM
10
有较好的预测效果。它的局限性是在有限样本和计算单元的情况下对复杂函数的表示能力有限,模型的泛化能力受到一定的制约。
[0004]深度学习中两类模型用于颗粒物预测建模,一类是基于循环神经网络(RNN)的时序特征提取模型,另一类是基于图的空间特征提取模型。基于RNN的模型可以有效提取长期时间依赖性特征,对PM
10
预测精度较高,但存在着的梯度爆炸、梯度消失、内存需求大、迭代传播耗时等缺点。基于图卷积的模型利用监测站点空间分布及历史数据建模图的结构属性和节点特征信息,通过提取拓扑图空间特征以提升对PM
10
的预测精度。但目前图模型存在一些严重的局限性,如人为定义变量间的相互关系、节点之间的连接不包含相互依赖关系以及节点间存在连接缺失的问题,基于以上问题,图卷积模型很难捕捉动态时间序列之间稳定的边缘关系。
[0005]基于卷积的模型也被引入时空预测建模的领域。卷积神经网络(CNN)可以通过卷积核捕获局部感受野的空间特征,通过多层卷积和池化层获得全局空间特征,相比图模型有更稳定的空间特征捕获能力。CNN的分支模型因果卷积网络(CCN)已经被证实在时序预测任务中有优于RNN模型的表现,且该模型拥有灵活的感受野、体系结构简单、梯度稳定等优势。

技术实现思路

[0006]本专利技术解决的问题是:提出了基于空间时域卷积的PM
10
精细化预测框架。该框架包含的模型架构克服了传统时空预测建模方法的弊端(梯度消失、梯度爆炸、难以稳定捕获空间特征等问题),灵活接入的多源影响因素提升了模型预测精度。该框架提出的两种模型优化方法,对于提升模型预测性能提供了可行的研究方向。
[0007]本专利技术的技术解决方案为:本专利技术提出了一种基于空间时域卷积网络的PM
10
浓度精细化预测方法。首先对采集到的数据进行缺失值填充、特征选择的数据预处理。在建模
中,融合斯皮尔曼秩相关性、卷积神经网络、空间注意力构建空间特征提取模块。基于时间注意力和堆叠膨胀卷积构建时间特征提取模块。在模型优化中,提出了基于贝叶斯优化的超参数调优方法,以规避传统超参数调优方法的弊端;提出利用SHAP模型定量化分析了输入特征对模型预测的贡献,从而调优模型的输入特征。在模型测试验证中,采用Friedman显著性检验,在不同数据集上证明模型相比基准模型的显著优势。其具体步骤如下:
[0008](1)数据采集:从某地区的政府网站利用爬虫技术获取当地空气监测站地理位置信息、监测站历史数据。包括空气污染物浓度(PM
10
、PM
2.5
、CO、NO2、SO2、O3)和气象因素(温度、气压、湿度、风向、风速)小时数据。
[0009](2)数据预处理,具体步骤包括:
[0010](a)缺失值的处理。利用拉格朗日插值法对数据集中的短期缺失数据进行填充,应利用较少的临近点构建插值函数。利用近邻插补法对长期缺失数据进行填充,在历史数据中寻找临近日期有相似周期规律的时序插补缺失区域。拉格朗日插值过程如下:
[0011]由数学知识可知,对于平面上已知的n个点可以找到n

1次多项式曲线经过n个点。短期内存在缺失值,通过寻找临近的n个点坐标为(x
i
,y
i
)代入n

1次多项式,解出拉格朗日插值多项式:
[0012][0013]如上公式,将缺失的函数值对应的点x带入多项式得到趋势值的近似值L(x),进而填充数据集中的缺失部分。
[0014](b)特征值选择。利用斯皮尔曼秩相关性系数度量各项输入特征序列与PM
10
序列的联系的强弱。首先对两项特征序列按降序排序,记录两项特征序列排序后的位置。两个位置序列为秩次,求秩次差带入斯皮尔曼相关性系数公式,获得两项特征的相关性系数。选择与PM
10
相关性系数大的特征作为模型输入。斯皮尔曼秩相关系数计算公式如下:
[0015][0016]如上述公式,其中d
i
表示两项特征序列的秩次差,n表示两项特征序列的样本数量。
[0017](3)利用斯皮尔曼相关性分析、卷积神经网络和空间注意力机制提取强相关站点的空间异质性特征,具体步骤包括:
[0018](a)计算目标站点与周围其他站点的斯皮尔曼相关系数,分析站点间相关程度。计算公式如下所示:
[0019][0020]其中Y代表目标站点的历史数据,Y
k
代表周围某站点的历史数据,ρ(Y,Y
k
)表示站点间的斯皮尔曼相关性系数,N表示序列中样本数量。通过上述公式,可以得到目标站点与周围所有站点的相关系数列表ρ_list如下所示:
[0021]ρ_list=[ρ(Y
*
,Y1),ρ(Y
*
,Y2),...,ρ(Y
*
,Y
S
)]ꢀꢀꢀ
(4)
[0022]利用网格搜索法选择最优阈值,将所有相关系数与阈值ρ
th
进行比较,最终得到与目标站相关系数大于ρ
th
的M个站点集合如下:
[0023]X={X
i
|ρ(Y
*
,Y
i
)>ρ
th
,i∈1,...,M}
ꢀꢀꢀ
(5)
[0024]在(5)式中,X
i
表示某一空间强相关站点的二维特征矩阵,即X
i
∈R
T
×
L
,其中T代表站点数据时间步,L代表站点数据特征数量。X表示M个空间强相关站点组成的三维特征矩阵,即X本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于空间时域卷积网络的PM
10
浓度精细化预测方法,其特征在于,具体实施步骤如下:(1)利用拉格朗日插值法对缺失值进行处理,采用斯皮尔曼相关性系数进行特征选择;(2)融合时空注意力机制和多种卷积网络,构建空间时域卷积网络模型;(3)利用贝叶斯优化器对模型的多种超参数进行优化;(4)利用SHAP模型定量分析输入特征对模型产生的影响;(5)训练已优化的空间时域卷积网络模型并利用Friedman对模型进行显著性检验;(6)输出空间监测站点下一时刻PM
10
的浓度预测值。2.根据权利要求1所述的一种基于空间时域卷积网络的PM
10
浓度精细化预测方法,其特征在于,所述步骤(1)中,进行数据预处理包括:(1)利用拉格朗日插值法对数据集中的短期缺失数据进行填充,利用临近点构建插值函数;利用近邻插补法对长期缺失数据进行填充,在历史数据中寻找临近日期有相似周期规律的时序插补缺失区域;(2)利用斯皮尔曼秩相关性系数度量各项输入特征序列与PM
10
序列的联系的强弱;首先对两项特征序列按降序排序,记录两项特征序列排序后的位置;两个位置序列为秩次,求秩次差带入斯皮尔曼相关性系数公式,获得两项特征的相关性系数;选择与PM
10
相关性系数大的特征作为模型输入。3.根据权利要求1所述的一种基于空间时域卷积网络的PM
10
浓度精细化预测方法,其特征在于,所述步骤(2)中,构建空间时域卷积网络模型包括:(1)利用斯皮尔曼相关性分析、卷积神经网络和空间注意力机制提取强相关站点的空间异质性特征,具体步骤包括:(a)计算目标站点与周围其他站点的斯皮尔曼相关系数,分析站点间相关程度;计算公式如下所示:其中Y代表目标站点的历史数据,Y
k
代表周围某站点的历史数据,ρ(Y,Y
k
)表示站点间的斯皮尔曼相关性系数,N表示序列中样本数量;通过上述公式,得到目标站点与周围所有站点的相关系数列表ρ_list如下所示:ρ_list=[ρ(Y
*
,Y1),ρ(Y
*
,Y2),...,ρ(Y
*
,Y
S
)]
ꢀꢀꢀꢀꢀꢀ
(2)利用网格搜索法选择最优阈值,将所有相关系数与阈值ρ
th
进行比较,最终得到与目标站相关系数大于ρ
th
的M个站点集合如下X={X
i
|ρ(Y
*
,Y
i
)>ρ
th
,i∈1,...,M}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)在(3)式中,X
i
表示某一空间强相关站点的二维特征矩阵,即X
i
∈R
T
×
L
,其中T代表站点数据时间步,L代表站点数据特征数量;X表示M个空间强相关站点组成的三维特征矩阵,即X∈R
M
×
T
×
L
,其中M<=N;(b)利用CNN中的1
×
1卷积核以增加输出通道数的方式对X特征矩阵进行升维,使得卷积核维度增加,数据量扩增,从而提高模型对站点空间异质性特征的提取能力;使用M
new
个滤波器对X进行升维操作,滤波...

【专利技术属性】
技术研发人员:刘希亮张羽民赵俊杰高雨瑶李建强石宇良
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1