基于递归门控卷积和注意力机制改进的ENSO时空预测方法技术

技术编号:37972507 阅读:9 留言:0更新日期:2023-06-30 09:47
本发明专利技术公开了基于递归门控卷积和注意力机制改进的ENSO时空预测方法,包括如下步骤,S1、构建ENSO样本数据集;S2、构建密集卷积(Dense Block)模块增强特征传播降低参数数量;S3、构建利用Attention机制改进的MIMG

【技术实现步骤摘要】
基于递归门控卷积和注意力机制改进的ENSO时空预测方法


[0001]本专利技术属于深度学习时空预测领域,具体涉及基于递归门控卷积和注意力机制改进的ENSO时空预测方法。

技术介绍

[0002]时空序列预测问题包含了时间和空间两个方面的因素,这里时间指的就是前后的序列,空间既指向图片上的目标以及目标的移动和变化的空间信息,也指表格化数据中的GPS数据或者经纬度的空间信息。ENSO(El

Southern Oscillation,厄尔尼诺南方涛动)预测的数据采用的是后者经纬度的空间信息。
[0003]当前存在的很多时空序列模型存在着缺点与不足。传统的RNN模型会导致严重的梯度爆炸和梯度消失问题并且无法很好的处理远距离依赖。为了缓解这些问题,并进一步优化RNN模型,1997年Hochreater和Schmidhuber提出了Long Short

Term Memory(LSTM)模型,通过注入gate学习选择性的记忆重要信息和遗忘次要信息,提高了RNN模型性能。为了更好的将LSTM模型应用在图像序列上,2015年施行建博士提出了一种将卷积结构与LSTM相结合的新型网络Convolutional LSTM,该模型可以同时学习到空间和时间上特征。2016年,施行建博士继续提出了轨迹GRU来克服卷积结构的局部不变性。2017年,Yunbo Wang等人对ConvLSTM的内部结构进行了改进,提出一种“之”字形网络PredRNN以有效利用横向和纵向信息。2018年又进一步对此进行了改进提出了PredRNN++,每个时间步和每一层之间有一个可适应的连接同时服务于长时和短时的路线,并提出Gradient Highway Unit用来防止长时导致的梯度消失。2019年,Yunbo Wang等人继续提出Memory In Memory网络,利用相邻重复状态之间的差异信号,通过两个级联的、自更新的记忆模块,对时空动态学中的非平稳和近似稳定特性进行建模。通过叠加多个MIM块潜在地处理高阶非平稳性。
[0004]传统的Encoder

Decoder模型需要将所有输入序列压缩进一个固定大小的矢量中,这必然会造成大量关键信息的丢失从而影响模型性能,此外同等对待所有保留信息也是不合理的。注意力机制可以看作是对输入的重要信息的动态选择,这个选择过程是由对于特征自适应权重实现的。一般来说,注意力机制被分为以下四大类:通道注意力机制、空间注意力机制、时间注意力机制、分支注意力机制,另外还有两种混合注意力机制:通道&空间注意力机制、空间&时间注意力机制。

技术实现思路

[0005]本专利技术所要解决的技术问题是:提出基于递归门控卷积和注意力机制改进的ENSO时空预测方法,解决时空序列预测长期依赖问题并缓解ENSO数据时空非平稳性对预测的影响。
[0006]为实现上述目的,本专利技术提供如下技术方案:基于递归门控卷积和注意力机制改进的ENSO时空预测方法,包括如下步骤:
[0007]S1、采集待观察区域的ENSO原始数据,进行预处理,构建ENSO样本数据集;
[0008]S2、构建两层Dense Block网络对ENSO样本数据集进行压缩,获得时空序列的高维空间特征F;
[0009]S3、将步骤S2得到的时空序列的高维空间特征图输入至注意力机制连接MIMG

Encoder

Decoder架构中,进行自适应特征修正,通过预测网络获得最终预测结果;
[0010]S4、以步骤S3获得的预测结果为输入,经过转置卷积模块,恢复特征图原始大小;
[0011]S5、ENSO样本数据集中T帧数据的矢量序列为输入、其对应的预测序列为输出,结合两层Dense Block网络、注意力机制连接MIMG

Encoder

Decoder架构、以及转置卷积模块构建并训练ENSO时空预测模型,并在训练中采用早停法、设置学习率自动衰减。
[0012]进一步地,前述的步骤S2具体为:以两层Dense Block模块构建一个卷积神经网络,以X=(B,S,C,H,W)为输入,其中,B表示批量大小,S表示时间步,C表示通道数,H表示输入特征图的高,W表示输入特征图的宽,通过Dense Block模块提取每次输入的空间特征,每一层的输入都是前面所有层的输出的集合,如下式:
[0013]X
k
‑1=H
k
([X0,X1,

,X
k
‑2])
[0014]其中,X0表示第1个月区域的SSTA经过第一层后提取的特征值,该层学习到的特征X
k
‑1被直接传递到后面的所有层作为输入,如下式:
[0015]X
k
=H
k
([X0,X1,

,X
k
‑1])
[0016]其中,[X0,X1,

,X
k
‑1]表示前k层对第1个月区域的SSTA提取的特征集合,H
k
表示三个连续操作:批量归一化、ReLU激活函数、3
×
3卷积的复合函数。
[0017]进一步地,前述的步骤S3包括如下子步骤:
[0018]S301、构建MIMG

Encoder

Decoder架构:Encoder对时空序列的高维空间特征图进行编码,将其转换为向量形式,然后Decoder对该向量进行解码,还原为输出序列;在编码模块中,经过Dense Block模块和注意力机制提取特征后的输出作为ST

LSTM的输入然后生成它的隐状态,接着进入三层MIMG堆叠模块,在解码模块中使用三层MIMG堆叠模块,所有输入序列共享Encoder的参数且所有输出序列共享Decoder的参数;
[0019]S302、用Attention模块连接Dense Block和MIMG

Encoder

Decoder架构:将时空序列的高维空间特征F作为Attention模块的输入,F∈R
C*H*W
,再经过通道注意力模块一维卷积M
c
∈R
C*1*1
,将卷积结果乘原图,将通道注意力模块输出结果作为空间注意力模块的输入,进行空间注意力模块的二维卷积M
s
∈R
1*H*W
,再将输出结果与原图相乘,如下式:
[0020]F

=M
c
(F)*F
[0021]F

=M
S
(F

)*F


[0022]进一步地,前述的步骤S302包括如下子步骤:
[0023]S302...

【技术保护点】

【技术特征摘要】
1.基于递归门控卷积和注意力机制改进的ENSO时空预测方法,其特征在于,包括如下步骤:S1、采集待观察区域的ENSO原始数据,进行预处理,构建ENSO样本数据集;S2、构建两层Dense Block网络对ENSO样本数据集进行压缩,获得时空序列的高维空间特征F;S3、将步骤S2得到的时空序列的高维空间特征图输入至注意力机制连接MIMG

Encoder

Decoder架构中,进行自适应特征修正,通过预测网络获得最终预测结果;S4、以步骤S3获得的预测结果为输入,经过转置卷积模块,恢复特征图原始大小;S5、ENSO样本数据集中T帧数据的矢量序列为输入、其对应的预测序列为输出,结合两层Dense Block网络、注意力机制连接MIMG

Encoder

Decoder架构、以及转置卷积模块构建并训练ENSO时空预测模型,并在训练中采用早停法、设置学习率自动衰减。2.根据权利要求1所述的基于递归门控卷积和注意力机制改进的ENSO时空预测方法,其特征在于,步骤S2具体为:以两层Dense Block模块构建一个卷积神经网络,以X=(B,S,C,H,W)为输入,其中,B表示批量大小,S表示时间步,C表示通道数,H表示输入特征图的高,W表示输入特征图的宽,通过Dense Block模块提取每次输入的空间特征,每一层的输入都是前面所有层的输出的集合,如下式:x
k
‑1=H
k
([x0,x1,

,x
k
‑2])其中,X0表示第1个月区域的SSTA经过第一层后提取的特征值,该层学习到的特征X
k
‑1被直接传递到后面的所有层作为输入,如下式:X
k
=H
k
([x0,x1...,x
k
‑11)其中,[X0,X1,

,X
k
‑1]表示前k层对第1个月区域的SSTA提取的特征集合,H
k
表示三个连续操作:批量归一化、ReLU激活函数、3
×
3卷积的复合函数。3.根据权利要求1所述的基于递归门控卷积和注意力机制改进的ENSO时空预测方法,其特征在于,步骤S3包括如下子步骤:S301、构建MIMG

Encoder

Decoder架构:Encoder对时空序列的高维空间特征图进行编码,将其转换为向量形式,然后Decoder对该向量进行解码,还原为输出序列;在编码模块中,经过Dense Block模块和注意力机制提取特征后的输出作为ST

LSTM的输入然后生成它的隐状态,接着进入三层MIMG堆叠模块,在解码模块中使用三层MIMG堆叠模块,所有输入序列共享Encoder的参数且所有输出序列共享Decoder的参数;S302、用Attention模块连接Dense Block和MIMG

Encoder

Decoder架构:将时空序列的高维空间特征F作为Attention模块的输入,F∈R
C*H*W
,再经过通道注意力模块一维卷积M
c
∈R
C*1*1
,将卷积结果乘原图,将通道注意力模块输出结果作为空间注意力模块的输入,进行空间注意力模块的二维卷积M
s
∈R
1*H*W
,再将输出结果与原图相乘,如下式:F'=M
c
(F)*FF"=M
s
(F')*F'。4.根据权利要求3所述的基于递归门控卷积和注意力机制改进的ENSO时空预测方法,其特征在于,步骤S302包括如下子步骤:S302

1所述通道注意力模块,输入的时空序列的高维空间特征F先经过两个并行的
MaxPool层和AvgPool层,将特征图维度从C*H*W变为C*1*1,然后经过MLP模块,将通道数压缩为原来的1/r,再扩张到原通道数,经过ReLU激活函数得到两个激活后的结果,将这两个输出结果进行逐元素相加,再通过一个sigmoid激活函数得到CAM的输出结果,最后将这个输出结果乘原图,变回C*H*W的大小,如下式:其中,σ是激活函数,W0、W1是MLP的两个权重,是平均池化,是最大池化;S302

2、空间注意力机制首先将通道注意力的输出M
c
(F)在通道维度平均池化和最大池化然后将产生的特征图进行拼接起来,然后在拼接后的特征图上,使用滤波器大小为7
×
7的卷积操作f
7x7
产生最终的空间注意力特征图M
s
(F),如下式:S302

3、将空间注意力机制输出,即Nino3.4区域的SSTA在空间和通道维度上提取到的特征,作为ST

LSTM下一个时间步的输入。5.根据权利要求3所述的基于递归门控卷积和注意力机制改进的ENSO时空预测方法,其特征在于,步骤S301具体为:所述MIMG模块,在MIM的基础上嵌入了递归门控卷积的残差形式rgConv,首先使用来获得一组投影特征和如下式:其中,rgConv的输入特征的维度为高
×

×
通道数H
×
W
×
C,p、q表示投影特征,是执行通道混合的投影层,k表示层数,C0是第1阶的通道数,C
k
是第k+1阶的通道数,n

1是最大阶数;然后递归地执行门控卷积,如下式:p
k+1
=f
k
(q
k
)

g
k
(p
k
)/α,k=0,1,

,n

1其中,f
k
表示深度方向的卷积层,g
k
表示按不同顺序的匹配维度;k表示层数,p
k
、q
k
表示第k层的投影特征;将最后一个递归步骤的输出p
n<...

【专利技术属性】
技术研发人员:方巍沙雨
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1