针对特征过少地区冰雹强度的长时间序列预测方法技术

技术编号:38652326 阅读:13 留言:0更新日期:2023-09-02 22:40
本发明专利技术提出一种针对特征过少地区冰雹强度的长时间序列预测方法,用于解决传统时间序列预测模型因为输入数据和特征越少,而产生的冗余信息和过度拟合,并且输入数据过长导致训练时间复杂度、空间复杂度以及内存使用量过大的问题,针对informer模型进行改进,提出一种应用于气象领域的长时间序列预测模型。通过利用基于MPD的多粒度注意力机制以及SPH机制,修剪消除头中的冗余信息,并且利用ProbSparse自我注意力机制以及自我蒸馏操作减少编码器中的时间复杂度、空间复杂度以及内存使用量,对预测时因为输入数据和特征越少,而产生的冗余信息和过度拟合进行修正,以提高预测的效率和精确度。精确度。精确度。

【技术实现步骤摘要】
针对特征过少地区冰雹强度的长时间序列预测方法


[0001]本专利技术属于时间序列预测
,具体设计涉及一种针对特征过少地区冰雹强度的长时间序列预测方法。

技术介绍

[0002]时间序列预测一直是一个广受关注的问题,已经研究了多年。随着互联网的快速发展,时间序列预测在气象方面的应用得到了广泛的认可。然而,目前气象领域的时间序列预测仅仅局限于短期以及中期,中长期的预测方面还需要我们去探索。
[0003]解决LSTF问题的现有方法是(1)传统的机器学习方法,(2)基于RNN架构的递归神经网络(RNN)方法,以及(3)基于变压器架构的方法。
[0004]然而,尽管变压器架构被广泛采用[1],[2],但我们目前缺乏对变压器模型内的信息模式对长期序列预测任务的影响的理解。时序预测任务中的数据相对单一,因为数据在输入到模型中之前仅通过输入嵌入进行处理。奇点的这一特征在多头注意力中被放大,其中头部之间的相互作用仍然知之甚少。基于这个事实,我们将从以下思路出发:(1)增强输入数据特征的表达能力,(2)增强多头注意力的表示能力,(3)降低多个注意力头之间的相似性。下面我们将介绍当前输入数据和多头注意力机制的改进。
[0005]关于数据输入法,根据经验,在具有大量参数的模型中,输入数据和特征越少,就越容易产生冗余信息并导致过拟合[3]。这个问题在变压器结构中尤为突出。例如,来自变压器(BERT)模型[4]的双向编码器表示可以达到0.3B参数,但BERT除了执行嵌入操作(位置嵌入)外,不会进一步处理长输入序列。最近,已经对使用输入数据处理来增强模型表达进行了一些研究。深度和轻量级转换器(Delight)[5]和用于神经序列建模的深度分解输入令牌嵌入(DeFINE)[6]都使用线性群变换和扩展

缩减策略来处理输入。然而,这种策略大大增加了网络的计算复杂性。MG

SA[7]使用不同注意力头的输入将句子划分为不同的粒度进行训练。该模型的性能已经得到证明,但句子粒度划分过程需要事先扎实的知识或通过另一个模型进行粒度划分,这不适合LSTF问题。
[0006]根据经验,使用多头注意力机制可以提高结果模型的准确性[8]。但是,每个注意力头的焦点并没有什么不同。实验证明,一些头部被修剪而不会影响相关模型的性能。PaulMicheletal.(2019)[9]修剪了不同级别的头部,得到了一个包含修剪头部数量及其对所获结果准确性影响的表格,这证明了多头注意力中的一些头部是多余的。Voita等人(2019)[10]通过定义注意力头的功能并使用置信度和逐层相关性传播(LRP)来量化注意力头的重要性,对注意力头进行了冗余分析。以上结果表明,头部具有特定的图案,是可解释的。然而,注意力头的功能定义需要特定的专业知识,并且没有探索注意力头之间的联系。CollabHead用于确定注意力头之间的冗余信息。设计了一种优化的多注意力头集成方法,提取标准信息并与所有注意力头共享,使每个注意力头能够专注于捕获唯一信息,提高了BERT的推理效率,但该方法失去了一定的准确性。
[0007]PengyuZeng等人[11]发现,许多注意力头之间的相似度值非常高,这表明不同的
注意力头关注相似的特征。他们的发现意味着可以通过比较相似性值来修剪头部,并且可以对注意力输入进行多粒度处理以分离每个头部的注意力点。为此,他们根据上述观点改进了现有模型,建立了Muformer模型。
[0008]然而,在此过程中,自注意机制违反了对长序列输入和输出的有效操作的要求,因为它的L

二次计算和对L长度输入/输出的存储器消耗。一些大规模的Transformer模型在NLP任务上倾注了大量资源并产生了令人印象深刻的结果(Brown等人,2020年),但是在几十个GPU上的训练和昂贵的部署成本使得这些模型在现实世界LSTF是负担不起的。变换器框架成为应用它们解决LSTF问题的瓶颈。因此,HaoyiZhou等人[12]提出了Imformer模型:变压器模型可以改进以提高计算、存储和架构效率,同时保持更高的预测能力。
[0009]参考文献:
[0010][1].LiuY.,PanS.,WangY.G.,XiongF.,WangL.,ChenQ.,LeeV.:Anomalydetec tionindynamicgraphsviatransformer(2021).arXivpreprintarXiv:2106.09876
[0011][2].LiuZ.,LinY.,CaoY.,HuH.,WeiY.,ZhangZ.,LinS.,GuoB.:Swintransfor mer:Hierarchicalvisiontransformerusingshiftedwindows(2021).arXivprepr intarXiv:2103.14030
[0012][3].DaiX.,YinH.,JhaN.K.:NeST:Aneuralnetworksynthesistoolbasedonag row

and

pruneparadigm.IEEETrans.Comput.,68(10)(2019),pp.1487

1497
[0013][4].DevlinJ.,ChangM.

W.,LeeK.,ToutanovaK.:Bert:Pre

trainingofdeep bidirectionaltransformersforlanguageunderstanding(2018).arXivpreprint arXiv:1810.04805
[0014][5].MehtaS.,GhazvininejadM.,IyerS.,ZettlemoyerL.,HajishirziH.:DeLighT:Deepandlight

weighttransformer(2020).arXivpreprintarXiv:2008.00623
[0015][6].MehtaS.,Koncel

KedziorskiR.,RastegariM.,HajishirziH.:Define:Deepfactorizedinputtokenembeddingsforneuralsequencemodeling(2019).arXivpreprintarXiv:1911.12385
[0016][7].HaoJ.,WangX.,ShiS.,ZhangJ.,TuZ.:Multi

granularityself

attentionforneuralmachinetranslation(2019).arXivpreprintarXiv:1909.02222
[0017][8].CordonnierJ.

B.,LoukasA.,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.针对特征过少地区冰雹强度的长时间序列预测方法,其特征在于,基于informer模型包含编码器和解码器,对informer模型进行如下改进,编码器的输入端接收目标地区的历史时间序列,编码器包括依次相连的注意力模块、切片模块、蒸馏模块,编码器的输出端与蒸馏模块的输入端相连,解码器的输入端与蒸馏模块的输出端相连;注意力模块接收序列矩阵,将其转换为单头注意力并输出至切片模块;切片模块接收序列矩阵和单头注意力,将其转换为多头注意力并输出至蒸馏模块;蒸馏模块接收序列矩阵对其进行蒸馏获得新序列矩阵,蒸馏模块接收多头注意力,对其修剪注意力头,获得新的多头注意力;将新序列矩阵和新的多头注意力输出至解码器,解码器输出预测序列。2.根据权利要求1所述的针对特征过少地区冰雹强度的长时间序列预测方法,其特征在于,基于所述改进后的informer模型,获取目标地区在历史时间段内的历史冰雹强度数据和历史气象信息数据,构建包含目标地区的历史冰雹强度序列数据以及目标地区的历史气象信息数据的数据集,利用数据集对改进后的informer模型进行训练,得到训练完成的冰雹强度预测模型,具体包括以下步骤:步骤1、获取目标地区在历史时间段内的历史冰雹强度数据和历史气象信息数据,并对其进行预处理和归一化操作,获得目标地区在历史时间段内预设时间间隔的历史冰雹强度时间序列X
t
;对冰雹强度时间序列X
t
进行统一转换,获得目标地区在历史时间段内的冰雹强度序列矩阵其中,t表示每个时间间隔的坐标在时间序列中的位置;步骤2、将冰雹强度序列矩阵输入到注意力模块中,并在ProbSparse自我注意力机制中构建依赖关系,得到单头注意力矩阵Attention(Q,K,V);步骤3、将冰雹强度序列矩阵和单头注意力矩阵Attention(Q,K,V)输入到切片模块中,通过对冰雹强度序列矩阵进行切片并输入至基于多感知域MPD的多粒度注意力机制,将单头注意力矩阵Attention(Q,K,V)转化为具有不同粒度的多头注意力MultiHead(Q,K,V);步骤4、将多头注意力MultiHead(Q,K,V)和冰雹强度序列矩阵输入至蒸馏模块中,针对多头注意力MultiHead(Q,K,V),通过修剪注意力头以消除头部冗余信息,得到新的多头注意力MultiHeadnew(Q,K,V);对冰雹强度序列矩阵进行蒸馏操作,获得新序列矩阵步骤5、将新的多头注意力MultiHeadnew(Q,K,V)和新序列矩阵输入至解码器中,针对编码器中新的多头注意力MultiHeadnew(Q,K,V),编码器和解码器的注意力层进行特征交互,将新序列矩阵输入到解码器中的多头注意力层中,同时在解码器中输入由及组成的动态采样序列其中,为编码器输入的后半部分,序列数值为零,解码器使用生成式解码方法,得到目标地区在目标时刻的预测冰雹强度序列Y
t
;步骤6、将目标地区的历史冰雹强度序列数据以及目标地区的历史气象信息数据作为输入,对应的目标地区的未来冰雹强度序列作为输出,利用数据集对待训练冰雹强度预测模型进行训练,得到训练完成的冰雹强度预测模型。
3.根据权利要求1所述的针对特征过少地区冰雹强度的长时间序列预测方法,其特征在于,所述步骤1具体包括以下步骤:首先,获取目标地区在历史时间段内各时刻的历史冰雹强度数据,进而构建目标地区在历史时间段内预设时间间隔的历史冰雹强度时间序列X
t
,其中,为历史时间段内各时刻t下目标地区的第i个冰雹强度特征向量,i∈{1,...,L
x
},L
x
表示序列X
t
的长度,d
x
表示输入要素尺寸,即每个时间间隔的输入特征维度数,表示t时刻目标地区的冰雹强度数据;基于编码器包括卷积层和全连接层,对冰雹强度时间序列X
t
输入卷积层中;对每个时刻的历史冰雹强度数据进行一维卷积处理,得到特征向量通过全连接层处理每个时间点对应的特征向量所对应的位置信息,对序列进行位置编码;位置编码的公式如下:码的公式如下:其中其中,PE表示被编码的向量,其中t表示坐标在序列中的位置;2j和2j+1表示向量的第2j和2j+1个维度,编码的维度为d_{model};最后,把2维的坐标序列映射到d_{model}维度,并和位置编码后的向量PE进行相加,得到嵌入位置信息后高维向量的冰雹强度序列矩阵具体的公式如下:4.根据权利要求1所述的针对特征过少地区冰雹强度的长时间序列预测方法,其特征在于,所述步骤2具体包括以下步骤:将冰雹强度序列矩阵输入到编码器中,并将其在ProbSparse自我注意力机制中构建依赖关系:构建依赖关系:其中,Q、K、V在根据目标地区在历史时间段内的冰雹强度序列矩阵得到的多头注意力机制层中分别表示查询、键和值,W为计算权值操作,V值的权重通过查询Q和键K计算得出,在计算出查询Q和键V的权重以后,再计算得到V值的加权和,d指输入的维度;其中,第i个Query的attention系...

【专利技术属性】
技术研发人员:荣欢岳璐蒋薇
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1