当前位置: 首页 > 专利查询>浙江大学专利>正文

基于CycleGAN神经网络的多步长时间序列预测方法技术

技术编号:28296178 阅读:16 留言:0更新日期:2021-04-30 16:20
本发明专利技术涉及时间序列预测领域,旨在提供一种基于CycleGAN神经网络的多步长时间序列预测方法。包括:构建数据集;搭建基于CycleGAN的深度神经网络模型,该模型具有成对的生成对抗网络结构,包括两个生成器和两个判别器;其中,生成器用来生成符合待预测的真实数据的分布,判别器用来判别生成的数据是否符合真实的数据分布;训练网络模型,依次交替训练生成器和判别器,使用误差进行反向传播以优化参数;利用训练后的生成器进行预测,并输出预测结果。本发明专利技术利用神经网络技术进行多步时间序列预测,通过循环对抗训练可以捕捉数据的高维统计特性从而取得高精度的预测结果。相比于现有技术,适用于更多的数据集。

【技术实现步骤摘要】
基于CycleGAN神经网络的多步长时间序列预测方法
本专利技术涉及时间序列预测领域,特别涉及基于CycleGAN的多步长时间序列预测方法。
技术介绍
时间序列预测在诸如经济、金融、能源、交通、医疗、气象,商业等多个领域中起关键作用。例如,预测未来的气温、能源消耗、商品的销量、交通的流量等。精准地预测这些数据将能够使人们做出更好的掌握先机,对人们的决策具有重要的指导意义。现有的时间序列预测方法均存在一些缺陷。例如,ARIMA、STL以及结合了指数平滑法的传统的时间序列模型,难以捕捉到时间序列的高维非线性特征,难以对复杂的时间序列数据进行建模。机器学习的方法(如SVM、决策树、随机森林等方法)能够通过学习捕捉到信号特征从而取得更高的精度,但是依然需要进行复杂的特征工程,并且对于复杂时间的序列的预测能力依然不足。基于神经网络的方法相比于传统方法能够更好地捕捉序列数据的高维特征。目前主流的方法包括基于循环神经网络RNN的方法。RNN包含学习的记忆单元,能够自动学习数据在时间上的依赖,被广泛应用在语音识别、机器翻译等领域。但是RNN的缺点十分明显,由于存在梯度消失和梯度爆炸等问题,无法捕获长时的时序依赖。基于RNN的改进,LSTM和GRU解决了上述问题。作为一种特殊的RNN,能使神经元在其管道中保持上下文记忆,同时又解决了梯度消失问题。然而LSTM和GRU在当前时刻的预测点在很大程度上取决于上一时刻的预测点,因此通常只对单步时间序列预测有效,而多步长的时间序列中如果前一时刻的预测出现误差而模型却无法感知,因此预测误差将会随着步长的增加而累积。近年来注意力机制被广泛应用于深度学习中,能够让模型更好地捕获数据中的关键信息使得模型的学习能力得到增强。编码器解码器模型通过能够让模型具有更好的鲁棒性,将历史序列编码成固定长度的语义长度向量作为上下文,然后通过解码器进行解码输出。这种方式能够进行表征学习,有效提取数据的高维特征,通常结合上注意力机制进行学习训练,典型的结果就是著名的seq2seq-attn,在语音识别、自然语言处理等多个领域取得显著的成果。基于卷积神经网络CNN的结构在图像识别领域大放异彩,近年来也被应用于序列预测问题,典型的代表是Wavenet和TCN,它通过膨胀卷积和残差连接的方式,保证了序列的因果性的同时避免了梯度消失问题;和基于LSTM的结构相比,具有更快的速度并且可并行训练。当然,基于CNN的神经网络也可以结合注意力机制和编码器解码器结构进行增强。另一种比较著名的模型叫做长短期记忆网络LSTNET,它同时结合了CNN和RNN,利用CNN来捕捉序列的宏观特征,采用RNN来捕获短期依赖。此外还有结合堆栈自编码器进行表征学习的模型LSTM-SAE、基于生成对抗思想的TimeGAN等模型。在分布稳定的数据中如语音等数据集中,采用基于CNN、LSTM等模型就可以有良好的表现。然而由于大多数时间序列数据具有高阶非平稳的特征,分布不断随着外在因素的变化而改变,如房价随着政策、人口、经济因素不断变化,上述的模型难以捕捉序列的高阶非平稳特征,并且对于额外特征与目标变量之间的依赖难以捕获。并且大多数的数据集样本数量较少,因而传统的模型及其容易过拟合。
技术实现思路
本专利技术要解决的技术问题是,克服现有技术中的不足,提供一种基于CycleGAN神经网络的多步长时间序列预测方法。为解决上述技术问题,本专利技术采用的解决方案是:提供一种基于CycleGAN神经网络的多步长时间序列预测方法,包括以下步骤:(1)构建数据集采用滑动窗口的形式构建数据集,并划分训练集和测试集,不设置验证集;(2)搭建神经网络模型搭建基于CycleGAN的深度神经网络模型,该模型具有成对的生成对抗网络结构,包括两个生成器和两个判别器;其中,生成器用来生成符合待预测的真实数据的分布,判别器用来判别生成的数据是否符合真实的数据分布;所述两个生成器均采用Seq2Seq模块+attention模块的结构,其中一个生成器A用于根据历史数据来预测未来数据,另一个生成器B用于以未来数据还原历史数据;所述两个判别器均采用TCN结合全连接,用于判别生成器生成的模型是否符合真实分布;(3)训练网络模型依次交替训练生成器和判别器,使用误差进行反向传播以优化参数;(4)输出预测结果利用训练后的生成器进行预测,并输出预测结果。本专利技术中,所述步骤(1)中,在构建数据集时,将数据集处理成csv格式,待测目标变量置于第一列,连续特征置于待测目标之后,离散特征进行编码后置于连续特征之后;如果数据中有缺失值,则采用线性插值填充或相邻数据填充的方式来进行填充。本专利技术中,所述步骤(2)中,在生成器的Seq2Seq模块+attention模块结构中,所述Seq2Seq模块由一个LSTM编码器和一个LSTM解码器构成,包括以下内容:it=σ(Wi[ht-1,xt-1]+bi)ft=σ(Wf[ht-1,xt-1]+bf)ot=σ(Wo[ht-1,xt-1]+bo)ht=ottanh(Ct)其中,itft,ot分别表示输入门、遗忘门和输出门,Ct表示细胞状态,为细胞状态候选值,Wi,Wf,Wo,Wc分别表示控制每个门输出的权值矩阵;bi,bf,bc,bo分别表示it,ft,Ct,和ot的偏置量;Ct-1表示上一层的细胞,xt-1表示当前的输入,ht-1表示上层的隐藏层输出;σ为sigmoid函数,tanh为激活函数,ht表示隐层输出。本专利技术中,所述步骤(2)中,在生成器的Seq2Seq模块+attention模块结构中,所述attention模块(注意力机制)具体包括以下内容:Attention(Q,K,V)=A(Q,K)VOutput=A(Q,K)WO其中Attention表示注意力函数,Output表示该模型最终输出,Softmax是概率分布函数,dattn是一个参数,用于对特征进行尺度上的归一化,K是存储特征的键,V是存储特征的值,Q是输入的查询特征。WO是网络输出的权重,KT是K的转置。所述attention模块的输入来自Seq2Seq模块的LSTM编码器的隐藏层的输出;深度神经网络模型采用注意力机制来学习各个特征不同时间步之间的长期依赖关系;键是某个时间片段的键值,给定目标中某个元素的查询,通过计算查询Q和键的相似性,得到每个键对目标的权重系数,然后对目标进行加权求和,即得到最终Attention的值。本专利技术中,将attention模块的输出和LSTM编码器的隐藏层的输出连接起来,作为LSTM解码器的历史状态的输入。本专利技术中,所述步骤(2)中,所述判别器采用膨胀卷积结合残差连接的结构以实现TCN结合全连接,通过扩大卷积来提高感受野,并且层与层之间采用残差连接;具体包括以下内容:其中,f是第i层的一维卷积核,x是第i层输入信号,i表本文档来自技高网
...

【技术保护点】
1.一种基于CycleGAN神经网络的多步长时间序列预测方法,其特征在于,包括以下步骤:/n(1)构建数据集/n采用滑动窗口的形式构建数据集,并划分训练集和测试集,不设置验证集;/n(2)搭建神经网络模型/n搭建基于CycleGAN的深度神经网络模型,该模型具有成对的生成对抗网络结构,包括两个生成器和两个判别器;其中,生成器用来生成符合待预测的真实数据的分布,判别器用来判别生成的数据是否符合真实的数据分布;/n所述两个生成器均采用Seq2Seq模块+attention模块的结构,其中一个生成器A用于根据历史数据来预测未来数据,另一个生成器B用于以未来数据还原历史数据;所述两个判别器均采用TCN结合全连接,用于判别生成器生成的模型是否符合真实分布;/n(3)训练网络模型/n依次交替训练生成器和判别器,使用误差进行反向传播以优化参数;/n(4)输出预测结果/n利用训练后的生成器进行预测,并输出预测结果。/n

【技术特征摘要】
1.一种基于CycleGAN神经网络的多步长时间序列预测方法,其特征在于,包括以下步骤:
(1)构建数据集
采用滑动窗口的形式构建数据集,并划分训练集和测试集,不设置验证集;
(2)搭建神经网络模型
搭建基于CycleGAN的深度神经网络模型,该模型具有成对的生成对抗网络结构,包括两个生成器和两个判别器;其中,生成器用来生成符合待预测的真实数据的分布,判别器用来判别生成的数据是否符合真实的数据分布;
所述两个生成器均采用Seq2Seq模块+attention模块的结构,其中一个生成器A用于根据历史数据来预测未来数据,另一个生成器B用于以未来数据还原历史数据;所述两个判别器均采用TCN结合全连接,用于判别生成器生成的模型是否符合真实分布;
(3)训练网络模型
依次交替训练生成器和判别器,使用误差进行反向传播以优化参数;
(4)输出预测结果
利用训练后的生成器进行预测,并输出预测结果。


2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,在构建数据集时,将数据集处理成csv格式,待测目标变量置于第一列,连续特征置于待测目标之后,离散特征进行编码后置于连续特征之后;如果数据中有缺失值,则采用线性插值填充或相邻数据填充的方式来进行填充。


3.根据权利要求1所述的方法,其特征在于,所述步骤(2)中,在生成器的Seq2Seq模块+attention模块结构中,所述Seq2Seq模块由一个LSTM编码器和一个LSTM解码器构成,包括以下内容:
it=σ(Wi[ht-1,xt-1]+bi)
ft=σ(Wf[ht-1,xt-1]+bf)






ot=σ(Wo[ht-1,xt-1]+bo)
ht=ottanh(Ct)
其中,itft,ot分别表示输入门、遗忘门和输出门,Ct表示细胞状态,为细胞状态候选值,Wi,Wf,Wo,Wc分别表示控制每个门输出的权值矩阵;bi,bf,bc,bo分别表示it,ft,Ct,和ot的偏置量;Ct-1表示上一层的细胞,xt-1表示当前的输入,ht-1表示上层的隐藏层输出;σ为sigmoid函数,tanh为激活函数,ht表示隐层输出。


4.根据权利要求1所述的方法,其特征在于,所述步骤(2)中,在生成器的Seq2Seq模块+attention模块结构中,所述attention模块(注意力机制)具体包括以下内容:
Attention(Q,K,V)=A(Q,K)V



Output=A(Q,K)WO
其中Attention表示注意力函数,Output表示...

【专利技术属性】
技术研发人员:周利旺杜阳
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1