当前位置: 首页 > 专利查询>中山大学专利>正文

基于注意力机制循环神经网络的时间序列预测方法及系统技术方案

技术编号:26173036 阅读:30 留言:0更新日期:2020-10-31 13:53
本发明专利技术涉及一种基于注意力机制循环神经网络的时间序列预测方法及系统,包括:构建一数据集,从所述数据集中确认驱动序列和目标序列;构建基于注意力机制的循环神经网络模型,所述网络模型在驱动序列之间、驱动序列与目标序列之间、时间三个维度中运用注意力机制;将所述数据集划分出训练集、验证集和测试集,对模型参数进行定义,对所述网络模型进行训练,通过以均方误差为目标函数的反向传播算法来对所述参数进行学习;以及将所述测试集输入到训练后的所述网络模型中进行预测。本发明专利技术有效解决了由于输入序列过长而出现的信息丢失导致性能瓶颈的问题,同时有效捕捉较长的时间内序列之间的相关性,从而实现对时间序列的更精确的预测。

【技术实现步骤摘要】
基于注意力机制循环神经网络的时间序列预测方法及系统
本专利技术涉及时间序列预测领域,特别是涉及一种基于注意力机制循环神经网络的时间序列预测方法及系统。
技术介绍
随着物联网和大数据技术的发展,在金融市场预测、天气预报、复杂动力系统分析等领域,数据采集工作通常从多个不同的特征维度来进行,由此而产生的时间序列数据大多以多元特征的形式呈现。时间序列数据是在不同时间上收集到的数据,用于描述现象随时间变化的情况。时间序列预测是指通过时间序列的过去一段时间窗口长度的值向量以及多个驱动序列的当前和过去值来预测时间序列的当前值,在上述领域中具有重要的应用价值。循环神经网络(RecurrentNeuralNetwork,RNN)是一种专门为处理时序数据而设计的深度神经网络,其神经元的更新依赖上一次的输入以捕捉时序数据特征。RNN在捕获非线性关系方面具有很大的灵活性,然而,传统的RNN存在梯度消失的问题,难以捕获长期依赖关系。改进的RNN模型如长短期记忆网络(LongShort-TermMemory,LSTM)已经克服这个缺点,在机器翻译、语音识别和图像处本文档来自技高网...

【技术保护点】
1.一种基于注意力机制循环神经网络的时间序列预测方法,其特征在于,包括以下步骤:/n选择一数据源,所述数据源包含一定时期内的数据序列,从所述数据序列中挑选出部分或全部数据序列,并将这些数据序列分别定义为驱动序列或目标序列;/n构建基于注意力机制的循环神经网络模型,包括:对输入的数据序列建立循环神经网络的自注意力机制,对于同时间点不同所述驱动序列之间的关系进行关联;对所述循环神经网络的编码器部分建立注意力机制,对同时间点不同所述驱动序列与所述目标序列的关系进行关联;对所述循环神经网络的解码器部分建立注意力机制,对不同时间点的所述驱动序列与所述目标序列的关系进行关联;/n将所述数据集划分出训练集、...

【技术特征摘要】
1.一种基于注意力机制循环神经网络的时间序列预测方法,其特征在于,包括以下步骤:
选择一数据源,所述数据源包含一定时期内的数据序列,从所述数据序列中挑选出部分或全部数据序列,并将这些数据序列分别定义为驱动序列或目标序列;
构建基于注意力机制的循环神经网络模型,包括:对输入的数据序列建立循环神经网络的自注意力机制,对于同时间点不同所述驱动序列之间的关系进行关联;对所述循环神经网络的编码器部分建立注意力机制,对同时间点不同所述驱动序列与所述目标序列的关系进行关联;对所述循环神经网络的解码器部分建立注意力机制,对不同时间点的所述驱动序列与所述目标序列的关系进行关联;
将所述数据集划分出训练集、验证集和测试集;
对所述循环神经网络模型的参数进行定义,将所述训练集和验证集中的数据输入到经过所述参数定义后的网络模型进行训练;
同时使用均方误差的方法来构建损失函数,通过以均方误差为目标函数的反向传播算法来对所述参数进行学习;以及
通过所述经过训练的网络模型对数据进行预测。


2.根据权利要求1所述的基于注意力机制循环神经网络的时间序列预测方法,其特征在于,所述自注意力机制的构建方法具体为:
对于驱动序列向量ai,对每一个驱动序列i,计算其查询向量qi、键值向量ki和值向量vi,设xi为输出向量,则



其中,d为所述查询向量qi或所述键值向量ki的维度。


3.根据权利要求2所述的基于注意力机制循环神经网络的时间序列预测方法,其特征在于,所述编码器部分注意力机制的构建方法具体为:
对于时刻t的输入xt,编码器将xt映射为ht:
ht=f1(ht-1,xt)
其中,ht为t时刻的隐藏层状态,f1是一个采用LSTM结构的非线性集合函数,用ht-1和LSTM的神经元状态st-1作为输入来构建注意力层,对于所述驱动序列xi,其计算方式如下:



其中We、Ue、ve均为参数,[ht-1;st-1]是指两个向量的连接,经过Softmax层后即得到对应的权重经过这部分的注意力机制后得到的输出为



其中,t时刻的隐藏层状态更新为





4.根据权利要求3所述的基于注意力机制循环神经网络的时间序列预测方法,其特征在于,所述解码器部分注意力机制的构建方法具体为:
用解码器的隐藏层dt-1和解码器部分的LSTM的神经元状态s′t-1作为输入来构建注意力层,对于t时刻,计算方式如下



其中,Wd、Ud、vd均为参数,[dt-1;s′t-1]是指两个向量的连接,经过Softmax层后即得到对应的权重表示编码器第k(1≤k≤T)个隐藏状态的重要性,中间的上下文向量ct为:



将上下文向量与给定的已知目标序列进行连接:



隐藏层状态在t时刻的更新为



其中,f2为为一个采用LSTM结构的非线性集合函数,最后模型的输出预测结果为



其中,[dT;cT]是指两个向量的连接。


5.根据权利要求1至4中任一权利要求所述的基于注意力机制循环神经网络的时间序列预测方法,其特征在于:还包括对所述数据集中的数据进行预处理,所述预处理包括对缺失值的处理以及数据规范化处理。


6.根据权利要求5所述的基于注意力机制循环神经网络的时间序列预测方法,其特征在于,所述对缺失值的处理方法具体为:对于缺失值较少的数据序列,对其进行填充处理,包括线性插值填充方式、均值填充方式以及相邻数据填充方式;对于缺失值较多的数据序列,对其进行丢弃处理。...

【专利技术属性】
技术研发人员:吴雪敏潘炎刘冶
申请(专利权)人:中山大学火烈鸟网络广州股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1