当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法技术

技术编号:33543291 阅读:26 留言:0更新日期:2022-05-21 09:56
本发明专利技术公开了一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法、预测模型以及提供一种基于Transformer框架的多变量长序列时间序列预测方法,以解决现有多变量长序列时间序列预测方法存在的无法高效处理长时间输入序列、计算复杂度和空间消耗较高、未充分利用变量之间潜在的空间相关性及忽视长序列时间序列稳定的周期模式等技术问题。视长序列时间序列稳定的周期模式等技术问题。视长序列时间序列稳定的周期模式等技术问题。

【技术实现步骤摘要】
一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法


[0001]本专利技术涉及计算机数据处理技术及性能改进
,特别涉及时间序列预测技术,具体为一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法、预测模型以及预测方法。

技术介绍

[0002]多变量时间序列预测已广泛应用于交通规划、能源消耗、金融管理、天气预报和疾病传播分析等场景中,不断重塑着现代社会。例如对交通流量进行预测以规划最佳行驶路线,对股票市场进行预测以设计最佳投资策略。在这些实际应用中,一个迫切的需求就是将预测时间延长到遥远的未来,这对于长期规划和预防警示有着重要的意义。进行准确的多变量长序列时间序列预测是一项具有挑战性的任务,不仅需要高效地处理长时间输入序列,而且需要同时考虑变量内相关性(即一个时间序列内的时间相关性)和变量间相关性(即单个变量的预测值受其他变量值的影响)。
[0003]然而,现有的研究大多着眼于短期场景下的预测。基于统计学习的时间序列预测方法,例如差分整合移动平均自回归ARIMA,风险价值模型VAR和高斯本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述方法包括如下步骤:步骤1:处理数据集:对多变量时间序列数据进行数据处理操作,构建多变量时间序列数据集X;步骤2:位置编码:将历史序列x
t
输入Convld层转换为高维空间向量以增强表示能力,并与保持局部上下文信息的位置编码相加构成编码器的输入步骤3:引入概率稀疏自注意力机制:利用KL散度度量自注意力机制原始查询Q的稀疏度M(q
i
,K),提取稀疏度最高的前u个查询形成稀疏查询矩阵通过这种让每个键都只关注主要查询的方式计算注意力分数A(Q,K,V);步骤4:构建基于自适应图学习和扩散图卷积的稀疏自注意力模块:学习一个查询嵌入字典以自适应生成的图结构G,经过扩散图卷积得到利用稀疏注意力机制在上寻找最主要的序列,提取序列之间的空间相关性;步骤5:设计编码器:叠加多头注意力机制,基于图的稀疏自注意力模块及扩展因果卷积

MaxPool层,采用传递机制拼接生成的不同尺度的特征图,以获得编码器的隐含表达;步骤6:设计解码器:使用包含有不少于2层的基于图的稀疏自注意力模块的生成式解码器结构,最后使用全连接层获取预测序列步骤7:训练模型:引入梯度中心化技术改进Adam优化器,设置所需的参数并训练模型。2.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤S1包括如下子步骤:步骤1.1:对多变量时间序列数据使用异常值处理及缺失值填补等数据预处理方法,构建多变量时间序列数据集X;步骤1.2:对数据集X进行Z

score标准化;步骤1.3:根据按照时间顺序,将数据集划分训练集、验证集和测试集,其中训练集占数据集的总量最多。3.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤2包括如下子步骤:步骤2.1:使用位置编码技术处理输入序列x
t
::其中d
model
为模型的维度,L
x
为输入序列的长度,pos为当前数据在输入序列x
t
中的位置;步骤2.2:通过Convld操作,投影为特征维数为d的向量步骤2.3:编码器的输入由和位置编码构成:其中i∈{1,...,L
x
}。
4.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤3包括如下子步骤:步骤3.1:将输入投影为查询向量Q,键向量K和值向量V以计算注意力分数A(X),使用多头注意力机制从不同的线性子空间中挖掘信息:MultiHead(X)=Concat(W
k
,A(X)
k
)其中为投影操作的可学习参数,k为头数;步骤3.2:从原始Q中随机选择U=L
k
lnL
Q
个点积对计算稀疏度M(q
i
,K),其中M(q
i
,K)由KL散度进行度量,其计算公式为:其中q
i
,k
i
,v
i
分别表示Q,K和V的第i行,d为输入维度;步骤3.3:提取稀疏度最高的前u=clnL
Q
个查询形成稀疏矩阵其中c为固定的采样因子;通过将中剩余对使用0进行填充,替换原始Q为相同尺寸的稀疏步骤3.4:让所有的键都只和这u个主要的查询计算点积,再除以并使用Softmax函数获取其权重,得到优化后的注意力分数A(Q,K,V):5.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:其中步骤4包括如下子步骤:步骤4.1:在稀疏矩阵上随机初始化一个可学习的查询嵌入字典并分配给所有的查询;步骤4.2:将与相乘,自适应地学习出图的邻接矩阵,同时使用非线性激活函数ELU,其计算公式为:其...

【专利技术属性】
技术研发人员:郑林江龙颢
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1