当前位置: 首页 > 专利查询>郑州大学专利>正文

基于GTN的多元时间序列分类模型及其构建方法技术

技术编号:28980576 阅读:93 留言:0更新日期:2021-06-23 09:27
本发明专利技术涉及一种基于GTN的多元时间序列分类模型及其构建方法,多元时间序列分类模型包括embedding层、Two‑tower Transformer层、gating层、线性层和softmax函数层,gating层根据每个tower的输出,得到每个tower的门控权重,并将得到的门控权重加入到相应tower的输出中,连接成最终的特征向量,线性层将gating层得到的结果维度转换成最终分类结果维度,softmax函数层将线性层的输出映射到[0,1]区间内,使得所有输出值的累加和为1,在最后选取输出结点时,选取概率最大的结点,可以实现更高的分类准确率,为以后的时间序列分类任务开辟了新的思路。

【技术实现步骤摘要】
基于GTN的多元时间序列分类模型及其构建方法
本专利技术涉及一种基于GTN的多元时间序列分类模型及其构建方法。
技术介绍
深度学习经过多年的发展与研究,目前主流的神经网络有深度神经网络DNN(DeepNeuralNetwork)、卷积神经网络CNN(ConvolutionalNeuralNetworks)、循环神经网RNN(RecurrentNeuralNetworks)和基于注意力机制的Transformer模型。在大数据时代,数据的类型多种多样,常见的数据类型有视频、图像、时间序列等,而深度学习解决的任务大体上分为分类和预测两种任务。DNN网络其实就是仅由全连接构成的前馈深度神经网络(FullyConnectedFeedForwardNeuralNetworks),Deep表示他的网络模型具有较多的隐藏层,整体深度较大,且完全由全连接层构成。它适用于大部分分类(Classification)任务,比如数字识别等。但一般的现实场景中很少有那么大的数据量来支持DNN,所以纯粹的全连接网络应用性并不是很强。系统使用的数据集为13个多元时间序列(MultivariantTimeSeries),其中多数数据集并没有大量的数据,全连接层的训练需要大量的训练数据来进行迭代更新。最重要的是,DNN无法对时间序列上的变化进行建模,然而,样本出现的时间顺序对于自然语言处理、语音识别等时间序列应用非常重要。因此,使用DNN模型并不能很好的完成时间序列上的分类任务。CNN网络是一种使用共享卷积核来对数据进行特征提取的模型。卷积运算是一种数学计算,和矩阵相乘不同,卷积运算可以实现稀疏相乘和参数共享,可以压缩输入端的维度,因此CNN可以轻松胜任高维的训练数据。共享卷积核减少了需要训练的参数的数量,减轻了反向传播(BP)参数优化的负担,图像通过共享卷积操作后仍然保留原先的位置关系。卷积核在进行特征提取时,可以关注一个多维矩阵局部的特征,实验证明它可以对矩阵数据如图片的内容进行边缘检测、斑块的检测与图片主体的提取等,卷积核拥有多个通道,不同的通道甚至能够关注图片不同的特征,即对不同的特征进行提取。但是,CNN网络要想获得不错的参数,往往需要很深的模型,这在使用BP算法时会导致梯度消失问题使得模型入口处的参数难以得到有效的训练。其次,CNN使用三维的卷积核能够关注不同通道上的局部特征,但是时间序列数据不同特征上的时间序列取值区间与表达的含义往往有所不同,使用多维的卷积核同时关注不同特征的部分时间序列显然没有道理可言。虽然CNN可以使用矩形的卷积核只关注某一个特征上的时间序列,但是相比较于Attention机制同时关注不同时间步或者不同特征时间序列上的相关程度而言,后者更加合适。最后,CNN处理的往往是高维的数据,数据量较大,深层的CNN模型往往使用池化操作,减轻需要特征提取的矩阵的大小,这往往会丢失很多有效的信息,特别是那些数据量本身就不大的时间序列,不同于图片,等间隔的删除若干元素可能对于图像的识别没有障碍,但是对于时间序列来说可能很大程度上影响特征的提取。RNN可以处理有序列的问题,比如时间序列等,它拥有“记忆”能力,可以“模拟”数据间的依赖关系(Dependency)。为了加强这种“记忆能力”,人们开发各种各样的变形体,如非常著名的LongShort-termMemory(LSTM),用于解决“长期及远距离的依赖关系”。同理,另一个循环网络的变种——双向循环网络(Bi-directionalRNN)也是现阶段自然语言处理和语音分析中的重要模型。开发双向循环网络的原因是语言/语音的构成取决于上下文,即“现在”依托于“过去”和“未来”。单向的循环网络仅着重于从“过去”推出“现在”,而无法对“未来”的依赖性有效的建模。但是正如前面所说的,神经网络中一个单元的前向传播依赖于前一个单元的输出,因此RNN更加适合预测任务,且由于这一点,RNN网络不能很好的利用GPU的并行性,计算效率不高。综上,Attention机制更能够胜任时间序列上的分类任务。在大数据时代,任何时刻均会产生时间序列数据,例如医疗保健中的生理数据、财务记录或传感器捕获的各种信号。与单变量时间序列不同,多变量时间序列在每个时间步长的不同通道中具有更丰富的相关信息。单变量时间序列的分类任务已经得到了社会各界的广泛研究,而多变量时间序列分类在实际应用中显示出巨大的潜力。多元时间序列的学习表示和分类仍然受到越来越多的关注。时间序列分类问题作为序列分类任务的一个分支,已经在时间序列挖掘领域引起了广泛的关注。时间序列分类的目标是首先从标定类标的训练集中学习到能够区分不同序列的鉴别性特征;然后,当一条未标定的时间序列到来时,它能够自动决定该时间序列的类标。它与传统分类问题之间的差别在于,对于后者而言,属性次序是不重要的,并且变量之间的相互关系独立于它们的相对位置;而对于时间序列数据而言,变量的次序在寻找最佳的辨别性特征时起着至关重要的作用,因此,时间序列分类已经成为数据挖掘中十分重要且特殊的挑战。时间序列分类问题作为数据挖掘领域所关注的研究内容,具有重要的研究意义及应用价值。在一系列分类模型中,传统的基于统计学知识提出的时间序列分类模型准确率相对较低;基于机器学习方法所提出的分类模型,已较难适应当今数据规模巨大的现实需求;基于深度学习提出的RNN和LSTM模型虽然能够达到不错的准确率,但是由于模型本身是顺序输入的,难以实现并行处理,从而导致运行效率低,并且RNN和LSTM模型都无法解决长程依赖问题。
技术实现思路
本专利技术提供一种基于GTN的多元时间序列分类模型及其构建方法,用于解决基于现有的网络模型提出的时间序列分类模型的准确率较低的技术问题。一种基于GTN的多元时间序列分类模型的构建方法,包括:构建embedding层;构建Two-towerTransformer层,所述Two-towerTransformer层包括实现并行处理的时间特征编码器和时间步编码器,所述时间特征编码器用于对时间特征进行编码,所述时间步编码器用于对时间步进行编码;构建gating层,所述gating层用于根据每个tower的输出,得到非线性激活,将所述非线性激活处理成对应的向量,接着根据所述向量得到线性关系,然后通过softmax函数得到每个tower的门控权重,最后将得到的门控权重加入到相应tower的输出中,连接成最终的特征向量;构建线性层,所述线性层用于将gating层得到的结果维度转换成最终分类结果维度;构建softmax函数层,所述softmax函数层用于将线性层的输出映射到[0,1]区间内,使得所有输出值的累加和为1,在最后选取输出结点时,选取概率最大的结点。在一个具体实施方式中,所述构建embedding层,包括:构建embedding层,通过非线性激活函数,将所述embedding层更改为全连接层来代替线性投影。在一个具体实施方式中,所述时间步编码器中设置有位置编码和mask机制本文档来自技高网
...

【技术保护点】
1.一种基于GTN的多元时间序列分类模型的构建方法,其特征在于,包括:/n构建embedding层;/n构建Two-tower Transformer层,所述Two-tower Transformer层包括实现并行处理的时间特征编码器和时间步编码器,所述时间特征编码器用于对时间特征进行编码,所述时间步编码器用于对时间步进行编码;/n构建gating层,所述gating层用于根据每个tower的输出,得到非线性激活,将所述非线性激活处理成对应的向量,接着根据所述向量得到线性关系,然后通过softmax函数得到每个tower的门控权重,最后将得到的门控权重加入到相应tower的输出中,连接成最终的特征向量;/n构建线性层,所述线性层用于将gating层得到的结果维度转换成最终分类结果维度;/n构建softmax函数层,所述softmax函数层用于将线性层的输出映射到[0,1]区间内,使得所有输出值的累加和为1,在最后选取输出结点时,选取概率最大的结点。/n

【技术特征摘要】
1.一种基于GTN的多元时间序列分类模型的构建方法,其特征在于,包括:
构建embedding层;
构建Two-towerTransformer层,所述Two-towerTransformer层包括实现并行处理的时间特征编码器和时间步编码器,所述时间特征编码器用于对时间特征进行编码,所述时间步编码器用于对时间步进行编码;
构建gating层,所述gating层用于根据每个tower的输出,得到非线性激活,将所述非线性激活处理成对应的向量,接着根据所述向量得到线性关系,然后通过softmax函数得到每个tower的门控权重,最后将得到的门控权重加入到相应tower的输出中,连接成最终的特征向量;
构建线性层,所述线性层用于将gating层得到的结果维度转换成最终分类结果维度;
构建softmax函数层,所述softmax函数层用于将线性层的输出映射到[0,1]区间内,使得所有输出值的累加和为1,在最后选取输出结点时,选取概率最大的结点。


2.根据权利要求1所述的基于GTN的多元时间序列分类模型的构建方法,其特征在于,所述构建embedding层,包括:
构建embedding层,通过非线性激活函数,将所述embedding层更改为全连接层来代替线性投影。


3.根据权利要求1所述的基于GTN的多元时间序列分类模型的构建方法,其特征在于,所述时间步编码器中设置有位置编码和mask机制。


4.根据权利要求1所述的基于GTN的多元时间序列分类模型的构建方法,其特征在于,所述将所述非线性激活处理成对应的向量,包括:
得到的非线性激活为C和S,将所述非线性激活进行串联,得到的向量为Concat(C,S);
所述根据所述向量得到线性关系,包括:
得到的线性关系如下:
h=W·Concat(C,S)+b
其中,h为所述线性关系,W和b为预设参数;
所述通过softmax函数得到每个tower的门控权重,最后将得到的门控权重加入到相应tower的输出中,连接成最终的特征向量,包括:
将所述线性关系通过softmax函数的计算之后得到每个tower的门控权重为g1和g2,计算公式如下:
g1,g2=Softmax(h)
所述最终的特征向量的计算公式如下:
y=Concat(C·g1,S·g2)
其中,y为所述最终的特征向量。


5.根据权利要求1所述的基于GTN的多元时间序列分类模型的构建方法,其特征在于,所述将线性层的输出映射到[0,1]区间内,包括:



其中,zi为第i个节点的输出值,C为输出节点的个数,即分类的类别个数;
通过softmax函数能够将多分类的输...

【专利技术属性】
技术研发人员:刘明皓宋伟马思远任晟歧焦佳辉
申请(专利权)人:郑州大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1