当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于多时间尺度解耦的循环神经网络的长序列采样方法及装置制造方法及图纸

技术编号:36692332 阅读:34 留言:0更新日期:2023-02-27 20:00
本发明专利技术公开一种基于多时间尺度解耦的循环神经网络的长序列采样方法,包括获得下游任务的序列和真实标签,序列包括多个样本点,每个样本点对应一个时间戳,每个样本点的嵌入表征,多个样本点的嵌入表征构建了表征序列;构建训练模型,所述训练模型包括LSTM神经网络和门控函数,通过门控函数对LSTM神经网络输出的隐藏状态进行评分得到当前时刻的最终隐藏状态;基于最终隐藏状态得到下游任务的预测标签;采用损失函数更新训练模型的参数,提取门控函数的更新参数得到采样算子;通过采样算子得到每个样本点重要度评分。用该方法能够删减序列中的冗余信息,减少送入表征模型的序列长度,从根本上减少模型的消耗。从根本上减少模型的消耗。从根本上减少模型的消耗。

【技术实现步骤摘要】
一种基于多时间尺度解耦的循环神经网络的长序列采样方法及装置


[0001]本专利技术属于计算机数据处理
,具体涉及一种基于多时间尺度解耦的循环神经网络的长序列采样方法及装置。

技术介绍

[0002]现实世界中存在大量的无标签序列数据,采用预训练对其加以利用是深度学习中的一种重要方法。预训练能够通过深度神经网络,挖掘大量无标签数据中的自监督信息,获得数据的低维表示,并迁移至下游的有监督任务中,这种方法可以使下游有监督任务需要的数据量减少,降低其训练难度。
[0003]在自然语言处理领域中,目前广泛使用的预训练语言模型常以Transformer为模型基础,包括GPT、BERT等,这些模型采用了注意力机制,在捕捉序列的长期依赖和彼此交互方面能力突出,并在文本生成、机器翻译等多项下游任务上取得了巨大的成功。然而,全连接式的自注意力机制的时间复杂度与空间复杂度随输入序列的长度平方级增长,使其难以处理较长的序列,因此,在实际应用中往往在输入模型前将长序列截断或采样。同时,一些研究表明,序列表征在下游任务上的表现,与模型能接收的序列长度息息相关。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多时间尺度解耦的循环神经网络的长序列采样方法,其特征在于,包括:(1)获得下游任务训练样本集,每个训练样本为一条时间序列,所述时间序列为医疗,金融,电力或天气场景下的时间序列,对应一个真实标签,所述时间序列包括多个样本点,每个样本点对应一个时间戳,每个样本点的特征进行one

hot形式转化或z

score标准化转化,将每个转化后的特征输入对应的嵌入层后拼接得到每个样本点的嵌入表征,多个样本点的嵌入表征构建了表征序列;(2)构建训练模型,所述训练模型包括LSTM神经网络和门控函数,其中:将当前时刻样本点的嵌入表征输入至LSTM神经网络中得到当前时刻的初始记忆单元和初始隐藏状态,将所述初始记忆单元和初始隐藏状态分别输入至门控函数得到当前时刻的最终隐藏状态,所述门控函数是通过当前时间戳和阶段时间点构建的重要度评分函数,用于对当前时刻初始隐藏状态所处阶段的重要度进行评分以确定保留当前时刻初始隐藏状态的比例进而得到当前时刻的最终隐藏状态;将最终隐藏状态输入至带有softmax激活函数的全连接层得到类别概率向量,从类别概率向量中得到下游任务的预测标签;(3)基于训练样本集通过下游任务的真实标签和预测标签采用损失函数更新训练模型的参数,提取门控函数的更新参数得到采样算子;(4)应用时,将原始长序列样本输入至采样算子中得到每个样本点重要度评分,将每个样本点重要度评分作为二项分布的概率值生成随机数结果,提取达到阈值的随机数结果对应的样本点作为序列样本数据。2.根据权利要求1所述的基于多时间尺度解耦的循环神经网络的长序列采样方法,其特征在于,每个样本点包括离散特征或连续特征,对离散特征进行one

hot形式转化,对连续特征进行z

score标准化转化。3.根据权利要求1所述的基于多时间尺度解耦的循环神经网络的长序列采样方法,其特征在于,将所述表征序列输入至LSTM神经网络中得到当前时刻的初始记忆单元和初始隐藏状态,所述LSTM神经网络中包括遗忘门控、输入门控和输出门控,其中:将当前时刻样本点的嵌入表征输入至LSTM神经网络,将前一时刻的隐藏状态与当前时刻样本点的嵌入表征进行拼接,将拼接结果通过线性变换分别得到遗忘门控、输入门控和输出门控,将拼接结果通过激活函数得到临时记忆单元,通过遗忘门控控制前一个时刻记忆单元的保留程度,通过输入门控控制临时记忆单元的保留程度,通过遗忘门控和输入门控的控制得到当前时刻的时刻记忆单元,对当前时刻记忆单元通过tanh函数后与输出门控相乘控制当前时刻记忆单元的信息输出至当前时刻隐藏状态的程度。4.根据权利要求1所述的基于多时间尺度解耦的循环神经网络的长序列采样方法,其特征在于,所述门控函数是通过当前时间戳和阶段时间点构建的重要度评分函数,通过所述门控函数得到的第t时间戳的重要度评分s
t
为:为:其中,j表示当前时刻样本点的时间戳...

【专利技术属性】
技术研发人员:徐仁军温兰钰崔高杰李东
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1