一种简化的门控单元神经网络制造技术

技术编号:20426451 阅读:29 留言:0更新日期:2019-02-23 08:56
本发明专利技术公开一种简化的门控单元神经网络,属于深度学习领域。本发明专利技术包括:对输入数据集进行数据清洗,选择经典数据集,如Iris数据集,此过程处理数据不平衡问题、归一化以及冗余数据处理问题;利用数据预处理后的数据集训练OGRU神经网络,建立预测模型;获取数据集,进行数据预处理过程,然后输入所获得的OGRU预测模型进行模型预测,得到预测结果。本发明专利技术克服传统GRU神经网络结构过于复杂,泛化能力差的问题,并且应用OGRU建立精确高效的预测模型,解决传统方法训练时间过长问题。

【技术实现步骤摘要】
一种简化的门控单元神经网络
本专利技术属于深度学习领域,具体涉及一种简化的门控单元神经网络。
技术介绍
随着互联网技术的迅猛发展,神经网络的研究工作不断深入,已经取得了很大的进展,其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。传统的神经网络模型,如BP神经网络等,由于其结构原因容易产生梯度消失、梯度爆炸、过拟合等问题,使得应用该模型预测时往往泛化能力弱;再者,由于其并不能对时间序列上的变化进行建模,从而导致预测精度差。LSTM(LongShortTermMemory)神经网络作为近几年取得重大突破的网络模型,避免了神经网络反向传导的梯度消失问题,且能够学习时序数据之间的长短时间关联关系,对于输入的时序数据自动决定历史数据对预测数据的贡献。而GRU(GatedRecurrentUnit)作为LSTM的一种变体,保持了LSTM的效果同时又简化其结构,受到广泛关注。
技术实现思路
本专利技术的目的在于提供一种能简化模型复杂度,提高系统泛化能力的改进GRU神经网络—OGRU神经网络,克服GRU结构复杂、每个参数更新都涉及到与整体网络状态相关的信息等问题,消除其不利影响,增强GRU神经网络的泛化性能。本专利技术的目的是这样实现的:一种简化的门控单元神经网络,其特征在于,包含以下步骤:步骤一:对输入数据集进行数据清洗,选择经典数据集,如Iris数据集;此过程处理数据不平衡问题、归一化以及冗余数据处理问题;数据不平衡问题的处理:首先分析正负样本比例,其次根据数据集大小采用不同的采样方法处理;如果数据量较充足,采取欠采样的方法,通过减少样本数据较多的类的数量来平衡数据集;如果数据量较少,采取过采样的方法,通过增加数量较少的类的数量来平衡数据集;归一化处理:将需要处理的数据经过处理后,限制在一定范围内;归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快;根据不同占比采取不同归一化方式处理,若某一特征占比高,删除该特征;处理冗余数据:处理缺失后,根据预测的具体问题分析并提取特征,对主成分进行分析,去掉冗余特征数据,防止其干扰训练结果;步骤二:利用数据预处理后的数据集训练OGRU神经网络,建立预测模型:OGRU神经网络由输入层、输出层、隐含层组成,隐含层由OGRU神经元构成,OGRU神经网络的输入数据为经过数据预处理后的的t时刻的数据,输出数据为预测的结果;OGRU是在GRU的基础上简化而来;标准LSTM单元包括输入门inputgate、遗忘门forgetgate、输出门outputgate和cell单元;而标准的GRU则是LSTM的变体,GRU单元组合了遗忘门和输入门为一个“更新门”,它合并了神经元状态和隐层状态,只有更新门和重置门;设输入序列为(x1,x2,…,xt),则在t时刻更新门、重置门、标准GRU单元输出计算公式如下所示:zt=σ(Wz*[ht-1,xt])(1)rt=σ(Wr*[ht-1,xt])(2)nt=tanh(W*[rt*ht-1,xt])(3)ht=(1-zt)*ht-1+zt*nt(4)其中zt表示t时刻更新门的输出;Wt表示输入和ht-1之间的权重;rt表示t时刻重置门的输出;Wr表示输入和ht-1之间的权重;其中ht-1表示t-1时刻标准GRU单元输出;xt表示t时刻的输入的数据;nt表示t时刻用tanh层来创建的一个新的候选值向量,并将其加入到当前状态中;W表示更新门的输出zt和输入之间的权重;ht表示t时刻标准GRU单元的输出,更新当前神经元状态,把前一层状态ht-1与(1-zt)相乘,丢弃需要丢弃的信息,加上zt与nt相乘,就是新的候选值,即标准GRU的输出;σ为sigmoid激活函数,sigmoid与tanh为两种神经网络常用的神经元激活函数;在更新门做出改进,将原更新门输入中的ht-1更改为ht-1与rt相乘,即用重置门的输出来调整更新门,对其进行反馈;多加一次更新迭代,通过控制同一时刻低层的记忆单元向邻近高层记忆单元的信息流传输,以求实现预测结果的高精准;提出一种基于标准GRU改进的变体神经网络,OGRU神经网络;OGRU是GRU的变体,它组合重置门与输入,对更新门进行“更新”并输出;设输入序列为(x1,x2,…,xt),则在t时刻更新门、重置门、标准OGRU单元输出计算公式如下所示:rt=σ(Wr*[ht-1,xt])(5)zt=σ(Wz*[ht-1*rt,xt])(6)nt=tanh(W*[rt*ht-1,xt])(7)ht=(1-zt)*ht-1+zt*nt(8)yt=σ(Wo*ht)(9)其中,公式(5)、公式(7)以及公式(8)与标准GRU中公式(2)、公式(3)以及公式(4)一致,参数说明不再赘述;不同的是更新门公式(6)与输出结果公式(9),zt表示t时刻更新门的输出;Wt表示输入数据和ht-1与rt乘积之间的权重;yt表示t时刻OGRU神经网络的输出,即预测结果,Wo表示ht的权重;训练OGRU神经网络的目标是使得网络的预测输出yt+1和实际的输出相等,定义网络的损失函数如公式(10)所示:通过梯度下降法最小化损失函数L可以训练出OGRU网络中的权值和偏置,得到预测模型;步骤三:获取数据集采用步骤一同样的方法进行数据预处理过程,然后输入步骤二所获得的OGRU预测模型进行模型预测,得到预测结果;获取t时刻数据集的输入数据Dt,以及最近一次时间以前的状态数据Dt-1,Dt-2,...,Dt-N;利用步骤一中方法,对Dt,Dt-1,Dt-2,...,Dt-N进行数据的预处理;将经过预处理过的Dt,Dt-1,Dt-2,...,Dt-N数据输入到步骤二所获得的OGRU预测模型中,获取预测结果进行反归一化后,得到t时刻神经网络预测结果即输出结果。与现有技术相比,本专利技术的有益效果是:本专利技术克服传统GRU神经网络结构过于复杂,泛化能力差的问题,并且应用OGRU建立精确高效的预测模型,解决传统方法训练时间过长问题。附图说明图1为基于OGRU神经网络的预测模型框图;图2为标准GRU神经网络结构图;图3为OGRU神经网络结构图;图4为OGRU神经网络训练流程示意图。具体实施方式下面结合附图对本专利技术作出详细说明:本专利技术属于深度学习领域,具体涉及一种基于GRU神经网络改进的深度学习方法,即一种简化的门控单元神经网络—OGRU(OptimizedGatedRecurrentUnit)神经网络。本专利技术提出一种基于GRU改进的OGRU神经网络模型,如图(1)所示,该模型包括三个部分,即数据预处理阶段、模型训练阶段和模型预测阶段。一、数据预处理阶段:步骤A1:对输入数据集进行数据清洗,可选择经典数据集,如Iris数据集。此过程处理数据不平衡问题、归一化以及冗余数据处理问题。步骤A11:数据不平衡问题的处理,首先分析正负样本比例,其次根据数据集大小采用不同的采样方法处理。如果数据量较充足,可采取欠采样的方法,通过减少样本数据较多的类的数量来平衡数据集;如果数据量较少,可采取过采样的方法,通过增加数量较少的类的数量来平衡数据集。步骤A12:归一化处理。将需要处理的数据经过处理后,限制在一定范围内。归一化本文档来自技高网...

【技术保护点】
1.一种简化的门控单元神经网络,其特征在于,包含以下步骤:步骤一:对输入数据集进行数据清洗,选择经典数据集,如Iris数据集;此过程处理数据不平衡问题、归一化以及冗余数据处理问题;数据不平衡问题的处理:首先分析正负样本比例,其次根据数据集大小采用不同的采样方法处理;如果数据量较充足,采取欠采样的方法,通过减少样本数据较多的类的数量来平衡数据集;如果数据量较少,采取过采样的方法,通过增加数量较少的类的数量来平衡数据集;归一化处理:将需要处理的数据经过处理后,限制在一定范围内;归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快;根据不同占比采取不同归一化方式处理,若某一特征占比高,删除该特征;处理冗余数据:处理缺失后,根据预测的具体问题分析并提取特征,对主成分进行分析,去掉冗余特征数据,防止其干扰训练结果;步骤二:利用数据预处理后的数据集训练OGRU神经网络,建立预测模型:OGRU神经网络由输入层、输出层、隐含层组成,隐含层由OGRU神经元构成,OGRU神经网络的输入数据为经过数据预处理后的的t时刻的数据,输出数据为预测的结果;OGRU是在GRU的基础上简化而来;标准LSTM单元包括输入门input gate、遗忘门forget gate、输出门output gate和cell单元;而标准的GRU则是LSTM的变体,GRU单元组合了遗忘门和输入门为一个“更新门”,它合并了神经元状态和隐层状态,只有更新门和重置门;设输入序列为(x1,x2,…,xt),则在t时刻更新门、重置门、标准GRU单元输出计算公式如下所示:zt=σ(Wz*[ht‑1,xt])    (1)rt=σ(Wr*[ht‑1,xt])    (2)nt=tanh(W*[rt*ht‑1,xt])    (3)ht=(1‑zt)*ht‑1+zt*nt    (4)其中zt表示t时刻更新门的输出;Wt表示输入和ht‑1之间的权重;rt表示t时刻重置门的输出;Wr表示输入和ht‑1之间的权重;其中ht‑1表示t‑1时刻标准GRU单元输出;xt表示t时刻的输入的数据;nt表示t时刻用tanh层来创建的一个新的候选值向量,并将其加入到当前状态中;W表示更新门的输出zt和输入之间的权重;ht表示t时刻标准GRU单元的输出,更新当前神经元状态,把前一层状态ht‑1与(1‑zt)相乘,丢弃需要丢弃的信息,加上zt与nt相乘,就是新的候选值,即标准GRU的输出;σ为sigmoid激活函数,sigmoid与tanh为两种神经网络常用的神经元激活函数;在更新门做出改进,将原更新门输入中的ht‑1更改为ht‑1与rt相乘,即用重置门的输出来调整更新门,对其进行反馈;多加一次更新迭代,通过控制同一时刻低层的记忆单元向邻近高层记忆单元的信息流传输,以求实现预测结果的高精准;提出一种基于标准GRU改进的变体神经网络,OGRU神经网络;OGRU是GRU的变体,它组合重置门与输入,对更新门进行“更新”并输出;设输入序列为(x1,x2,…,xt),则在t时刻更新门、重置门、标准OGRU单元输出计算公式如下所示:rt=σ(Wr*[ht‑1,xt])    (5)zt=σ(Wz*[ht‑1*rt,xt])    (6)nt=tanh(W*[rt*ht‑1,xt])    (7)ht=(1‑zt)*ht‑1+zt*nt    (8)yt=σ(Wo*ht)    (9)其中,公式(5)、公式(7)以及公式(8)与标准GRU中公式(2)、公式(3)以及公式(4)一致,参数说明不再赘述;不同的是更新门公式(6)与输出结果公式(9),zt表示t时刻更新门的输出;Wt表示输入数据和ht‑1与rt乘积之间的权重;yt表示t时刻OGRU神经网络的输出,即预测结果,Wo表示ht的权重;训练OGRU神经网络的目标是使得网络的预测输出yt+1和实际的输出...

【技术特征摘要】
1.一种简化的门控单元神经网络,其特征在于,包含以下步骤:步骤一:对输入数据集进行数据清洗,选择经典数据集,如Iris数据集;此过程处理数据不平衡问题、归一化以及冗余数据处理问题;数据不平衡问题的处理:首先分析正负样本比例,其次根据数据集大小采用不同的采样方法处理;如果数据量较充足,采取欠采样的方法,通过减少样本数据较多的类的数量来平衡数据集;如果数据量较少,采取过采样的方法,通过增加数量较少的类的数量来平衡数据集;归一化处理:将需要处理的数据经过处理后,限制在一定范围内;归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快;根据不同占比采取不同归一化方式处理,若某一特征占比高,删除该特征;处理冗余数据:处理缺失后,根据预测的具体问题分析并提取特征,对主成分进行分析,去掉冗余特征数据,防止其干扰训练结果;步骤二:利用数据预处理后的数据集训练OGRU神经网络,建立预测模型:OGRU神经网络由输入层、输出层、隐含层组成,隐含层由OGRU神经元构成,OGRU神经网络的输入数据为经过数据预处理后的的t时刻的数据,输出数据为预测的结果;OGRU是在GRU的基础上简化而来;标准LSTM单元包括输入门inputgate、遗忘门forgetgate、输出门outputgate和cell单元;而标准的GRU则是LSTM的变体,GRU单元组合了遗忘门和输入门为一个“更新门”,它合并了神经元状态和隐层状态,只有更新门和重置门;设输入序列为(x1,x2,…,xt),则在t时刻更新门、重置门、标准GRU单元输出计算公式如下所示:zt=σ(Wz*[ht-1,xt])(1)rt=σ(Wr*[ht-1,xt])(2)nt=tanh(W*[rt*ht-1,xt])(3)ht=(1-zt)*ht-1+zt*nt(4)其中zt表示t时刻更新门的输出;Wt表示输入和ht-1之间的权重;rt表示t时刻重置门的输出;Wr表示输入和ht-1之间的权重;其中ht-1表示t-1时刻标准GRU单元输出;xt表示t时刻的输入的数据;nt表示t时刻用tanh层来创建的一个新的候选值向量,并将其加入到当前状态中;W表示更新门的输出zt和输入之间的权重;ht表示t时刻标准GRU单元的输出...

【专利技术属性】
技术研发人员:王鑫张玲玲王磊任龙关智允徐东张子迎孟宇龙李贤宫思远
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1