一种基于Highway和DC的新型双向LSTM神经网络构建方法技术

技术编号:21362862 阅读:58 留言:0更新日期:2019-06-15 09:38
本发明专利技术公开了一种基于Highway和DC的新型双向LSTM神经网络构建方法,所述方法包括如下步骤:构造双向LSTM神经网络—BiLSTM;B据BiLSTM构造基于DenselyConnection的双向LSTM神经网络—DC‑BiLSTM;向DC‑BiLSTM中引入Highway,得到基于Highway和DC的双向LSTM神经网络,该方法在于继承了Highway和DC克服深度神经网络中的梯度问题的能力,从而相较传统的深层LSTM和DC‑LSTM,在相同深度和相同数据集下,精度更优且收敛速度更快,Highway‑DC还可以使更深层网络(30层)易于训练,且精度尚未饱和。

A New Bidirectional LSTM Neural Network Construction Method Based on Highway and DC

The invention discloses a new construction method of bidirectional LSTM neural network based on Highway and DC. The method comprises the following steps: constructing bidirectional LSTM neural network-BiLSTM; constructing bidirectional LSTM neural network-DC_BiLSTM based on Densely Connection according to BiLSTM; introducing Highway into DC_BiLSTM to obtain bidirectional LSTM neural network based on Highway and DC, which is inherited. The ability of Highway and DC to overcome the gradient problem in deep neural networks is improved. Compared with traditional deep LSTM and DC LSTM, the accuracy is better and convergence speed is faster under the same depth and data set. Highway DC can also make the deeper network (30 layers) easier to train and the accuracy is not saturated.

【技术实现步骤摘要】
一种基于Highway和DC的新型双向LSTM神经网络构建方法
本专利技术属于自然语言处理及深度神经网络
,具体涉及一种基于Highway和DC的新型双向LSTM神经网络构建方法。
技术介绍
:近年来,随着深度学习的兴起,众多深度神经网络架构被提出并应用在人工智能的不同任务中,如语音识别、计算机视觉、自然语言处理等,并相较传统机器学习算法和浅层神经网络在性能上实现了极大的进步,网络深度作为强大的机器学习模式,是深度神经网络取得成功的关键。循环神经网络具有时序结构,因而具有非常强的保留语句信息的能力,其中有文献提出了堆叠式RNN模型(stackedRNN),通过简单堆叠多层RNN的形式,搭建最早的深度神经网络。在这一模型中,每层RNN的隐状态输出作为下一层RNN的输入。然而,这种堆叠式的深度神经网络被证实存在严重的训练困难的问题,盲目增加神经网络的层数会造成网络难以收敛,且性能饱和甚至退化。其原因在于深度神经网络会使网络使用的误差反向传播时难以优化参数,在网络过深的情况下,经过多次反向传播后,浅层的网络层的梯度会趋于0或者无穷大,从而导致参数难以优化,由此带来所谓的梯度消失/爆炸问题。为解决这一问题,现有技术中提出了一种长短期记忆(LongShort-TermMemory,LSTM)的RNN变种,LSTM在RNN的基础上,通过引入四个门控单元,很好地解决了RNN中的长时依赖问题,后又在LSTM的基础上,提出了门控单元(GatedRecurrentUnit,GRU),将LSTM中四个门控单元缩减为两个,从而降低了网络的复杂度,更易于实施。尽管如此,随着深度的进一步提升,深度神经网络训练困难的问题依然严峻。
技术实现思路
本专利技术所要解决的技术问题是深度神经网络所面临的梯度消失/爆炸问题,提出了基于Highway和DC的双向LSTM神经网络(Highway-DC)。一种基于Highway和DC的新型双向LSTM神经网络构建方法,所述方法包括如下步骤:构造双向LSTM神经网络BiLSTM;根据BiLSTM构造基于DenselyConnection的双向LSTM神经网络DC-BiLSTM;向DC-BiLSTM中引入Highway,得到基于Highway和DC的双向LSTM神经网络。优选的,所述BiLSTM的构造方法包括以下步骤:给定任意长度的输入序列S={w1,w2,…,ws},该序列由w1,w2,…,ws这一串字符组成,s表示输入序列的字符总数,wt(1≤t≤s)表示序列中第t个字符。单层LSTM的隐状态记为h=[h1,h2,…,hs],在t时刻(1≤t≤s),序列中第t个字符输入到LSTM中,则t时刻的隐状态由下式得到:ht=lstm(ht-1,e(wt))(1);上式中,符号lstm表示LSTM单元,s表示输入序列的字符总数,ws表示最后一个输入字符,hs表示最后一个字符所对应的隐状态,特别地,h0=0;定义序列第l层BiLSTM在t时刻的隐状态:将前向隐状态和后向隐状态进行迭代:前向LSTM隐状态:后向LSTM隐状态:由下式迭代得到:特别地,分别表示第l层前向和后向LSTM在s时刻所得的隐状态,wt表示输入序列S中的第t个字符上式中,e(wt)∈Rm表示wt经Word-Embedding后的结果,ht-1∈Rd表示LSTM单元在t-1时刻的隐状态,e(wt)与ht-1为LSTM单元在t时刻的两个输入项。优选的,所述LSTM单元内部具体操作分别定义如下:ct=f⊙ct-1+i⊙g(6);ht=o⊙tanh(ct)(7);以上式中:Tm+d,4d([ht-1;e(wt)])表示仿射变换,其作用结果是将输入向量的维数从m+d变为4d,sigm和tanh分别表示sigmoid激活函数和双曲正切激活函数,[ht-1;e(wt)]表示将两者级联,⊙表示元素对应位相乘操作,式(5),(6),(7)表示LSTM单元的内部计算式,式(5)中,i,f,o,g∈Rd分别表示LSTM单元中的输入门,遗忘门,输出门和候选记忆状态门的计算式,式(6)中,ct∈Rd为LSTM中的细胞状态计算式,式(7)为LSTM单元的隐状态计算式。优选的,所述DC-BiLSTM的构造方法包括以下步骤:在DC-BiLSTM网络中,若对t时刻第l层的输入记为itl,则t时刻第一层网络的输入记为:上式中,符号itl、htl表示第l层神经网络在t时刻的输入和输出,由于神经网络中,上一层神经网络的输出作为下一层神经网络的输入,因而且在神经网络中,通常输入序列可视为第0层神经网络的输出,即ht0=e(wt);输出记为:从第二层开始,每一层神经网络的输入都是级联所有先前层输出的结果,有:其中,表示t时刻第k层神经网络的输出,k=0,1,2,...l-1。特别地,则t时刻第l层的前向隐状态输出记为:后向隐状态输出记为:优选的,所述Highway的引入方法包括以下步骤:在t时刻,Highway的输出记为:yt=ht⊙T(wT,xt)+xt⊙(1-T(wT,xt))(14);T(wT,xt)表示变换门,其表达式如下:T(wT,xt)=sigm(wTxt+bT)(15);其中,ht表示当前层的输出,xt表示上一层的输出,wT表示权值矩阵,bT表示偏置向量;在DC-BiLSTM中,t时刻第l层网络的输入itl中的应用Highway,有:以上式中,htl-1表示t时刻第l-1层网络的输出,表示t时刻l-2层及之前所有层的输出的级联,⊙表示元素对应位相乘操作,sigm表示sigmoid激活函数。优选的,所述方法还包括:简化Highway的计算式,包括以下步骤:改进式(14)的Highway表达式:yt=ht+xt⊙(1-T(wT,xt))(17);从而式(16)修改为:消除式(18)中的DC结构存在的信息冗余:继而有,前向隐状态输出记为:后向隐状态输出记为:其中,表示从输入层到第l-2层的所有输出的结果的级联。本专利技术的优点在于:该方法在于继承了Highway和DC克服深度神经网络中的梯度问题的能力。从而相较传统的深层LSTM和DC-LSTM,在相同深度和相同数据集下,精度更优且收敛速度更快。Highway-DC还可以在深度更大的情况下易于训练,且精度不明显退化。附图说明图1为本专利技术中Highway-DC模型结构框架示意图;图2为本专利技术中Highway-DC与DC-BiLSTM在TREC数据集下的表现对比示意图;图3为本专利技术中Highway-DC与目前几个主要的模型在5个数据集下的比较示意图;图4为本专利技术中Highway-DC与DC-BiLSTM在7个数据集下的比较示意图。具体实施方式为使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本专利技术。如图1至图4所示,一种基于Highway和DC的新型双向LSTM神经网络构建方法,所述方法包括如下步骤:构造双向LSTM神经网络—BiLSTM;根据BiLSTM构造基于DenselyConnection的双向LSTM神经网络—DC-BiLSTM;向DC-BiLSTM中引入Highway,得到基于Highway和DC的双向LSTM神经网络。在本实施例中,所述BiLSTM的构造方法包括以下本文档来自技高网
...

【技术保护点】
1.一种基于Highway和DC的新型双向LSTM神经网络构建方法,其特征在于,所述方法包括如下步骤:构造双向LSTM神经网络BiLSTM;根据BiLSTM构造基于DenselyConnection的双向LSTM神经网络DC‑BiLSTM;向DC‑BiLSTM中引入Highway,得到基于Highway和DC的双向LSTM神经网络。

【技术特征摘要】
1.一种基于Highway和DC的新型双向LSTM神经网络构建方法,其特征在于,所述方法包括如下步骤:构造双向LSTM神经网络BiLSTM;根据BiLSTM构造基于DenselyConnection的双向LSTM神经网络DC-BiLSTM;向DC-BiLSTM中引入Highway,得到基于Highway和DC的双向LSTM神经网络。2.根据权利要求1所述的一种基于Highway和DC的新型双向LSTM神经网络构建方法,其特征在于:所述BiLSTM的构造方法包括以下步骤:给定任意长度的输入序列S={w1,w2,…,ws},单层LSTM的隐状态记为h=[h1,h2,…,hs],在t时刻1≤t≤s,序列中第t个字符输入到LSTM中,则t时刻的隐状态由下式得到:ht=lstm(ht-1,e(wt))(1);上式中,w1,w2,…,ws这一串字符组成S序列,s表示输入序列的字符总数,wt表示序列中第t个字符1≤t≤s,符号lstm表示LSTM单元,s表示输入序列的字符总数,ws表示最后一个输入字符,hs表示最后一个字符所对应的隐状态,特别地,h0=0;定义序列第l层BiLSTM在t时刻的隐状态:将前向隐状态和后向隐状态进行迭代:前向LSTM隐状态:后向LSTM隐状态:由下式迭代得到:特别地,分别表示第l层前向和后向LSTM在s时刻所得的隐状态,wt表示输入序列S中的第t个字符e(wt)∈Rm表示wt经Word-Embedding后的结果,ht-1∈Rd表示LSTM单元在t-1时刻的隐状态,e(wt)与ht-1为LSTM单元在t时刻的输入项。3.根据权利要求2所述的一种基于Highway和DC的新型双向LSTM神经网络构建方法,其特征在于:所述LSTM单元内部具体操作分别定义如下:ct=f⊙ct-1+i⊙g(6);ht=o⊙tanh(ct)(7);以上式中:Tm+d,4d([ht-1;e(wt)])表示仿射变换,其作用结果是将输入向量的维数从m+d变为4d,sigm和tanh分别表示sigmoid激活函数和双曲正切激活函数,[ht-1;e(wt)]表示将两者级联,⊙表示元素...

【专利技术属性】
技术研发人员:于舒娟杨杰曹健李冰蕊张昀
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1