The invention discloses a new construction method of bidirectional LSTM neural network based on Highway and DC. The method comprises the following steps: constructing bidirectional LSTM neural network-BiLSTM; constructing bidirectional LSTM neural network-DC_BiLSTM based on Densely Connection according to BiLSTM; introducing Highway into DC_BiLSTM to obtain bidirectional LSTM neural network based on Highway and DC, which is inherited. The ability of Highway and DC to overcome the gradient problem in deep neural networks is improved. Compared with traditional deep LSTM and DC LSTM, the accuracy is better and convergence speed is faster under the same depth and data set. Highway DC can also make the deeper network (30 layers) easier to train and the accuracy is not saturated.
【技术实现步骤摘要】
一种基于Highway和DC的新型双向LSTM神经网络构建方法
本专利技术属于自然语言处理及深度神经网络
,具体涉及一种基于Highway和DC的新型双向LSTM神经网络构建方法。
技术介绍
:近年来,随着深度学习的兴起,众多深度神经网络架构被提出并应用在人工智能的不同任务中,如语音识别、计算机视觉、自然语言处理等,并相较传统机器学习算法和浅层神经网络在性能上实现了极大的进步,网络深度作为强大的机器学习模式,是深度神经网络取得成功的关键。循环神经网络具有时序结构,因而具有非常强的保留语句信息的能力,其中有文献提出了堆叠式RNN模型(stackedRNN),通过简单堆叠多层RNN的形式,搭建最早的深度神经网络。在这一模型中,每层RNN的隐状态输出作为下一层RNN的输入。然而,这种堆叠式的深度神经网络被证实存在严重的训练困难的问题,盲目增加神经网络的层数会造成网络难以收敛,且性能饱和甚至退化。其原因在于深度神经网络会使网络使用的误差反向传播时难以优化参数,在网络过深的情况下,经过多次反向传播后,浅层的网络层的梯度会趋于0或者无穷大,从而导致参数难以优化,由此带来所谓的梯度消失/爆炸问题。为解决这一问题,现有技术中提出了一种长短期记忆(LongShort-TermMemory,LSTM)的RNN变种,LSTM在RNN的基础上,通过引入四个门控单元,很好地解决了RNN中的长时依赖问题,后又在LSTM的基础上,提出了门控单元(GatedRecurrentUnit,GRU),将LSTM中四个门控单元缩减为两个,从而降低了网络的复杂度,更易于实施。尽管如此,随着深 ...
【技术保护点】
1.一种基于Highway和DC的新型双向LSTM神经网络构建方法,其特征在于,所述方法包括如下步骤:构造双向LSTM神经网络BiLSTM;根据BiLSTM构造基于DenselyConnection的双向LSTM神经网络DC‑BiLSTM;向DC‑BiLSTM中引入Highway,得到基于Highway和DC的双向LSTM神经网络。
【技术特征摘要】
1.一种基于Highway和DC的新型双向LSTM神经网络构建方法,其特征在于,所述方法包括如下步骤:构造双向LSTM神经网络BiLSTM;根据BiLSTM构造基于DenselyConnection的双向LSTM神经网络DC-BiLSTM;向DC-BiLSTM中引入Highway,得到基于Highway和DC的双向LSTM神经网络。2.根据权利要求1所述的一种基于Highway和DC的新型双向LSTM神经网络构建方法,其特征在于:所述BiLSTM的构造方法包括以下步骤:给定任意长度的输入序列S={w1,w2,…,ws},单层LSTM的隐状态记为h=[h1,h2,…,hs],在t时刻1≤t≤s,序列中第t个字符输入到LSTM中,则t时刻的隐状态由下式得到:ht=lstm(ht-1,e(wt))(1);上式中,w1,w2,…,ws这一串字符组成S序列,s表示输入序列的字符总数,wt表示序列中第t个字符1≤t≤s,符号lstm表示LSTM单元,s表示输入序列的字符总数,ws表示最后一个输入字符,hs表示最后一个字符所对应的隐状态,特别地,h0=0;定义序列第l层BiLSTM在t时刻的隐状态:将前向隐状态和后向隐状态进行迭代:前向LSTM隐状态:后向LSTM隐状态:由下式迭代得到:特别地,分别表示第l层前向和后向LSTM在s时刻所得的隐状态,wt表示输入序列S中的第t个字符e(wt)∈Rm表示wt经Word-Embedding后的结果,ht-1∈Rd表示LSTM单元在t-1时刻的隐状态,e(wt)与ht-1为LSTM单元在t时刻的输入项。3.根据权利要求2所述的一种基于Highway和DC的新型双向LSTM神经网络构建方法,其特征在于:所述LSTM单元内部具体操作分别定义如下:ct=f⊙ct-1+i⊙g(6);ht=o⊙tanh(ct)(7);以上式中:Tm+d,4d([ht-1;e(wt)])表示仿射变换,其作用结果是将输入向量的维数从m+d变为4d,sigm和tanh分别表示sigmoid激活函数和双曲正切激活函数,[ht-1;e(wt)]表示将两者级联,⊙表示元素...
【专利技术属性】
技术研发人员:于舒娟,杨杰,曹健,李冰蕊,张昀,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。