基于局部感知递归神经网络的字符级语言模型预测方法技术

技术编号：19122761 阅读：160 留言：0更新日期：2018-10-10 05:31

本发明专利技术公开一种基于局部感知递归神经网络的字符级语言模型预测方法，使用递归神经网络的处理形式，将三层网络按层次组合在一起，低层次获取局部字符间的特征，高层次获取文本的语义特征，从而使新模型具有更强的信息综合能力，且更容易处理较长的数据序列。该方法使用BPTT‑RNN(递归神经网络反向传播算法)有监督的方法训练；首先使用adadelta(自适应学习率调整)优化训练至测试集BPC低于1.45，使之快速收敛，再使用学习速率0.0001、动量为0.9的SGD(随机梯度下降)优化方法训练，以获得较好的测试结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于局部感知递归神经网络的字符级语言模型预测方法
本专利技术属于自然语言处理领域，具体是一种基于局部感知递归神经网络的字符级语言模型预测方法。
技术介绍
递归神经网络是一种极具表达能力的动态模型，因为RNN有高维度隐藏的非线性内部状态，使得它能够从先前处理过的信息中抽取先验的依赖信息。理论上，一个隐藏状态足够大的RNN能够生成任意复杂度的序列，并且已经证明在给定任意数量隐藏神经元的情形下RNN是图灵完备的；但实际上，标准的RNN不能存储较长的已有输入序列信息，所以尽管RNN的能力对人们很具有吸引力，但内部隐藏状态经过多次递归处理后变得不稳定，梯度极易消失或膨胀。这使得图灵完备的RNN的应用受到限制。2011年Sutskever等人采用RNN的一个变种来训练字符级语言模型，并取得当时最好的性能，此后Graves通过大量的实验表明了递归神经网络强大的序列结构信息捕获能力；2015年Mikolov分别使用前向神经网络、最大信息熵、n-gram在单词级别和字符级别给出效果对比。许多研究成果表明，与传统的前向神经网络模型或概率模型相比，递归神经网络更适合处理数据序列窗口较宽的字符级神经网络语言模型。然而，传统的多层递归神经网络各层的形式类似，功能类同，这使得每层递归神经网络的职能难以划分，也不容易确定需要要的分层数量及各层的神经元数量；且当数据输入传统多层递归神经网络时，每个timestep,数据单纯由底层神经网络向上一层神经网络传输，数据信息流入方式单一，难以处理较长的数据序列。
技术实现思路
本专利技术的目的是针对现有技术存在的问题，提供一种基于局部感知递归神经网络...
基于局部感知递归神经网络的字符级语言模型预测方法

【技术保护点】
1.一种基于局部感知递归神经网络的字符级语言模型预测方法，其特征在于，包括以下步骤：步骤A，数据预处理，将PTB数据分为训练、验证和测试三种数据集，对所述三种数据集包含的所有字符按ASCII码进行排序，再将所述数据集的字符向前错位1步位置，按索引表示生成目标集；步骤B，神经网络构建，所述局部感知递归神经网络包括依次非线性连接的a隐藏层、b隐藏层及h隐藏层；所述局部感知递归神经网络后面依次连接神经元数量为102的全连接层、ReLU层、神经元数量为102的全连接层、ReLU层、神经元数量为51的全连接层以及SoftMax回归层；步骤C，神经网络训练，首先使用adadelta优化训练至测试集BPC低于1.45，再使用学习速率0.0001、动量为0.9的SGD优化方法训练，如果训练时在测试集上的BPC值连续两次不再降低，则学习速率减半；通过训练数据的前向传播计算每个节点的值，通过与目标期望值的比较，计算出损失函数，然后进行误差的反向传播，由输出层开始逐层计算各层神经元的输出误差，使用所述步骤C中的方法训练神经网络，得到最终模型训练结果，根据误差梯度下降法来调节各层的权值，使修改后的网络的最终输出接近期望值。...

【技术特征摘要】
1.一种基于局部感知递归神经网络的字符级语言模型预测方法，其特征在于，包括以下步骤：步骤A，数据预处理，将PTB数据分为训练、验证和测试三种数据集，对所述三种数据集包含的所有字符按ASCII码进行排序，再将所述数据集的字符向前错位1步位置，按索引表示生成目标集；步骤B，神经网络构建，所述局部感知递归神经网络包括依次非线性连接的a隐藏层、b隐藏层及h隐藏层；所述局部感知递归神经网络后面依次连接神经元数量为102的全连接层、ReLU层、神经元数量为102的全连接层、ReLU层、神经元数量为51的全连接层以及SoftMax回归层；步骤C，神经网络训练，首先使用adadelta优化训练至测试集BPC低于1.45，再使用学习速率0.0001、动量为0.9的SGD优化方法训练，如果训练时在测试集上的BPC值连续两次不再降低，则学习速率减半；通过训练数据的前向传播计算每个节点的值，通过与目标期望值的比较，计算出损失函数，然后进行误差的反向传播，由输出层开始逐层计算各层神经元的输出误差，使用所述步骤C中的方法训练神经网络，得到最终模型训练结果，根据误差梯度下降法来调节各层的权值，使修改后的网络的最终输出接近期望值。2.根据权利要求1所述的一种基于局部感知递归神经网络的字符级语言模型预测方法，其特征在于，步骤A中所述按索引表示的方法为通过OneHot层将数据用51维的字符向量表示，所述OneHot层与局部感知递归神经网络的前端通过神经元数量为51的全连接层连接。3.根据权利要求1所述的一种基于局部感知递归神经网络的字符级语言模型预测方法，其特征在于，步骤B中所述局部感知递归神经网络通过以下公式构建：at＝Tanh(Wa[xt,at-1,bt-1]+ba)，f1t＝Sigmo...

【专利技术属性】
技术研发人员：刘惠义，王刚，陶颖，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人