【技术实现步骤摘要】
一种基于CRF识别中标单位的LSTM模型单元训练方法及装置
本专利技术涉及识别技术,具体的涉及用于高精度识别中标单位的LSTM模型单元训练方法及装置。
技术介绍
LSTM(longshorttermmemory,长短期记忆网络)是为了解决长期问题而专门设计出来的,所有的RNN(RecurrentNeuralNetwork,循环神经网络)都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。LSTM同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神经网络层,这里是有四个,以一种非常特殊的方式进行交互。CRF:(conditionalrandomfieldalgorithm,条件随机场)是一种无向图模型。条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。若让x=(x1,x2,…xn)表示被观察的输入数据序列,y=(y1,y2,…yn)表示一个状态序列,在给定一个输入序列的情况下,线性链的CR ...
【技术保护点】
1.一种基于CRF识别中标单位的LSTM模型单元训练方法,应用于计算机,其特征在于,所述方法包括:/nS1:获取标注有中标单位的字符表单;/nS2:根据所述标注有中标单位的字符表单生成字符向量训练素材;/nS3:初始化LSTM模型单元;/nS4:将所述字符向量训练素材按正序排列输入到当前LSTM模型单元中进行训练,得到每一个字符的前向运行预测值;/nS5:根据得到的每个字符的前向运行预测值,计算每个字符的前向运行预测值与该字符的实际类别之间的差距;/nS6:判断所述差距是否持续震荡下降,若是,则执行S7,若否,则结束,得到目标LSTM模型单元;/nS7:通过链式法则,得到当 ...
【技术特征摘要】
1.一种基于CRF识别中标单位的LSTM模型单元训练方法,应用于计算机,其特征在于,所述方法包括:
S1:获取标注有中标单位的字符表单;
S2:根据所述标注有中标单位的字符表单生成字符向量训练素材;
S3:初始化LSTM模型单元;
S4:将所述字符向量训练素材按正序排列输入到当前LSTM模型单元中进行训练,得到每一个字符的前向运行预测值;
S5:根据得到的每个字符的前向运行预测值,计算每个字符的前向运行预测值与该字符的实际类别之间的差距;
S6:判断所述差距是否持续震荡下降,若是,则执行S7,若否,则结束,得到目标LSTM模型单元;
S7:通过链式法则,得到当前LSTM模型单元中每个参数应该变化的数值大小;
S8:通过梯度下降优化算法,得到当前LSTM模型中每个参数的变化方向和变化值,进而修正LSTM模型中每个参数。
2.根据权利要求1所述的方法,其特征在于,所述S2包括:使用Embedding层,对字符进行向量化,使每一个字符对应于一个300维的向量。
3.根据权利要求1所述的方法,其特征在于,所述S4包括:
S41:将字符向量训练素材中的每一个向量,按照从前到后的顺序,依次通过当前LSTM模型单元进行运算,得到对应数量个输出量,所述输出量也为与字符向量训练素材中的每一个向量相同维数的向量。
S42:将得到的所有所述输出量输入条件随机场进行运算,得到每一个字符的预测值,记为该字符的前向运算预测值。
4.根据权利要求3所述的方法,其特征在于,所述S42包括:
使用CRF算法里面的最大似然估计法求解损失函数。
5.根据权利要求1所述的方法,其特征在于,所述S5中,所述前向运行预测值是一个4维向量,记为前向运行4维预测向量,字符对应的标签类型值,也表示为一个4维向量,记为标签类型4维向量,则所述差距指的是每个字符的前向运行4维预测向量与该字符实际对应的标签类型4维向量之间的差异化程度。
6.根据权利要求5所述的方法,其特征在于,
每个字符的前向运行4维预测向量与该字符实际对应的标签类型4维向量之间的差异化程度用损失函数值进行表示,记一个字符的前向运行4维预测向量与该字符实际对应...
【专利技术属性】
技术研发人员:张森,缪瑾,畅敏,于长虹,肖波,谭卓,吴宏扬,盛润,许云侠,
申请(专利权)人:四川隧唐科技股份有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。