一种基于长短时记忆网络的语言模型重估方法技术

技术编号:15571984 阅读:138 留言:0更新日期:2017-06-10 10:03
本发明专利技术提出了一种基于长短时记忆网络的语言模型重估方法及系统,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。

A method for evaluating linguistic model based on short duration memory network

The present invention provides a system and method for language model when the length of revaluation memory based on network, the method includes: step 100) to identify the input language information, and to identify the language information preprocessing steps; 101) using N gram language model decoding pass on the preprocessed the information, and then select the best candidate results from M; step 102) introduced again in the candidate identification decoding M optimal results obtained in the sentence as historical information; step 103) with high Yuan Wenfa language model for M optimal selection of candidate results re evaluation; step 104) by neural network the training of language model based on the structure of LSTM M to introduce the historical information of the optimal sentence candidate results re evaluation; step 105) will use high n-gram language model weight assessment results with LSTM The results of neural network language model re evaluation are fused to select the optimal result as the final recognition result of the linguistic information to be identified.

【技术实现步骤摘要】

本专利技术涉及语音识别领域,是一种利用长短时记忆网络语言模型对识别结果进行重估,从而提升语音识别性能的方法。
技术介绍
语言模型即用数学的方式描述语言学中词与词之间的约束现象,在语音识别领域起着显著的作用,尤其是在面向电话交谈的语音识别系统中,口语化的语言模型往往可以大幅度提高系统性能。然而,语言模型具有领域性和时效性,现实生活中电话交谈风格的语料是有限的,真实的语音质量多种多样,内容包罗万象,因此语音识别率通常很低。为了提升语音识别系统的性能,一般会增加后处理阶段,即:第一遍解码不仅输出最优首选,而且还输出其他得分较高的候选,这些候选一般可以用M候选列表或者词图表示。后处理阶段利用复杂的模型对M候选列表或者词图进行重新打分,然后选出最优识别结果。近年来,神经网络语言模型的研究越来越受到学术界的广泛关注。基于分布式假设条件,神经网络语言模型可以通过投影矩阵将离散的词表示映射到连续空间,形成相应的词矢量特征,并可以把词义相近的词聚集在一起。这是因为,词法或者词义等相似的词语矢量特征在连续空间表现出良好的聚类性。最典型的神经网络语言模型是加拿大蒙特利尔大学教授Bengio提出的前向神经网络语言模型(FeedForwardNeutralNetworkLanguageModel,FNNLM)、美国学者Mikolov提出的递归神经网络语言模型(RecurrentNeutralNetworkLanguageModel,RNNLM)以及德国学者Sundermeyer最新提出的基于长短时记忆(long-shorttermmemory,LSTM)网络的神经网络语言模型。前向神经网络语言模型虽然可以对词进行连续空间表达,对历史信息起到一定的聚类作用,但是只能考虑有限个历史词信息;递归神经网络语言模型理论上可以考虑无限个历史词信息,但是随着新词的不断引入,这种神经网络语言模型存在着记忆衰退严重的问题;而LSTM神经网络语言模型可以对历史句子信息起到良好的记忆功能。神经网络语言模型因其过高的计算复杂度很少直接应用在解码阶段。它们通常应用在搜索空间较小的重估阶段。在语音识别系统中,使用高元语言模型进行重估效果不明显,用前向神经网络语言模型和递归神经网络语言模型进行M候选重估,性能提升也是有限的。因为这几种语言模型都不能对历史信息起到良好的记忆功能。而基于LSTM结构的神经网络语言模型因其良好的记忆功能,在语音识别系统(尤其是电话交谈语音识别系统)中对引入历史句子信息的M最优候选结果进行重估性能有明显提升。
技术实现思路
本专利技术的目的在于,为了克服上述缺陷,本专利技术提供一种基于长短时记忆网络的语言模型重估方法及系统。为了实现上述目的,本专利技术提供了一种基于长短时记忆网络的语言模型重估方法,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;其中,针对电话交谈语料的上下文相关的特性,在进行重估时,用一遍解码的结果作为历史句子信息,对选取的M个最优候选结果用LSTM神经网络语言模型进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。可选的,上述步骤100)具体为:首先,将输入的语言信息切分为若干具有同一声学性质的音频片段;然后,从音频片段中提取基频、感知线性预测系数(PLP)和异方差线性判别分析(HLDA)等特征,得到预处理后的信号。可选的,上述步骤101)具体为:步骤101-1)当N取值为3时,用CTS语料训练三元文法语言模型,用通用语料训练三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;步骤101-2)用插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。上述步骤102)具体为:在获得的M个最优候选结果中引入一遍解码的识别结果作为历史句子信息,得到引入历史句子信息后的最优候选文本。上述步骤103)进一步包含:步骤103-1)当高元文法语言模型的N取值为4时,用CTS语料训练四元文法语言模型,用通用语料训练四元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的四元文法语言模型。步骤103-2)用插值得到的四元文法语言模型对一遍解码得到的M个候选结果进行重评估。上述步骤104)进一步包含:步骤104-1)用CTS语料训练基于LSTM结构的神经网络语言模型;步骤104-2)用训练后的LSTM神经网络语言模型对得到的引入历史句子信息后的最优候选文本进行重评估。上述步骤105)进一步包含:将四元文法语言模型重评估的结果与神经网络语言模型重评估的结果以(0.5,0.5)的比例进行融合,选出最优的结果作为最终的识别结果。此外,本专利技术还提供了一种基于长短时记忆网络的语言模型重估系统,所述系统包含:预处理模块,用于接收待识别的语音,并对输入的语言信息进行预处理操作;第一解码模块,用于根据N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;历史信息添加模块,用于对第一解码模块输出的信息中引入一遍解码的识别结果作为历史句子信息;重估模块,用于采用用高元文法语言模型对选取的M个最优的候选结果进行重评估;还采用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;和融合处理模块,用于将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。上述预处理模块进一步包含:语音分段子模块,用于将输入的语言信息切分为若干具有同一声学性质的音频片段;特征提取和规整子模块,用于从音频片段中提取基频、PLP和HLDA特征,进而用于后续解码阶段。上述第一解码模块进一步包含:三元文法语言获取子模块,用于当N取值为3时,用CTS语料训练三元文法语言模型,用通用语料训练三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;解码子模块,用于基于插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。为了获得更好的重估效果,本专利技术提出了在电话交谈语音识别任务中,引入历史句子信息的LSTM神经网络语言模型重估。综上所述,本专利技术提供的具体方法为:输入待识别的语言信息;用N元文法语言模型进行一遍解码,然后从中选取M个最优的候选结果;在获得的M候选结果中引入一遍解码的识别结果作为历史句子信息;用高元文法语言模型对选取的M候选结果进行重评估;用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M候选结果进行重评估:针对电话交谈语料本文档来自技高网
...
一种基于长短时记忆网络的语言模型重估方法

【技术保护点】
一种基于长短时记忆网络的语言模型重估方法,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于长短时记忆网络结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;其中,针对电话交谈语料的上下文相关的特性,在进行重估时,用一遍解码的结果作为历史句子信息,对选取的M个最优候选结果用LSTM神经网络语言模型进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。

【技术特征摘要】
1.一种基于长短时记忆网络的语言模型重估方法,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于长短时记忆网络结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;其中,针对电话交谈语料的上下文相关的特性,在进行重估时,用一遍解码的结果作为历史句子信息,对选取的M个最优候选结果用LSTM神经网络语言模型进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。2.根据权利要求1所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤100)具体为:首先,将输入的语言信息切分为若干具有同一声学性质的音频片段;然后,从音频片段中提取基频、感知线性预测系数(PLP)和异方差线性判别分析(HLDA)等特征,得到预处理后的信号。3.根据权利要求1所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤101)具体为:步骤101-1)当N取值为3时,用CTS语料训练三元文法语言模型,用通用语料训练三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;步骤101-2)用插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。4.根据权利要求3所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤103)进一步包含:步骤103-1)当高元文法语言模型的N取值为4时,用CTS语料训练四元文法
\t语言模型,用通用语料训练四元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的四元文法语言模型;步骤103-2)用插值得到的四元文法语言模型对一遍解码得到的M个最优候选结果进行重评估。5.根据权利要求3所述的基于长短时...

【专利技术属性】
技术研发人员:张鹏远左玲云潘接林颜永红
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1