The present invention provides a system and method for language model when the length of revaluation memory based on network, the method includes: step 100) to identify the input language information, and to identify the language information preprocessing steps; 101) using N gram language model decoding pass on the preprocessed the information, and then select the best candidate results from M; step 102) introduced again in the candidate identification decoding M optimal results obtained in the sentence as historical information; step 103) with high Yuan Wenfa language model for M optimal selection of candidate results re evaluation; step 104) by neural network the training of language model based on the structure of LSTM M to introduce the historical information of the optimal sentence candidate results re evaluation; step 105) will use high n-gram language model weight assessment results with LSTM The results of neural network language model re evaluation are fused to select the optimal result as the final recognition result of the linguistic information to be identified.
【技术实现步骤摘要】
本专利技术涉及语音识别领域,是一种利用长短时记忆网络语言模型对识别结果进行重估,从而提升语音识别性能的方法。
技术介绍
语言模型即用数学的方式描述语言学中词与词之间的约束现象,在语音识别领域起着显著的作用,尤其是在面向电话交谈的语音识别系统中,口语化的语言模型往往可以大幅度提高系统性能。然而,语言模型具有领域性和时效性,现实生活中电话交谈风格的语料是有限的,真实的语音质量多种多样,内容包罗万象,因此语音识别率通常很低。为了提升语音识别系统的性能,一般会增加后处理阶段,即:第一遍解码不仅输出最优首选,而且还输出其他得分较高的候选,这些候选一般可以用M候选列表或者词图表示。后处理阶段利用复杂的模型对M候选列表或者词图进行重新打分,然后选出最优识别结果。近年来,神经网络语言模型的研究越来越受到学术界的广泛关注。基于分布式假设条件,神经网络语言模型可以通过投影矩阵将离散的词表示映射到连续空间,形成相应的词矢量特征,并可以把词义相近的词聚集在一起。这是因为,词法或者词义等相似的词语矢量特征在连续空间表现出良好的聚类性。最典型的神经网络语言模型是加拿大蒙特利尔大学教授Bengio提出的前向神经网络语言模型(FeedForwardNeutralNetworkLanguageModel,FNNLM)、美国学者Mikolov提出的递归神经网络语言模型(RecurrentNeutralNetworkLanguageModel,RNNLM)以及德国学者Sundermeyer最新提出的基于长短时记忆(long-shorttermmemory,LSTM)网络的神经网络语言模型。前 ...
【技术保护点】
一种基于长短时记忆网络的语言模型重估方法,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于长短时记忆网络结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;其中,针对电话交谈语料的上下文相关的特性,在进行重估时,用一遍解码的结果作为历史句子信息,对选取的M个最优候选结果用LSTM神经网络语言模型进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
【技术特征摘要】
1.一种基于长短时记忆网络的语言模型重估方法,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于长短时记忆网络结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;其中,针对电话交谈语料的上下文相关的特性,在进行重估时,用一遍解码的结果作为历史句子信息,对选取的M个最优候选结果用LSTM神经网络语言模型进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。2.根据权利要求1所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤100)具体为:首先,将输入的语言信息切分为若干具有同一声学性质的音频片段;然后,从音频片段中提取基频、感知线性预测系数(PLP)和异方差线性判别分析(HLDA)等特征,得到预处理后的信号。3.根据权利要求1所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤101)具体为:步骤101-1)当N取值为3时,用CTS语料训练三元文法语言模型,用通用语料训练三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;步骤101-2)用插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。4.根据权利要求3所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤103)进一步包含:步骤103-1)当高元文法语言模型的N取值为4时,用CTS语料训练四元文法
\t语言模型,用通用语料训练四元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的四元文法语言模型;步骤103-2)用插值得到的四元文法语言模型对一遍解码得到的M个最优候选结果进行重评估。5.根据权利要求3所述的基于长短时...
【专利技术属性】
技术研发人员:张鹏远,左玲云,潘接林,颜永红,
申请(专利权)人:中国科学院声学研究所,北京中科信利技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。