语音识别方法和装置制造方法及图纸

技术编号：14555443 阅读：35 留言：0更新日期：2017-02-05 04:41

本申请公开了语音识别方法和装置。所述方法的一具体实施方式包括：将待识别的语音信息切分多帧语音片段；通过预设的解码网络，对语音片段逐帧进行声学模型打分和语言模型查分；基于得分结果，将解码网络中的至少一条解码路径对应的词序列，确定为语音识别结果；其中，在对一帧语音片段进行语言模型查分时，依次进行第一语言模型查分和第二语言模型查分。该实施方式实现了准确、高效的语音识别。

Speech recognition method and apparatus

The invention discloses a speech recognition method and a device. Including a specific embodiment of the method: to voice information segmentation and multi frame speech fragment decoding network; by default, the speech frame by frame acoustic model and language model scoring differential; based on the score results, the word sequence decoding network in at least one solution code path corresponding to the determined for the speech recognition results; among them, in one frame of the voice fragments of the language model check points, followed by the first language and the second language model check check model. The implementation of accurate and efficient speech recognition.

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机
，具体涉及人工智能
，尤其涉及语音识别方法和装置。
技术介绍
语音识别技术是一种将人类的语音中的词汇内容转换为计算机可读的输入(例如按键、二进制编码或者字符序列)的技术。在语音识别系统中，解码器是一个相当重要的组成部分。解码器可以通过加载训练好的声学模型以及语言模型，在解码网络中寻找最优的路径，将其对应的文本信息作为识别结果。在目前的语音识别系统中，为了取得更高的识别率，都会尽可能使用较大的语言模型进行查分。但是，如果直接使用超大语言模型进行查分，会对存储该语言模型的磁盘造成较大损耗，并且识别效率会明显降低。因此，现有技术中普遍采用两遍解码策略进行解码。第一遍可以在小语言模型上完成解码，生成词图(lattice)。第二遍则可以在词图上再使用大语言模型重新打分。此时，由于词图较小，因此需要查询大语言模型的次数也较少，从而能够明显提高语音识别的效率。但是，由于这种方法在第一遍解码时使用了准确度较低的小语言模型，通过其进行多次查分所累积的误差会导致词图中损失部分语音信息。这样，即使后续再从词图上使用大语言模型重新打分，也挽回不了之前损失的信息，因此导致语音识别的准确率不够高的问题。
技术实现思路
本申请的目的在于提出一种语音识别方法和装置，来解决以上
技术介绍
部分提到的技术问题。第一方面，本申请提供了一种语音识别方法，所述方法包括：将待识别...

【技术保护点】
一种语音识别方法，其特征在于，包括：将待识别的语音信息切分多帧语音片段；通过预设的解码网络，对所述语音片段逐帧进行声学模型打分和语言模型查分；基于得分结果，将所述解码网络中的至少一条解码路径对应的词序列，确定为语音识别结果；其中，在对一帧语音片段进行语言模型查分时，依次进行第一语言模型查分和第二语言模型查分。

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：
将待识别的语音信息切分多帧语音片段；
通过预设的解码网络，对所述语音片段逐帧进行声学模型打分和
语言模型查分；
基于得分结果，将所述解码网络中的至少一条解码路径对应的词
序列，确定为语音识别结果；
其中，在对一帧语音片段进行语言模型查分时，依次进行第一语
言模型查分和第二语言模型查分。
2.根据权利要求1所述的语音识别方法，其特征在于，所述第一
语言模型是通过对所述第二语言模型进行裁剪得到的。
3.根据权利要求2所述的语音识别方法，其特征在于，通过预设
的解码网络，对所述语音片段逐帧进行声学模型打分和语言模型查分，
包括：
基于所述解码网络，针对当前输入的一帧语音片段执行如下解码
步骤：
确定第一激活节点集合，所述第一激活节点集合中包括所述解码
网络中的至少一个节点；
遍历所述第一激活节点集合中的各个节点及对应的后驱节点，并
在所述遍历过程中对当前语音片段进行声学模型打分或声学模型打分
和第一语言模型查分；
基于所述当前语音片段的得分，计算每个所述节点及对应的后驱
节点的分数；
根据每个所述节点及对应的后驱节点的分数，确定第二激活节点
集合，所述第二激活节点集合中包括所述第一激活节点集合中的各个
节点及对应的后驱节点中的至少一个节点；
若第二激活节点集合中存在出词节点，则遍历所述出词节点，并

\t在该遍历过程中进行第二语言模型查分；
根据所述第二语言模型查分的结果，重新计算所述出词节点的分
数；
基于所述出词节点的分数，对所述第二激活节点集合中的节点进
行裁剪；
将裁剪后的所述第二激活节点集合作为下一帧语音片段的第一激
活节点集合，对所述下一帧语音片段再次执行所述解码步骤。
4.根据权利要求3所述的语音识别方法，其特征在于，若当前输
入的一帧语音片段为所述语音信息的第一帧语音片段，则所述第一激
活节点集合包括所述解码网络的起始节点。
5.根据权利要求1所述的语音识别方法，其特征在于，所述基于
得分结果，将所述解码网络中的至少一条解码路径对应的词序列，确
定为语音识别结果，包括：
基于所述解码网络中终止节点的得分，获取至少一条解码路径；
将所述解码路径对应的词序列确定为语音识别结果。
6.根据权利要求1至5任一项所述的语音识别方法，其特征在于，
所述第二语言模型存储于具...

【专利技术属性】
技术研发人员：黄辰，钱胜，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人