语音识别方法和装置制造方法及图纸

技术编号:14555443 阅读:35 留言:0更新日期:2017-02-05 04:41
本申请公开了语音识别方法和装置。所述方法的一具体实施方式包括:将待识别的语音信息切分多帧语音片段;通过预设的解码网络,对语音片段逐帧进行声学模型打分和语言模型查分;基于得分结果,将解码网络中的至少一条解码路径对应的词序列,确定为语音识别结果;其中,在对一帧语音片段进行语言模型查分时,依次进行第一语言模型查分和第二语言模型查分。该实施方式实现了准确、高效的语音识别。

Speech recognition method and apparatus

The invention discloses a speech recognition method and a device. Including a specific embodiment of the method: to voice information segmentation and multi frame speech fragment decoding network; by default, the speech frame by frame acoustic model and language model scoring differential; based on the score results, the word sequence decoding network in at least one solution code path corresponding to the determined for the speech recognition results; among them, in one frame of the voice fragments of the language model check points, followed by the first language and the second language model check check model. The implementation of accurate and efficient speech recognition.

【技术实现步骤摘要】

本申请涉及计算机
,具体涉及人工智能
,尤其涉及语音识别方法和装置
技术介绍
语音识别技术是一种将人类的语音中的词汇内容转换为计算机可读的输入(例如按键、二进制编码或者字符序列)的技术。在语音识别系统中,解码器是一个相当重要的组成部分。解码器可以通过加载训练好的声学模型以及语言模型,在解码网络中寻找最优的路径,将其对应的文本信息作为识别结果。在目前的语音识别系统中,为了取得更高的识别率,都会尽可能使用较大的语言模型进行查分。但是,如果直接使用超大语言模型进行查分,会对存储该语言模型的磁盘造成较大损耗,并且识别效率会明显降低。因此,现有技术中普遍采用两遍解码策略进行解码。第一遍可以在小语言模型上完成解码,生成词图(lattice)。第二遍则可以在词图上再使用大语言模型重新打分。此时,由于词图较小,因此需要查询大语言模型的次数也较少,从而能够明显提高语音识别的效率。但是,由于这种方法在第一遍解码时使用了准确度较低的小语言模型,通过其进行多次查分所累积的误差会导致词图中损失部分语音信息。这样,即使后续再从词图上使用大语言模型重新打分,也挽回不了之前损失的信息,因此导致语音识别的准确率不够高的问题。
技术实现思路
本申请的目的在于提出一种语音识别方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种语音识别方法,所述方法包括:将待识别的语音信息切分多帧语音片段;通过预设的解码网络,对所述语音片段逐帧进行声学模型打分和语言模型查分;基于得分结果,将所述解码网络中的至少一条解码路径对应的词序列,确定为语音识别结果;其中,在对一帧语音片段进行语言模型查分时,依次进行第一语言模型查分和第二语言模型查分。在一些实施例中,所述第一语言模型是通过对所述第二语言模型进行裁剪得到的。在一些实施例中,通过预设的解码网络,对所述语音片段逐帧进行声学模型打分和语言模型查分,包括:基于所述解码网络,针对当前输入的一帧语音片段执行如下解码步骤:确定第一激活节点集合,所述第一激活节点集合中包括所述解码网络中的至少一个节点;遍历所述第一激活节点集合中的各个节点及对应的后驱节点,并在所述遍历过程中对当前语音片段进行声学模型打分或声学模型打分和第一语言模型查分;基于所述当前语音片段的得分,计算每个所述节点及对应的后驱节点的分数;根据每个所述节点及对应的后驱节点的分数,确定第二激活节点集合,所述第二激活节点集合中包括所述第一激活节点集合中的各个节点及对应的后驱节点中的至少一个节点;若第二激活节点集合中存在出词节点,则遍历所述出词节点,并在该遍历过程中进行第二语言模型查分;根据所述第二语言模型查分的结果,重新计算所述出词节点的分数;基于所述出词节点的分数,对所述第二激活节点集合中的节点进行裁剪;将裁剪后的所述第二激活节点集合作为下一帧语音片段的第一激活节点集合,对所述下一帧语音片段再次执行所述解码步骤。在一些实施例中,若当前输入的一帧语音片段为所述语音信息的第一帧语音片段,则所述第一激活节点集合包括所述解码网络的起始节点。在一些实施例中,所述基于得分结果,将所述解码网络中的至少一条解码路径对应的词序列,确定为语音识别结果,包括:基于所述解码网络中终止节点的得分,获取至少一条解码路径;将所述解码路径对应的词序列确定为语音识别结果。在一些实施例中,所述第二语言模型存储于具有预定读写速度的硬件上。第二方面,本申请提供了一种语音识别装置,所述装置包括:切分模块,用于将待识别的语音信息切分多帧语音片段;查分模块,用于通过预设的解码网络,对所述语音片段逐帧进行声学模型打分和语言模型查分;识别模块,用于基于得分结果,将所述解码网络中的至少一条解码路径对应的词序列,确定为语音识别结果;其中,所述查分模块在对一帧语音片段进行语言模型查分时,依次进行第一语言模型查分和第二语言模型查分。在一些实施例中,所述第一语言模型是通过对所述第二语言模型进行裁剪得到的。在一些实施例中,所述查分模块进一步用于:基于所述解码网络,针对当前输入的一帧语音片段执行如下解码步骤:确定第一激活节点集合,所述第一激活节点集合中包括所述解码网络中的至少一个节点;遍历所述第一激活节点集合中的各个节点及对应的后驱节点,并在所述遍历过程中对当前语音片段进行声学模型打分或声学模型打分和第一语言模型查分;基于所述当前语音片段的得分,计算每个所述节点及对应的后驱节点的分数;根据每个所述节点及对应的后驱节点的分数,确定第二激活节点集合,所述第二激活节点集合中包括所述第一激活节点集合中的各个节点及对应的后驱节点中的至少一个节点;若第二激活节点集合中存在出词节点,则遍历所述出词节点,并在该遍历过程中进行第二语言模型查分;根据所述第二语言模型查分的结果,重新计算所述出词节点的分数;基于所述出词节点的分数,对所述第二激活节点集合中的节点进行裁剪;将裁剪后的所述第二激活节点集合作为下一帧语音片段的第一激活节点集合,对所述下一帧语音片段再次执行所述解码步骤。在一些实施例中,若当前输入的一帧语音片段为所述语音信息的第一帧语音片段,则所述第一激活节点集合包括所述解码网络的起始节点。在一些实施例中,所述识别模块进一步用于:基于所述解码网络中终止节点的得分,获取至少一条解码路径;将所述解码路径对应的词序列确定为语音识别结果。在一些实施例中,所述第二语言模型存储于具有预定读写速度的硬件上。本申请提供的语音识别方法和装置,可以首先将待识别的语音信息切分多帧语音片段,然后通过预设的解码网络,对每个语音片段逐帧进行声学模型打分和语言模型查分,并且在进行语言模型查分时,先后进行第一语言模型查分和第二语言模型查分,最后基于得分结果确定为语音识别结果。通过对每一帧语音片段进行两个语言模型查分,能够避免连续进行第一语言模型查分所产生的累积误差,提高语音识别精度,同时也能够大量减少查询第二语言模型的次数,从而优化了语音识别速度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的语音识别方法的一个实施例的流程图;图3是根据本申请的语音识别方法的又一个实施例的流程图;本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括:将待识别的语音信息切分多帧语音片段;通过预设的解码网络,对所述语音片段逐帧进行声学模型打分和语言模型查分;基于得分结果,将所述解码网络中的至少一条解码路径对应的词序列,确定为语音识别结果;其中,在对一帧语音片段进行语言模型查分时,依次进行第一语言模型查分和第二语言模型查分。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
将待识别的语音信息切分多帧语音片段;
通过预设的解码网络,对所述语音片段逐帧进行声学模型打分和
语言模型查分;
基于得分结果,将所述解码网络中的至少一条解码路径对应的词
序列,确定为语音识别结果;
其中,在对一帧语音片段进行语言模型查分时,依次进行第一语
言模型查分和第二语言模型查分。
2.根据权利要求1所述的语音识别方法,其特征在于,所述第一
语言模型是通过对所述第二语言模型进行裁剪得到的。
3.根据权利要求2所述的语音识别方法,其特征在于,通过预设
的解码网络,对所述语音片段逐帧进行声学模型打分和语言模型查分,
包括:
基于所述解码网络,针对当前输入的一帧语音片段执行如下解码
步骤:
确定第一激活节点集合,所述第一激活节点集合中包括所述解码
网络中的至少一个节点;
遍历所述第一激活节点集合中的各个节点及对应的后驱节点,并
在所述遍历过程中对当前语音片段进行声学模型打分或声学模型打分
和第一语言模型查分;
基于所述当前语音片段的得分,计算每个所述节点及对应的后驱
节点的分数;
根据每个所述节点及对应的后驱节点的分数,确定第二激活节点
集合,所述第二激活节点集合中包括所述第一激活节点集合中的各个
节点及对应的后驱节点中的至少一个节点;
若第二激活节点集合中存在出词节点,则遍历所述出词节点,并

\t在该遍历过程中进行第二语言模型查分;
根据所述第二语言模型查分的结果,重新计算所述出词节点的分
数;
基于所述出词节点的分数,对所述第二激活节点集合中的节点进
行裁剪;
将裁剪后的所述第二激活节点集合作为下一帧语音片段的第一激
活节点集合,对所述下一帧语音片段再次执行所述解码步骤。
4.根据权利要求3所述的语音识别方法,其特征在于,若当前输
入的一帧语音片段为所述语音信息的第一帧语音片段,则所述第一激
活节点集合包括所述解码网络的起始节点。
5.根据权利要求1所述的语音识别方法,其特征在于,所述基于
得分结果,将所述解码网络中的至少一条解码路径对应的词序列,确
定为语音识别结果,包括:
基于所述解码网络中终止节点的得分,获取至少一条解码路径;
将所述解码路径对应的词序列确定为语音识别结果。
6.根据权利要求1至5任一项所述的语音识别方法,其特征在于,
所述第二语言模型存储于具...

【专利技术属性】
技术研发人员:黄辰钱胜
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1