语音识别方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:39331180 阅读:11 留言:0更新日期:2023-11-12 16:07
本申请实施例公开了语音识别方法、装置、设备、存储介质及程序产品;本申请实施例可以对音频帧序列进行特征提取处理,得到声学特征序列,音频帧序列包括至少一个音频帧,声学特征序列包括各个音频帧的声学特征;根据声学特征,对当前的待解码音频帧进行声学似然计算,得到待解码音频帧的声学似然结果;获取参考音频帧的历史解码信息、以及计算机设备当前的资源使用信息;根据声学似然结果、历史解码信息、以及资源使用信息,对待解码音频帧进行音频解码处理;根据处理结果对待解码音频帧进行语音识别处理。该方案可以自适应地对语音识别处理进行动态调节,以提高语音识别的正确率与效率。率。率。

【技术实现步骤摘要】
语音识别方法、装置、设备、存储介质及程序产品


[0001]本申请涉及计算机
,具体涉及一种语音识别方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]语音识别可以用于将语音信号识别为相应的文本或命令,语音识别技术的广泛运用,极大地便捷了人和人之间的沟通、以及人和机器之间的沟通。
[0003]在对相关技术的研究和实践过程中,本申请的专利技术人发现,可以通过对语音中的音频帧进行解码,进而基于解码结果确定语音识别结果。但由于当前针对音频帧进行解码的过程中,对计算机设备运算资源的利用率较低,使得语音识别的正确率与识别效率还有待提高。

技术实现思路

[0004]本申请实施例提供一种语音识别方法、装置、设备、存储介质及程序产品,可以自适应地对语音识别处理进行动态调节,以提高语音识别的正确率与效率。
[0005]本申请实施例提供一种语音识别方法,包括:
[0006]对音频帧序列进行特征提取处理,得到声学特征序列,所述音频帧序列包括至少一个音频帧,所述声学特征序列包括各个所述音频帧的声学特征;
[0007]根据所述声学特征,对当前的待解码音频帧进行声学似然计算,得到所述待解码音频帧的声学似然结果,所述声学似然结果表征所述待解码音频帧与预设声学状态之间的接近程度;
[0008]获取参考音频帧的历史解码信息、以及所述计算机设备当前的资源使用信息,所述参考音频帧包括所述音频帧序列中与所述待解码音频帧关联的音频帧;
[0009]根据所述声学似然结果、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理;
[0010]根据处理结果对所述待解码音频帧进行语音识别处理。
[0011]相应的,本申请实施例还提供一种语音识别装置,包括:
[0012]提取单元,用于对音频帧序列进行特征提取处理,得到声学特征序列,所述音频帧序列包括至少一个音频帧,所述声学特征序列包括各个所述音频帧的声学特征;
[0013]计算单元,用于根据所述声学特征,对当前的待解码音频帧进行声学似然计算,得到所述待解码音频帧的声学似然结果,所述声学似然结果表征所述待解码音频帧与预设声学状态之间的接近程度;
[0014]获取单元,用于获取参考音频帧的历史解码信息、以及所述计算机设备当前的资源使用信息,所述参考音频帧包括所述音频帧序列中与所述待解码音频帧关联的音频帧;
[0015]解码单元,用于根据所述声学似然结果、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理;
[0016]识别单元,用于根据处理结果对所述待解码音频帧进行语音识别处理。
[0017]在一实施例中,所述解码单元,包括:
[0018]置信度计算子单元,用于根据所述声学似然结果,计算所述待解码音频帧的声学似然置信度;
[0019]音频解码子单元,用于根据所述声学似然置信度、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理。
[0020]在一实施例中,所述声学似然结果包括声学似然得分序列,所述声学似然得分序列包括至少一个声学似然得分信息,每个所述声学似然得分信息指示所述待解码音频帧与预设声学状态之间的接近程度;所述置信度计算子单元,用于:
[0021]对所述声学似然得分序列进行信息提取处理,得到至少一个声学似然得分子序列;分别计算各个所述声学似然得分子序列的声学似然置信度;基于各个所述声学似然得分子序列的声学似然置信度,计算所述声学似然得分序列的声学似然置信度,作为所述待解码音频帧的声学似然置信度。
[0022]在一实施例中,所述置信度计算子单元,具体用于:
[0023]确定各个所述声学似然得分子序列在所述声学似然得分序列中的序列分布信息;根据所述序列分布信息,确定各个所述声学似然得分子序列对应的置信权重;基于所述置信权重与各个所述声学似然得分子序列的声学似然置信度,计算所述声学似然得分序列的声学似然置信度。
[0024]在一实施例中,所述置信度计算子单元,具体用于:
[0025]对所述声学似然得分序列中的声学似然得分信息进行排序处理,得到排序后的声学似然得分序列;对所述排序后的声学似然得分序列进行信息提取处理,得到至少一个声学似然得分子序列,每个所述声学似然得分子序列包括至少一个按照预设得分顺序排列的声学似然得分信息。
[0026]在一实施例中,所述音频解码子单元,用于:
[0027]获取预训练的参数获取模型;采用所述参数获取模型,根据所述声学似然置信度、所述历史解码信息、以及所述资源使用信息,确定针对所述待解码音频帧的解码调节参数;根据所述解码调节参数,对所述待解码音频帧的音频解码过程进行调节,以对所述待解码音频帧进行音频解码处理。
[0028]在一实施例中,所述声学似然结果包括声学似然得分序列,所述声学似然得分序列包括至少一个声学似然得分信息,每个所述声学似然得分信息指示所述待解码音频帧与预设声学状态之间的接近程度;所述音频解码子单元,具体用于:
[0029]当基于图网络对待解码音频帧进行音频解码处理时,根据所述声学似然得分信息,生成与所述待解码音频帧匹配的候选状态节点,所述候选状态节点表征所述声学似然得分信息对应的预设声学状态;获取预训练的语言模型,并通过所述语言模型确定所述候选状态节点的语言模型得分信息;根据所述解码调节参数、所述声学似然得分信息、以及所述语言模型得分信息,对所述待解码音频帧的音频解码过程进行调节。
[0030]在一实施例中,所述音频解码子单元,具体用于:
[0031]根据所述声学似然得分信息与所述语言模型得分信息,计算每个所述候选状态节点的初始评估分数信息;基于所述解码调节参数与所述初始评估分数信息,从所述待解码
音频帧的候选状态节点中确定与所述待解码音频帧匹配的目标状态节点,以对所述待解码音频帧的音频解码过程进行调节。
[0032]在一实施例中,所述解码调节参数包括第一节点调节参数;所述音频解码子单元,具体用于:
[0033]通过所述第一节点调节参数对所述候选状态节点的初始评估分数信息进行调节,得到所述候选状态节点的调节后评估分数信息;确定所述候选状态节点的前驱状态节点,并获取所述前驱状态节点的节点评估分数信息;基于所述调节后评估分数信息与所述前驱状态节点的节点评估分数信息,确定所述候选状态节点的节点评估分数信息;根据所述候选状态节点的节点评估分数信息,从所述候选状态节点中确定与所述待解码音频帧匹配的目标状态节点。
[0034]在一实施例中,所述解码调节参数包括第二节点调节参数;所述音频解码子单元,具体用于:
[0035]基于所述初始评估分数,确定所述候选状态节点的节点评估分数信息;根据所述节点评估分数信息,对所述待解码音频帧的候选状态节点进行排序处理;基于所述第二节点调节参数,从排序后的候选状态节点中选取与所述待解码音频帧匹配的目标状态节点。
[0036]在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,应用于计算机设备,包括:对音频帧序列进行特征提取处理,得到声学特征序列,所述音频帧序列包括至少一个音频帧,所述声学特征序列包括各个所述音频帧的声学特征;根据所述声学特征,对当前的待解码音频帧进行声学似然计算,得到所述待解码音频帧的声学似然结果,所述声学似然结果表征所述待解码音频帧与预设声学状态之间的接近程度;获取参考音频帧的历史解码信息、以及所述计算机设备当前的资源使用信息,所述参考音频帧包括所述音频帧序列中与所述待解码音频帧关联的音频帧;根据所述声学似然结果、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理;根据处理结果对所述待解码音频帧进行语音识别处理。2.根据权利要求1所述的语音识别方法,其特征在于,根据所述声学似然结果、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理,包括:根据所述声学似然结果,计算所述待解码音频帧的声学似然置信度;根据所述声学似然置信度、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理。3.根据权利要求2所述的语音识别方法,其特征在于,所述声学似然结果包括声学似然得分序列,所述声学似然得分序列包括至少一个声学似然得分信息,每个所述声学似然得分信息指示所述待解码音频帧与预设声学状态之间的接近程度;根据所述声学似然结果,计算所述待解码音频帧的声学似然置信度,包括:对所述声学似然得分序列进行信息提取处理,得到至少一个声学似然得分子序列;分别计算各个所述声学似然得分子序列的声学似然置信度;基于各个所述声学似然得分子序列的声学似然置信度,计算所述声学似然得分序列的声学似然置信度,作为所述待解码音频帧的声学似然置信度。4.根据权利要求3所述的语音识别方法,其特征在于,基于各个所述声学似然得分子序列的声学似然置信度,计算所述声学似然得分序列的声学似然置信度,包括:确定各个所述声学似然得分子序列在所述声学似然得分序列中的序列分布信息;根据所述序列分布信息,确定各个所述声学似然得分子序列对应的置信权重;基于所述置信权重与各个所述声学似然得分子序列的声学似然置信度,计算所述声学似然得分序列的声学似然置信度。5.根据权利要求3所述的语音识别方法,其特征在于,对所述声学似然得分序列进行信息提取处理,得到至少一个声学似然得分子序列,包括:对所述声学似然得分序列中的声学似然得分信息进行排序处理,得到排序后的声学似然得分序列;对所述排序后的声学似然得分序列进行信息提取处理,得到至少一个声学似然得分子序列,每个所述声学似然得分子序列包括至少一个按照预设得分顺序排列的声学似然得分信息。6.根据权利要求2所述的语音识别方法,其特征在于,根据所述声学似然置信度、所述历史解码信息、以及所述资源使用信息,对所述待解码音频帧进行音频解码处理,包括:
获取预训练的参数获取模型;采用所述参数获取模型,根据所述声学似然置信度、所述历史解码信息、以及所述资源使用信息,确定针对所述待解码音频帧的解码调节参数;根据所述解码调节参数,对所述待解码音频帧的音频解码过程进行调节,以对所述待解码音频帧进行音频解码处理。7.根据权利要求6所述的语音识别方法,其特征在于,所述声学似然结果包括声学似然得分序列,所述声学似然得分序列包括至少一个声学似然得分信息,每个所述声学似然得分信息指示所述待解码音频帧与预设声学状态之间的接近程度;根据所述解码调节参数,对所述待解码音频帧的音频解码过程进行调节,包括:当基于图网络对待解码音频帧进行音频解码处理时,根据所述声学似然得分信息,生成与所述待解码音频帧匹配的候选状态节点,所述候选状态节点表征所述声学似然得分信息对应的预设声学状态;获取预训练的语言模型,并通过所述语言模型确定所述候选状态节点的语言模型得分信息;根据所述解码调节参数、所述声学似然得分信息、以及所述语言模型得分信息,对所述待解码音频帧的音频解码过程进行调节。8.根据权利要求7所述的语音识别方法,其特征在于,根据所述解码调节参数、所述...

【专利技术属性】
技术研发人员:唐立亮朱绍明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1