语音识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:28141778 阅读:18 留言:0更新日期:2021-04-21 19:19
本申请提供了一种语音识别方法、装置、计算机设备和存储介质。该方法包括:获取对待识别的音频进行初步解码得到的词图;获取所述音频所属的目标业务场景下的场景语料数据;根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序;将重排序后的词图中每条路径上的词序列,输入至预先训练得到的神经网络语言模型,以通过神经网络语言模型对重排序后的词图进行再次重排序,以对对重排序后各边对应的概率进行修正;所述神经网络语言模型,是使用不分场景的第一原始语料数据训练得到;根据再次重排序后的词图,输出针对所述音频的语音识别结果。本申请的方案能够提高语音识别准确性。本申请的方案能够提高语音识别准确性。本申请的方案能够提高语音识别准确性。

【技术实现步骤摘要】
语音识别方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
和语音识别
,特别是涉及一种语音识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着人工智能技术的发展,出现了很多先进技术,语音识别技术即为其中一项重要的技术。准确地进行语音识别,在很多领域都有着很重要的意义。
[0003]在传统的语音识别过程中,是通过通用模型将原始的音频识别变为词图,基于该词图来达到音频识别的目的。然而,不同的场景会有特定的话语,比如保险和银行的话术存在差异,保险通常推荐保险产品,银行通常办理贷款等业务,因此,通用模型对特定场景的语音识别准确率不高。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够避免响应不灵活的基于语音通话的语音交互方法、装置、计算机设备和存储介质。
[0005]一种语音识别方法,所述方法包括:
[0006]获取对待识别的音频进行初步解码得到的词图;
[0007]获取所述音频所属的目标业务场景下的场景语料数据;所述场景语料数据,是在所述音频所属的目标业务场景下收集的语料数据;
[0008]根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序;重排序后的词图中各边对应的概率,是经所述N元语法语言模型进行调整后的概率;
[0009]将重排序后的词图中每条路径上的词序列,输入至预先训练得到的神经网络语言模型,以通过神经网络语言模型对重排序后的词图进行再次重排序;所述神经网络语言模型,是使用不分场景的第一原始语料数据训练得到;其中,再次重排序后的词图中各边对应的概率,是对重排序后各边对应的概率进行修正,得到的概率;
[0010]根据再次重排序后的词图,输出针对所述音频的语音识别结果。
[0011]在其中一个实施例中,所述获取对待识别的音频进行初步解码得到的词图,包括:
[0012]获取通用的声学模型和语言模型;所述通用的声学模型和语言模型,是预先使用第二原始语料数据训练得到;
[0013]将待识别的音频,输入至所述通用的声学模型和语音模型进行初步解码,得到对应的词图。
[0014]在其中一个实施例中,所述词图包括边和节点;所述根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序,包括:
[0015]根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序,以确定所述词图中各条边的第一概率;
[0016]所述通过神经网络语言模型对重排序后的词图进行再次重排序,包括:
[0017]通过神经网络语言模型,对重排序后的词图进行再次重排序,以对重排序后的词图中各条边的第一概率进行修正。
[0018]在其中一个实施例中,所述根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序,以确定所述词图中各条边的概率,包括:
[0019]使用N元语法算法统计所述场景语料数据中各词组的概率;
[0020]根据统计出的各词组的概率,调整所述词图中各条边的概率,以得到词图中各条边调整后的第一概率。
[0021]在其中一个实施例中,所述通过神经网络语言模型,对重排序后的词图进行再次重排序,以对重排序后的词图中各条边的第一概率进行修正,包括:
[0022]通过神经网络语言模型针对重排序后的词图中各边进行概率预测,得到第二概率;
[0023]针对词图中的每条边,按照第一预设比例保留所述每条边对应的所述第一概率,并按照第二预设比例使用每条边所对应的所述第二概率,得到每条边对应的修正后的概率;其中,所述第一预设比例和所述第二预设比例之和为1。
[0024]在其中一个实施例中,所述根据再次重排序后的词图,输出针对所述音频的语音识别结果,包括:
[0025]确定再次重排序后的词图中各条路径;
[0026]根据每条路径上各边所对应的概率,得到每条路径所对应的概率;
[0027]将概率最大的路径所对应的词序列,作为所述音频的语音识别结果。
[0028]在其中一个实施例中,所述获取所述音频所属的目标业务场景下的场景语料数据,包括:
[0029]确定所述音频所属的目标业务场景;
[0030]若所述目标业务场景为银行业务场景,则获取在所述银行业务场景下采集的场景语料数据;
[0031]若所述目标业务场景为保险业务场景,则获取在所述保险业务场景下采集的场景语料数据。
[0032]一种控制语音机器人响应的装置,所述装置包括:
[0033]初步解码模块,用于获取对待识别的音频进行初步解码得到的词图;
[0034]重排序模块,用于获取所述音频所属的目标业务场景下的场景语料数据;所述场景语料数据,是在所述音频所属的目标业务场景下收集的语料数据;根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序;重排序后的词图中各边对应的概率,是经所述N元语法语言模型进行调整后的概率;将重排序后的词图中每条路径上的词序列,输入至预先训练得到的神经网络语言模型,以通过神经网络语言模型对重排序后的词图进行再次重排序;所述神经网络语言模型,是使用不分场景的第一原始语料数据训练得到;其中,再次重排序后的词图中各边对应的概率,是对重排序后各边对应的概率进行修正,得到的概率;
[0035]输出模块,用于根据再次重排序后的词图,输出针对所述音频的语音识别结果。
[0036]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理
器执行所述计算机程序时实现以下步骤:
[0037]获取对待识别的音频进行初步解码得到的词图;
[0038]获取所述音频所属的目标业务场景下的场景语料数据;所述场景语料数据,是在所述音频所属的目标业务场景下收集的语料数据;
[0039]根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序;重排序后的词图中各边对应的概率,是经所述N元语法语言模型进行调整后的概率;
[0040]将重排序后的词图中每条路径上的词序列,输入至预先训练得到的神经网络语言模型,以通过神经网络语言模型对重排序后的词图进行再次重排序;所述神经网络语言模型,是使用不分场景的第一原始语料数据训练得到;其中,再次重排序后的词图中各边对应的概率,是对重排序后各边对应的概率进行修正,得到的概率;
[0041]根据再次重排序后的词图,输出针对所述音频的语音识别结果。
[0042]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0043]获取对待识别的音频进行初步解码得到的词图;
[0044]获取所述音频所属的目标业务场景下的场景语料数据;所述场景语料数据,是在所述音频所属的目标业务场景下收集的语料本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取对待识别的音频进行初步解码得到的词图;获取所述音频所属的目标业务场景下的场景语料数据;所述场景语料数据,是在所述音频所属的目标业务场景下收集的语料数据;根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序;重排序后的词图中各边对应的概率,是经所述N元语法语言模型进行调整后的概率;将重排序后的词图中每条路径上的词序列,输入至预先训练得到的神经网络语言模型,以通过神经网络语言模型对重排序后的词图进行再次重排序;所述神经网络语言模型,是使用不分场景的第一原始语料数据训练得到;其中,再次重排序后的词图中各边对应的概率,是对重排序后各边对应的概率进行修正,得到的概率;根据再次重排序后的词图,输出针对所述音频的语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述获取对待识别的音频进行初步解码得到的词图,包括:获取通用的声学模型和语言模型;所述通用的声学模型和语言模型,是预先使用第二原始语料数据训练得到;将待识别的音频,输入至所述通用的声学模型和语音模型进行初步解码,得到对应的词图。3.根据权利要求1所述的方法,其特征在于,所述词图包括边和节点;所述根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序,包括:根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序,以确定所述词图中各条边的第一概率;所述通过神经网络语言模型对重排序后的词图进行再次重排序,包括:通过神经网络语言模型,对重排序后的词图进行再次重排序,以对重排序后的词图中各条边的第一概率进行修正。4.根据权利要求3所述的方法,其特征在于,所述根据所述场景语料数据训练N元语法语言模型,并使用所述N元语法语言模型对所述词图进行重排序,以确定所述词图中各条边的概率,包括:使用N元语法算法统计所述场景语料数据中各词组的概率;根据统计出的各词组的概率,调整所述词图中各条边的概率,以得到词图中各条边调整后的第一概率。5.根据权利要求3所述的方法,其特征在于,所述通过神经网络语言模型,对重排序后的词图进行再次重排序,以对重排序后的词图中各条边的第一概率进行修正,包括:通过神经网络语...

【专利技术属性】
技术研发人员:赵金昊袁丁周维聪刘云峰吴悦
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1