语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33087657 阅读:12 留言:0更新日期:2022-04-15 10:54
本申请实施例公开了一种语音识别方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取语言信息,获取语音数据中的多个音频帧的语义特征,语义特征包括音频帧分别属于多个字符的第一概率;基于多个语义特征中区分度大于第一阈值的语义特征,从语言信息中提取与语音数据匹配的语义路径,将语义路径确定为语音数据的语义信息。本申请实施例提供的方法,从多个语义特征中筛选出区分度满足要求的语义特征,结合语言信息中各个字符之间的连接关系,从语言信息中提取出与该语音数据匹配的语义路径,作为识别到的语义信息,无需再对不满足区分度条件的语义特征进行处理,从而提升了语音识别效率,也保证了识别结果的准确性。确性。确性。

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及存储介质


[0001]本申请实施例涉及计算机
,特别涉及一种语音识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音识别是通过识别和理解将语音数据转换成对应的语义信息,近年来,语音识别技术的应用越来越广泛,常应用于语音控制设备、智能对话等多种场景下。但是相关技术中的语音识别方式,无法兼顾语音识别的效率和准确性。

技术实现思路

[0003]本申请实施例提供了一种语音识别方法、装置、计算机设备及存储介质,能够提升语音识别效率和准确性。所述技术方案如下:
[0004]一方面,提供了一种语音识别方法,所述方法包括:
[0005]获取语言信息,所述语言信息包括多个字符及至少两个所述字符之间的连接关系;
[0006]获取语音数据中的多个音频帧的语义特征,所述语义特征包括所述音频帧分别属于多个所述字符的第一概率;
[0007]基于多个所述语义特征中区分度大于第一阈值的语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径,所述区分度表示所述音频帧分别属于多个所述字符的所述第一概率之间的差异程度,所述语义路径由至少一个所述字符连接构成;
[0008]将所述语义路径确定为所述语音数据的语义信息。
[0009]另一方面,提供了一种语音识别装置,所述装置包括:
[0010]获取模块,用于获取语言信息,所述语言信息包括多个字符及至少两个所述字符之间的连接关系;
[0011]所述获取模块,还用于获取语音数据中的多个音频帧的语义特征,所述语义特征包括所述音频帧分别属于多个所述字符的第一概率;
[0012]提取模块,用于基于多个所述语义特征中区分度大于第一阈值的语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径,所述区分度表示所述音频帧分别属于多个所述字符的所述第一概率之间的差异程度,所述语义路径由至少一个所述字符连接构成;
[0013]确定模块,用于将所述语义路径确定为所述语音数据的语义信息。
[0014]在一种可能实现方式中,所述语言信息中的每个所述字符仅有一个前序字符,所述提取模块,包括:
[0015]遍历单元,用于遍历所述语音数据中的多个所述音频帧;
[0016]获取单元,用于对于遍历到的所述语义特征的区分度大于所述第一阈值的所述音频帧,基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,其中
初次确定的尾字符为所述语言信息中的起始字符,所述后继字符对应的匹配度指示从所述起始字符到所述后继字符构成的路径与所述语音数据的匹配程度;
[0017]确定单元,用于在所述后继字符对应的匹配度满足第一匹配条件的情况下,将所述尾字符删除,将所述后继字符确定为本次最新的尾字符;
[0018]所述确定单元,还用于在所述多个音频帧遍历完成后,确定从所述起始字符到最新确定的尾字符构成的语义路径。
[0019]在另一种可能实现方式中,所述获取单元,用于对于当前确定的尾字符中匹配度满足第二匹配条件的尾字符,基于所述音频帧的语义特征,获取所述尾字符的后继字符对应的匹配度。
[0020]在另一种可能实现方式中,所述装置还包括:
[0021]处理模块,用于对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第一匹配参数;
[0022]所述确定模块,还用于对于当前确定的每个尾字符,在所述尾字符对应的匹配度与所述第一匹配参数的乘积大于第二阈值的情况下,确定所述尾字符对应的匹配度满足所述第二匹配条件。
[0023]在另一种可能实现方式中,所述装置还包括:
[0024]处理模块,用于对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第二匹配参数;
[0025]所述确定模块,还用于在所述后继字符对应的匹配度与所述第二匹配参数的乘积大于第三阈值的情况下,确定所述后继字符对应的匹配度满足第一匹配条件。
[0026]在另一种可能实现方式中,所述获取单元,用于从所述音频帧的语义特征中,确定所述音频帧属于所述后继字符的第一概率;对所述第一概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。
[0027]在另一种可能实现方式中,所述获取模块,还用于获取从所述起始字符到所述后继字符构成的路径对应的语言概率,所述语言概率指示所述路径的语言逻辑的合理程度;
[0028]所述获取单元,用于对所述第一概率、所述语言概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。
[0029]在另一种可能实现方式中,所述装置还包括:
[0030]删除模块,用于将当前确定的多个尾字符中匹配度不大于匹配度阈值的尾字符删除。
[0031]在另一种可能实现方式中,所述确定模块,还用于确定当前确定的多个尾字符对应的最大匹配度;在所述音频帧的语义特征的区分度属于剪裁区间内的情况下,确定第四阈值与裁减系数的乘积;将所述最大匹配度与所述乘积之间的差值确定为所述匹配度阈值;或者,在所述音频帧的语义特征的区分度不属于所述剪裁区间内的情况下,将所述最大匹配度与所述第四阈值之间的差值确定为所述匹配度阈值。
[0032]在另一种可能实现方式中,所述提取模块,用于基于多个所述语义特征中的目标语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径;
[0033]其中,所述目标语义特征的区分度大于所述第一阈值,且所述目标语义特征中最大第一概率对应的字符不是静音字符。
[0034]在另一种可能实现方式中,所述语义特征还包括第二概率,所述第二概率指示多个所述第一概率的分布情况,所述确定模块,还用于对于任一所述音频帧的语义特征,将所述语义特征中多个所述第一概率与所述第二概率的方差,确定为所述语义特征的区分度。
[0035]在另一种可能实现方式中,所述获取模块,用于对所述语音数据进行分帧处理,得到多个所述音频帧;对于每个所述音频帧,基于所述音频帧对应的其他音频帧,对所述音频帧进行特征提取,得到所述音频帧的语义特征。
[0036]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的语音识别方法所执行的操作。
[0037]另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的语音识别方法所执行的操作。
[0038]再一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述方面所述的语音识别方法所执行的操作。
[0039]本申请实施例提供的方法、装置、计算机设备及存储介质,在语音识别的过程中,从语音数据中的多个音频帧的语义特征中筛选出区分度满足要求的语义特征,基于筛选出的语义特征,结合语言信息中各个字符之间的连接关系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取语言信息,所述语言信息包括多个字符及至少两个所述字符之间的连接关系;获取语音数据中的多个音频帧的语义特征,所述语义特征包括所述音频帧分别属于多个所述字符的第一概率;基于多个所述语义特征中区分度大于第一阈值的语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径,所述区分度表示所述音频帧分别属于多个所述字符的所述第一概率之间的差异程度,所述语义路径由至少一个所述字符连接构成;将所述语义路径确定为所述语音数据的语义信息。2.根据权利要求1所述的方法,其特征在于,所述语言信息中的每个所述字符仅有一个前序字符,所述基于多个所述语义特征中区分度大于第一阈值的语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径,包括:遍历所述语音数据中的多个所述音频帧;对于遍历到的所述语义特征的区分度大于所述第一阈值的所述音频帧,基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,其中初次确定的尾字符为所述语言信息中的起始字符,所述后继字符对应的匹配度指示从所述起始字符到所述后继字符构成的路径与所述语音数据的匹配程度;在所述后继字符对应的匹配度满足第一匹配条件的情况下,将所述尾字符删除,将所述后继字符确定为本次最新的尾字符;在所述多个音频帧遍历完成后,确定从所述起始字符到最新确定的尾字符构成的语义路径。3.根据权利要求2所述的方法,其特征在于,所述基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,包括:对于当前确定的尾字符中匹配度满足第二匹配条件的尾字符,基于所述音频帧的语义特征,获取所述尾字符的后继字符对应的匹配度。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第一匹配参数;对于当前确定的每个尾字符,在所述尾字符对应的匹配度与所述第一匹配参数的乘积大于第二阈值的情况下,确定所述尾字符对应的匹配度满足所述第二匹配条件。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第二匹配参数;在所述后继字符对应的匹配度与所述第二匹配参数的乘积大于第三阈值的情况下,确定所述后继字符对应的匹配度满足所述第一匹配条件。6.根据权利要求2所述的方法,其特征在于,所述基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,包括:从所述音频帧的语义特征中,确定所述音频帧属于所述后继字符的第一概率;对所述第一概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:获取从所述起始字符到所述后继字符构成的路径对应的语言概率,所述语言概率指示
所述路径的语言逻辑的合理程度;所述对所述第一概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度,包括:对所述第一概率、所述语言概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。8.根据权利要求2所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:唐立亮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1