语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39315668 阅读:6 留言:0更新日期:2023-11-12 15:59
本申请实施例公开了一种语音识别方法、装置、计算机设备及存储介质,属于音频处理技术领域。该方法包括:获取对用户语音采集获得的语音数据包;响应于尚未识别出用户语音中的首词,将语音数据包中的音频帧写入第一识别缓存;依序从第一识别缓存中提取尚未识别的至少两个音频帧作为第一音频序列;对第一音频序列的末尾M帧进行复制,获得第一音频序列的后拼帧;基于第一音频序列的后拼帧,对第一音频序列进行拼帧处理,获得第一识别序列;对第一识别序列进行语音识别处理,获得第一识别结果;响应于第一识别结果中存在用户语音中的首词,将第一识别结果中的首词发送至显示端进行显示。该方案提高了流式语音识别的性能。该方案提高了流式语音识别的性能。该方案提高了流式语音识别的性能。

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及存储介质


[0001]本申请涉及音频处理
,特别涉及一种语音识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着语音处理技术的不断发展,语音识别的应用场景也越来越广泛,而其中的流式语音识别具有实时反馈识别结果的特点。
[0003]在相关技术中,流式语音识别的识别模块以分片的形式接收音频采集组件采集到的音频数据包,音频数据包中的数据包含多个音频帧,识别模块每次累积到一定数量的音频帧之后即可以进行识别,每次识别的结果可以即时进行显示。
[0004]在流式语音识别的场景中,首词的识别显示速度是流式语音识别的重要指标,对于如何提升首词的识别显示速度,目前还没有较好的解决方案。

技术实现思路

[0005]本申请实施例提供了一种语音识别方法、装置、计算机设备及存储介质,能够提高流式语音识别中的首词的识别显示速度。所述技术方案如下:
[0006]一方面,本申请实施例提供了一种语音识别方法,所述方法包括:
[0007]获取对用户语音进行采集获得的语音数据包;
[0008]响应于尚未识别出所述用户语音中的首词,将所述语音数据包中的音频帧写入第一识别缓存;依序从所述第一识别缓存中提取尚未识别的至少两个音频帧作为第一音频序列;对所述第一音频序列的末尾M帧进行复制,获得所述第一音频序列的后拼帧;M为大于或者等于1,且小于所述第一音频序列的帧数的整数;基于所述第一音频序列的后拼帧,对所述第一音频序列进行拼帧处理,获得第一识别序列;对所述第一识别序列进行语音识别处理,获得第一识别结果;
[0009]响应于所述第一识别结果中存在所述用户语音中的首词,将第一识别结果中的首词发送至显示端进行显示。
[0010]另一方面,本申请实施例提供了一种语音识别装置,所述装置包括:
[0011]数据包获取模块,用于获取对用户语音进行采集获得的语音数据包;
[0012]语音识别模块,用于响应于尚未识别出所述用户语音中的首词,将所述语音数据包中的音频帧写入第一识别缓存;依序从所述第一识别缓存中提取尚未识别的至少两个音频帧,作为第一音频序列;对所述第一音频序列的末尾M帧进行复制,获得所述第一音频序列的后拼帧;M为大于或者等于1,且小于所述第一音频序列的帧数的整数;基于所述第一音频序列的后拼帧,对所述第一音频序列进行拼帧处理,获得第一识别序列;对所述第一识别序列进行语音识别处理,获得第一识别结果;
[0013]首词发送模块,用于响应于所述第一识别结果中存在所述用户语音中的首词,将第一识别结果中的首词发送至显示端进行显示。
[0014]在一种可能的实现方式中,所述语音识别模块,用于在所述第一识别缓存中尚未识别的音频帧的数量达到N时,依序从所述第一识别缓存中提取尚未识别的N个音频帧,作为所述第一音频序列;N为大于或者等于2的整数。
[0015]在一种可能的实现方式中,所述装置还包括:
[0016]第一确定模块,用于语音识别模块在所述第一识别缓存中尚未识别的音频帧的数量达到N时,依序从所述第一识别缓存中提取尚未识别的N个音频帧,作为所述第一音频序列之前,基于所述第一识别缓存中尚未识别的音频帧的数量确定N的数值。
[0017]在一种可能的实现方式中,所述第一确定模块,用于,
[0018]响应于所述第一识别缓存中尚未识别的音频帧的数量大于或者等于N
max
,确定N的数值为N
max

[0019]响应于所述第一识别缓存中尚未识别的音频帧的数量小于或者等于N
min
,确定N的数值为N
min
;2≤N
min
<N
max
,且N
max
、N
min
为偶数;
[0020]响应于第一识别缓存中尚未识别的音频帧的数量处于N
max
和N
min
之间,确定N的数值为小于或者等于所述第一识别缓存中尚未识别的音频帧的数量的偶数的最大值。
[0021]在一种可能的实现方式中,所述语音识别模块,用于对所述第一音频序列的前L帧进行复制,获得所述第一音频序列的前拼帧;L为大于或者等于1,且小于所述第一音频序列的帧数的整数;
[0022]将所述第一音频序列的前拼帧、所述第一音频序列以及所述第一音频序列的后拼帧依次拼接,获得所述第一识别序列。
[0023]在一种可能的实现方式中,所述语音识别模块,用于,
[0024]响应于所述第一音频序列中包含对所述用户语音进行采集获得的首个音频帧,对所述第一音频序列的前L帧进行复制,获得所述第一音频序列的前拼帧;或者,响应于所述第一音频序列中不包含对所述用户语音进行采集获得的首个音频帧,将位于所述第一音频序列之前的L个音频帧获取为所述第一音频序列的前拼帧;L为大于或者等于1,且小于所述第一音频序列的帧数的整数;
[0025]将所述第一音频序列的前拼帧、所述第一音频序列以及所述第一音频序列的后拼帧依次拼接,获得所述第一识别序列。
[0026]在一种可能的实现方式中,所述语音识别模块,还用于,
[0027]将所述语音数据包中的音频帧写入第二识别缓存;
[0028]依序从所述第二识别缓存中提取尚未识别的至少两个音频帧,作为第二音频序列;
[0029]对所述第二识别缓存中,位于所述第二音频序列之后的P帧音频帧进行复制,获得所述第二音频序列的后拼帧;P为大于或者等于1,且小于所述第二音频序列的帧数的整数;
[0030]基于所述第二音频序列的后拼帧,对所述第二音频序列进行拼帧处理,获得第二识别序列;
[0031]对所述第二识别序列进行语音识别处理,获得第二识别结果。
[0032]在一种可能的实现方式中,所述语音识别模块,用于,
[0033]响应于所述第二音频序列中包含对所述用户语音进行采集获得的首个音频帧,对所述第二音频序列的前L帧进行复制,获得所述第二音频序列的前拼帧;或者,响应于所述
第二音频序列中不包含对所述用户语音进行采集获得的首个音频帧,将位于所述第二音频序列之前的Q个音频帧获取为所述第二音频序列的前拼帧;Q为大于或者等于1,且小于所述第二音频序列的帧数的整数;
[0034]将所述第二音频序列的前拼帧、所述第二音频序列以及所述第二音频序列的后拼帧依次拼接,获得所述第二识别序列。
[0035]在一种可能的实现方式中,所述语音识别模块,用于在所述第二识别缓存中尚未识别的音频帧的数量达到S时,依序从所述第二识别缓存中提取尚未识别的S个音频帧,作为所述第二音频序列;S为大于或者等于2的整数。
[0036]在一种可能的实现方式中,所述装置还包括:
[0037]第二确定模块,用于在语音识别模块在所述第二识别缓存中尚未识别的音频帧的数量达到S时,依序从所述第二识别缓存中提取尚未识别的S个音频帧,作为所述第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取对用户语音进行采集获得的语音数据包;响应于尚未识别出所述用户语音中的首词,将所述语音数据包中的音频帧写入第一识别缓存;依序从所述第一识别缓存中提取尚未识别的至少两个音频帧作为第一音频序列;对所述第一音频序列的末尾M帧进行复制,获得所述第一音频序列的后拼帧;M为大于或者等于1,且小于所述第一音频序列的帧数的整数;基于所述第一音频序列的后拼帧,对所述第一音频序列进行拼帧处理,获得第一识别序列;对所述第一识别序列进行语音识别处理,获得第一识别结果;响应于所述第一识别结果中存在所述用户语音中的首词,将第一识别结果中的首词发送至显示端进行显示。2.根据权利要求1所述的方法,其特征在于,所述依序从所述第一识别缓存中提取尚未识别的至少两个音频帧,作为第一音频序列,包括:在所述第一识别缓存中尚未识别的音频帧的数量达到N时,依序从所述第一识别缓存中提取尚未识别的N个音频帧,作为所述第一音频序列;N为大于或者等于2的整数。3.根据权利要求2所述的方法,其特征在于,所述在所述第一识别缓存中尚未识别的音频帧的数量达到N时,依序从所述第一识别缓存中提取尚未识别的N个音频帧,作为所述第一音频序列之前,还包括:基于所述第一识别缓存中尚未识别的音频帧的数量确定N的数值。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一识别缓存中尚未识别的音频帧的数量确定N的数值,包括:响应于所述第一识别缓存中尚未识别的音频帧的数量大于或者等于N
max
,确定N的数值为N
max
;响应于所述第一识别缓存中尚未识别的音频帧的数量小于或者等于N
min
,确定N的数值为N
min
;2≤N
min
<N
max
,且N
max
、N
min
为偶数;响应于第一识别缓存中尚未识别的音频帧的数量处于N
max
和N
min
之间,确定N的数值为小于或者等于所述第一识别缓存中尚未识别的音频帧的数量的偶数的最大值。5.根据权利要求1所述的方法,其特征在于,所述基于所述第一音频序列的后拼帧,对所述第一音频序列进行拼帧处理,获得第一识别序列,包括:对所述第一音频序列的前L帧进行复制,获得所述第一音频序列的前拼帧;L为大于或者等于1,且小于所述第一音频序列的帧数的整数;将所述第一音频序列的前拼帧、所述第一音频序列以及所述第一音频序列的后拼帧依次拼接,获得所述第一识别序列。6.根据权利要求1所述的方法,其特征在于,所述基于所述第一音频序列的后拼帧,对所述第一音频序列进行拼帧处理,获得第一识别序列,包括:响应于所述第一音频序列中包含对所述用户语音进行采集获得的首个音频帧,对所述第一音频序列的前L帧进行复制,获得所述第一音频序列的前拼帧;或者,响应于所述第一音频序列中不包含对所述用户语音进行采集获得的首个音频帧,将位于所述第一音频序列之前的L个音频帧获取为所述第一音频序列的前拼帧;L为大于或者等于1,且小于所述第一音频序列的帧数的整数;
将所述第一音频序列的前拼帧、所述第一音频序列以及所述第一音频序列的后拼帧依次拼接,获得所述第一识别序列。7.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:将所述语音数据包中的音频帧写入第二识别缓存;依序从所述第...

【专利技术属性】
技术研发人员:朱绍明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1