语音识别方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:44413705 阅读:24 留言:0更新日期:2025-02-25 10:28
本发明专利技术实施例公开了一种语音识别方法、装置、电子设备和计算机可读存储介质;本发明专利技术实施例在获取当前音频流数据,并对当前音频流数据进行切分,得到多段目标音频数据后,对目标音频数据进行特征提取,以得到当前音频流数据的声学特征,并基于声学特征,生成当前音频流数据对应的初始文本,在当前音频流数据中检测出至少一帧文本关键帧,并基于文本关键帧,在当前音频流数据中识别出至少一个音频数据块的切分位置,然后,根据切分位置,对声学特征进行切分,得到每一音频数据块的目标声学特征,基于目标声学特征,对初始文本进行更新,得到当前音频流数据对应的目标文本;该方案可以提升语音识别的准确率。

【技术实现步骤摘要】

本专利技术涉及语音识别,具体涉及一种语音识别方法、装置、电子设备和计算机可读存储介质


技术介绍

1、近年来,随着互联网技术的飞速发展,针对流式语音的识别方式也越来越多样。为了提升流式语音的识别效率和精度,可以通过级联式的识别方式进行语音识别。当前的级联式的语音识别往往通过实时识别网络识别出流式语音的初始文本,通过非实时识别网络识别出流式语音的目标文本,并将目标文本刷新覆盖初始文本。

2、在对当前技术的研究和实践过程中,本申请的专利技术人发现对于实时识别网络和非识别网络都是按照固定窗长的chunk(数据块)切分来提取声学特征,但是固定chunk的切分可能会且在某个字的中间,使得每个chunk的边界识别不准,从而影响整个句子的识别率,因此,导致语音识别的准确率较低。


技术实现思路

1、本专利技术实施例提供一种语音识别方法、装置、电子设备和计算机可读存储介质,可以提高生成标签的准确性。

2、一种语音识别方法,包括:

3、获取当前音频流数据,并对所述当前音频流数据进行切分,得到多本文档来自技高网...

【技术保护点】

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的语音识别方法,其特征在于,所述音频流数据包括多帧音频帧,所述在所述当前音频流数据中检测出至少一帧文本关键帧,包括:

3.根据权利要求2所述的语音识别方法,其特征在于,所述基于所述文本关键帧,在所述当前音频流数据中识别出至少一个音频数据块的切分位置,包括:

4.根据权利要求3所述的语音识别方法,其特征在于,所述基于所述文本关键帧,在所述当前音频流数据中识别出每一尖峰组对应的音频数据块的帧数区间,包括:

5.根据权利要求4所述的语音识别方法,其特征在于,所述对所述帧数区间进行扩增...

【技术特征摘要】

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的语音识别方法,其特征在于,所述音频流数据包括多帧音频帧,所述在所述当前音频流数据中检测出至少一帧文本关键帧,包括:

3.根据权利要求2所述的语音识别方法,其特征在于,所述基于所述文本关键帧,在所述当前音频流数据中识别出至少一个音频数据块的切分位置,包括:

4.根据权利要求3所述的语音识别方法,其特征在于,所述基于所述文本关键帧,在所述当前音频流数据中识别出每一尖峰组对应的音频数据块的帧数区间,包括:

5.根据权利要求4所述的语音识别方法,其特征在于,所述对所述帧数区间进行扩增,得到目标帧数区间,包括:

6.根据权利要求3所述的语音识别方法,其特征在于,所述声学特征包括每一音频帧对应的声学子特征,所述根据所述切分位置,对所述声学特征进行切分,得到每一音频数据块的目标声学特征,包括:

7.根据权利要求1至6任一项所述的语音识别方法,其特征在于,所述基于所述目标声学特征,对所述初始文本进行更新,得到所述当前音频流数据对应的目标文本,包括:

8.根据权利要求1至6任一项所述的语音识别方法,其特征在于,所述对所述目标音频数据进行特征提取,以得到所述当前音频流数据的声学特征,包括:

9.根据权利要求8所述的语音识别方法,其特征在于,所述采用语音识别模型对所述目标音频数据进行特征提取,得到每一目标音频数据对应的初始声学特征之前,还包括:

10.根据权利要求8所述的语音识别方法,其特征在于,所述采用预设语音识别模型对所述音频数据样本进行特征提取,以得到所述语音样本的样本声学特征之前,还包括:

【专利技术属性】
技术研发人员:朱紫薇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1