System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种重打分语音识别方法、装置、设备及介质制造方法及图纸_技高网

一种重打分语音识别方法、装置、设备及介质制造方法及图纸

技术编号:41299967 阅读:5 留言:0更新日期:2024-05-13 14:47
本申请涉及语音识别技术领域,更为具体来说,本申请涉及一种重打分语音识别方法、装置、设备及介质。所述方法包括:获取目标语音数据;将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。本申请简约高效,能减少延迟,实现快速而精准的重打分,进而提升语音识别效率。

【技术实现步骤摘要】

本申请涉及语音识别,更为具体来说,本申请涉及一种一种重打分语音识别方法、装置、设备及介质


技术介绍

1、目前,语音识别技术已经获得了广泛的应用。语音识别模型有多种识别策略,一般是先在ctc解码器的输出中搜索若干个备选识别结果,然后再利用注意力解码器对这若干个备选结果重打分,选分数最高的一条作为最终的识别结果。在重打分时,注意力解码器需要共享编码器的全部输出作为输入,这就要求音频要全部输入结束后才可以执行重打分。特别是对于有流式解码要求的交互场景而言使用注意力解码器重打分会增加识别等待时间,导致识别延迟较高。


技术实现思路

1、基于上述技术问题,本专利技术旨在通过重打分语音识别模型来获取目标语音数据的重打分及识别结果,其中,所述重打分语音识别模型包括编码器、压缩网络、ctc解码器和注意力解码器,以解决语音识别延迟较高的问题。

2、本专利技术第一方面提供了一种重打分语音识别方法,所述方法包括:

3、获取目标语音数据;

4、将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;

5、从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;

6、其中,所述重打分语音识别模型包括编码器、压缩网络、ctc解码器和注意力解码器。

7、在本专利技术的一些实施例中,所述将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分,包括:

8、将所述目标语音数据输入所述编码器,得到声学特征序列;

9、将所述声学特征序列输入所述ctc解码器,得到所述声学特征序列对应的多个候选文本及所述多个候选文本的声学得分;

10、将所述声学特征序列输入所述压缩网络进行压缩,得到压缩后声学特征序列;

11、将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,得到所述多个候选文本的注意力得分;

12、根据所述多个候选文本、所述多个候选文本的声学得分和所述多个候选文本的注意力得分进行重打分,得到所述多个候选文本的重打分。

13、在本专利技术的一些实施例中,所述压缩网络包括两个串联的前馈网络;所述将所述声学特征序列输入所述压缩网络进行压缩,得到压缩后声学特征序列,包括:

14、按顺序将所述声学特征序列中每五帧向量分为一组,并将每组向量分别输入所述两个前馈网络依次进行线性变换和/或非线性变换,将得到的所有组向量的变换结果作为压缩后声学特征序列;

15、其中,若分组后剩余不足五帧的向量,将所述不足五帧的向量输入所述两个前馈网络依次进行线性变换和/或非线性变换。

16、在本专利技术的一些实施例中,所述将每组向量分别输入所述两个前馈网络依次进行线性变换和/或非线性变换,包括:

17、将每组向量按行拼成矩阵,将所述矩阵经过处理得到权重向量;

18、利用所述权重向量对所述每组向量做加权平均操作,得到每组向量对应的变换结果。

19、在本专利技术的一些实施例中,所述将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,得到所述多个候选文本的注意力得分,包括:

20、将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,以减少所述注意力解码器的计算量;

21、所述注意力解码器基于所述压缩后声学特征序列计算注意力机制所需的key向量序列和value向量序列;

22、基于所述key向量序列和value向量序列得到所述多个候选文本的注意力得分。

23、在本专利技术的一些实施例中,所述根据所述多个候选文本、所述多个候选文本的声学得分和所述多个候选文本的注意力得分进行重打分,包括:

24、将所述多个候选文本的声学得分和所述多个候选文本的注意力得分做加权平均操作,以修正所述多个候选文本的声学得分。

25、在本专利技术的一些实施例中,所述重打分语音识别模型的训练步骤包括:

26、获取预语音样本数据和目标语音样本数据,其中,所述预语音样本数据包括预语音样本和所述语音样本对应的标注文本;

27、根据所述预语音样本数据训练所述编码器和所述ctc解码器;

28、根据所述目标语音样本数据训练所述压缩网络和所述注意力解码器;

29、采用第一损失函数优化所述编码器和所述ctc解码器;

30、采用第二损失函数优化所述压缩网络和所述注意力解码器;

31、当训练达到预设次数时,停止训练。

32、本专利技术第二方面提供了一种重打分语音识别装置,所述装置包括:

33、获取模块,被配置为获取目标语音数据;

34、重打分模块,被配置为将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;

35、识别模块,被配置为从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;

36、其中,所述重打分语音识别模型包括编码器、压缩网络、ctc解码器和注意力解码器。

37、本专利技术第三方面提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:

38、获取目标语音数据;

39、将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;

40、从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;

41、其中,所述重打分语音识别模型包括编码器、压缩网络、ctc解码器和注意力解码器。

42、本专利技术第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:

43、获取目标语音数据;

44、将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;

45、从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;

46、其中,所述重打分语音识别模型包括编码器、压缩网络、ctc解码器和注意力解码器。

47、本申请实施例中提供的技术方案,至少具有如下技术效果或优点:

48、本申请先获取目标语音数据,将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分,再从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果,其中,所述重打分语音识别模型包括编码器、压缩网络、ctc解码器和注意力解码器,延迟较低,识别等待时间短,实现快速而精准的重打分,进而提升语音识别效率。

49、应当理解的是本文档来自技高网...

【技术保护点】

1.一种重打分语音识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的重打分语音识别方法,其特征在于,所述将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分,包括:

3.根据权利要求2所述的重打分语音识别方法,其特征在于,所述压缩网络包括两个串联的前馈网络;所述将所述声学特征序列输入所述压缩网络进行压缩,得到压缩后声学特征序列,包括:

4.根据权利要求3所述的重打分语音识别方法,其特征在于,所述将每组向量分别输入所述两个前馈网络依次进行线性变换和/或非线性变换,包括:

5.根据权利要求2所述的重打分语音识别方法,其特征在于,所述将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,得到所述多个候选文本的注意力得分,包括:

6.根据权利要求5所述的重打分语音识别方法,其特征在于,所述根据所述多个候选文本、所述多个候选文本的声学得分和所述多个候选文本的注意力得分进行重打分,包括:

7.根据权利要求1-6任一所述的重打分语音识别方法,其特征在于,所述重打分语音识别模型的训练步骤包括:

8.一种重打分语音识别装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器和处理器,其特征在于,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如权利要求1-7任一所述方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一所述方法。

...

【技术特征摘要】

1.一种重打分语音识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的重打分语音识别方法,其特征在于,所述将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分,包括:

3.根据权利要求2所述的重打分语音识别方法,其特征在于,所述压缩网络包括两个串联的前馈网络;所述将所述声学特征序列输入所述压缩网络进行压缩,得到压缩后声学特征序列,包括:

4.根据权利要求3所述的重打分语音识别方法,其特征在于,所述将每组向量分别输入所述两个前馈网络依次进行线性变换和/或非线性变换,包括:

5.根据权利要求2所述的重打分语音识别方法,其特征在于,所述将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码...

【专利技术属性】
技术研发人员:班志华
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1