语音识别方法技术

技术编号:39396908 阅读:4 留言:0更新日期:2023-11-19 15:51
本公开提供了一种语音识别方法

【技术实现步骤摘要】
语音识别方法、深度学习模型的训练方法、装置和设备


[0001]本公开涉及人工智能
,尤其涉及语音识别和深度学习等
,具体涉及一种语音识别方法

用于语音识别的深度学习模型的训练方法

语音识别装置

用于语音识别的深度学习模型的训练装置

电子设备

计算机可读存储介质和计算机程序产品


技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为
(
如学习

推理

思考

规划等
)
的学科,既有硬件层面的技术也有软件层面的技术

人工智能硬件技术一般包括如传感器

专用人工智能芯片

云计算

分布式存储

大数据处理等技术;人工智能软件技术主要包括自然语言处理技术

计算机视觉技术

语音识别技术以及机器学习
/
深度学习

大数据处理技术

知识图谱技术等几大方向

[0003]自动语音识别
(Auto Speech Recognition

ASR)
是一种通过计算机把输入的语音信号自动转换为对应的文本的技术

随着深度学习技术在语音识别领域的深入研究,特别是端到端语音识别技术的提出,在降低模型建模复杂度的同时,语音识别的准确率得到了显著提升

而且随着各种智能设备的不断普及,大词汇量在线语音识别系统在语音转写

智能客服

车载导航以及智能家居等各个场景得到了非常广泛的应用

在这些语音识别任务中,用户通常希望在语音输入完毕后,能够快速准确地得到系统的应答和反馈,这就对语音识别模型的准确率和实时率提出非常高的要求

[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法

除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术

类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认


技术实现思路

[0005]本公开提供了一种语音识别方法

用于语音识别的深度学习模型的训练方法

语音识别装置

用于语音识别的深度学习模型的训练装置

电子设备

计算机可读存储介质和计算机程序产品

[0006]根据本公开的一方面,提供了一种语音识别方法,包括:获取待识别语音的第一语音特征,第一语音特征包括与待识别语音中的多个语音片段对应的多个语音片段特征;利用第一解码器对第一语音特征进行解码,得到与待识别语音中的多个字对应的多个第一解码结果,第一解码结果指示对应的字的第一识别结果;基于第一先验信息,从第一语音特征中抽取得到第二语音特征,第一先验信息包括多个第一解码结果,第二语音特征包括与多个字对应的多个第一字级别音频特征;以及利用第二解码器对第二语音特征进行解码,得到与多个字对应的多个第二解码结果,第二解码结果指示对应的字的第二识别结果

[0007]根据本公开的另一方面,提供了一种用于语音识别的深度学习模型的训练方法,深度学习模型包括第一解码器和第二解码器,训练方法包括:获取样本语音和样本语音中的多个字的真实识别结果;获取样本语音的第一样本语音特征,第一样本语音特征包括与
样本语音中的多个样本语音片段对应的多个样本语音片段特征;利用第一解码器对第一样本语音特征进行解码,得到与样本语音中的多个字对应的多个第一样本解码结果,第一样本解码结果指示对应的字的第一识别结果;基于第一样本先验信息,从第一样本语音特征中抽取得到第二样本语音特征,第一样本先验信息包括多个第一样本解码结果,第二样本语音特征包括与多个字对应的多个第一样本字级别音频特征;利用第二解码器对第二样本语音特征进行解码,得到与多个字对应的多个第二样本解码结果,第二样本解码结果指示对应的字的第二识别结果;以及基于多个字的真实识别结果

第一识别结果和第二识别结果,调整深度学习模型的参数,以得到训练后的深度学习模型

[0008]根据本公开的另一方面,提供了一种语音识别装置,包括:语音特征编码模块,被配置为获取待识别语音的第一语音特征,第一语音特征包括与待识别语音中的多个语音片段对应的多个语音片段特征;第一解码器,被配置为对第一语音特征进行解码,得到与待识别语音中的多个字对应的多个第一解码结果,第一解码结果指示对应的字的第一识别结果;字级别特征抽取模块,被配置为基于第一先验信息,从第一语音特征中抽取得到第二语音特征,第一先验信息包括多个第一解码结果,第二语音特征包括与多个字对应的多个第一字级别音频特征;以及第二解码器,被配置为对第二语音特征进行解码,得到与多个字对应的多个第二解码结果,第二解码结果指示对应的字的第二识别结果

[0009]根据本公开的另一方面,提供了一种用于语音识别的深度学习模型的训练装置,深度学习模型包括第一解码器和第二解码器,训练装置包括:获取模块,被配置为获取样本语音和样本语音中的多个字的真实识别结果;语音特征编码模块,被配置为获取样本语音的第一样本语音特征,第一样本语音特征包括与样本语音中的多个样本语音片段对应的多个样本语音片段特征;第一解码器,被配置为对第一样本语音特征进行解码,得到与样本语音中的多个字对应的多个第一样本解码结果,第一样本解码结果指示对应的字的第一识别结果;字级别特征抽取模块,被配置为基于第一样本先验信息,从第一样本语音特征中抽取得到第二样本语音特征,第一样本先验信息包括多个第一样本解码结果,第二样本语音特征包括与多个字对应的多个第一样本字级别音频特征;第二解码器,被配置为对第二样本语音特征进行解码,得到与多个字对应的多个第二样本解码结果,第二样本解码结果指示对应的字的第二识别结果;以及调参模块,被配置为基于多个字的真实识别结果

第一识别结果和第二识别结果,调整深度学习模型的参数,以得到训练后的深度学习模型

[0010]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法

[0011]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法

[0012]根据本公开的另一方面,提供了一种计算机程序产品,包括计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音识别方法,包括:获取待识别语音的第一语音特征,所述第一语音特征包括与所述待识别语音中的多个语音片段对应的多个语音片段特征;利用第一解码器对所述第一语音特征进行解码,得到与所述待识别语音中的多个字对应的多个第一解码结果,所述第一解码结果指示对应的字的第一识别结果;基于第一先验信息,从所述第一语音特征中抽取得到第二语音特征,所述第一先验信息包括所述多个第一解码结果,所述第二语音特征包括与所述多个字对应的多个第一字级别音频特征;以及利用第二解码器对所述第二语音特征进行解码,得到与所述多个字对应的多个第二解码结果,所述第二解码结果指示对应的字的第二识别结果
。2.
根据权利要求1所述的方法,其中,基于第一先验信息,从所述第一语音特征中抽取得到第二语音特征包括:针对所述多个字中的每一个字,将该字对应的第一解码结果作为注意力模块的查询特征,将所述第一语音特征作为所述注意力模块的键特征和值特征,以获取所述注意力模块输出的与该字对应的第一字级别音频特征
。3.
根据权利要求2所述的方法,其中,基于第一先验信息,从所述第一语音特征中抽取得到第二语音特征包括:利用第二编码器对所述多个字对应的多个第一字级别音频特征进行全局编码,以得到强化后的第二语音特征
。4.
根据权利要求1‑3中任一项所述的方法,其中,利用第二解码器对所述第二语音特征进行解码,得到与所述多个字对应的多个第二解码结果包括:针对所述多个字中的每一个字,将该字对应的第一解码结果作为所述第二解码器的查询特征,将所述第二语音特征作为所述第二解码器的键特征和值特征,以获取所述第二解码器输出的与该字对应的第二解码结果
。5.
根据权利要求4所述的方法,其中,所述第二解码器包括正向解码器和反向解码器,所述正向解码器和所述反向解码器均被配置为针对所述多个字中的每一个字,将该字的第一解码结果作为输入的查询特征,并且将所述第二语音特征作为输入的键特征和值特征,所述正向解码器被配置为对输入的特征进行从左向右的时间掩码,所述反向解码器被配置为对输入的特征进行从右向左的时间掩码
。6.
根据权利要求5所述的方法,其中,针对所述多个字中的每一个字,将该字的第一解码结果作为所述第二解码器的查询特征,将所述第二语音特征作为所述第二解码器的键特征和值特征,以获取所述第二解码器输出的与该字对应的第二解码结果包括:将所述正向解码器输出的与所述多个字对应的多个正向解码特征和所述反向解码器输出的与所述多个字对应的反向解码特征进行融合,得到与所述多个字对应的多个融合特征;以及基于所述多个融合特征,得到所述多个第二解码结果
。7.
根据权利要求4所述的方法,还包括:针对所述多个字中的每一个字,将该字的第
N
解码结果作为所述第二解码器的查询特征,将所述第二语音特征作为所述第二解码器的键特征和值特征,以获取所述第二解码器
输出的与该字对应的第
N+1
解码结果,其中,
N
为大于等于2的整数
。8.
根据权利要求1‑3中任一项所述的方法,还包括:基于第二先验信息,从所述第一语音特征中抽取得到第三语音特征,所述第二先验信息包括所述多个第二解码结果,所述第三语音特征包括与所述多个字对应的多个第二字级别音频特征;以及利用所述第二解码器对所述第三语音特征进行解码,得到与所述多个字对应的多个第三解码结果,所述第三解码结果指示对应的字的第三识别结果
。9.
根据权利要求1‑3中任一项所述的方法,其中,获取待识别语音的第一语音特征包括:获取所述待识别语音的原始语音特征;基于所述原始语音特征,确定所述待识别语音中的多个尖峰;以及对所述原始语音特征进行截断,得到与所述多个尖峰一一对应的所述多个语音片段特征
。10.
根据权利要求9所述的方法,其中,所述多个语音片段特征是对所述原始语音特征进行流式截断而依次得到的,利用第一解码器对所述第一语音特征进行解码包括:利用所述第一解码器,对所述多个语音片段特征依次进行流式解码
。11.
根据权利要求
10
所述的方法,其中,获取待识别语音的第一语音特征包括:针对当前得到的语音片段特征,获取对应的历史特征抽象信息,所述历史特征抽象信息是利用在先的语音片段特征对应的第一解码结果对所述在先的语音片段特征进行注意力建模而得到的;以及利用第一编码器,结合所述历史特征抽象信息对所述当前得到的语音片段特征进行编码,以得到对应的强化后的语音片段特征
。12.
根据权利要求
11
所述的方法,其中,利用第一编码器,结合所述历史特征抽象信息对所述当前得到的语音片段特征进行编码,以得到对应的强化后的语音片段特征包括:将所述当前得到的语音片段特征作为所述第一编码器的查询特征,将所述历史特征抽象信息和所述当前得到的语音片段特征的拼接结果作为所述第一编码器的键特征和值特征,以获取所述第一编码器输出的所述对应的强化后的语音片段特征
。13.
根据权利要求9所述的方法,其中,对所述原始语音特征进行截断,得到与所述多个尖峰一一对应的所述多个语音片段特征包括:基于预设时间长度对所述原始语音特征进行截断,并将所述多个尖峰中的每个尖峰所在的语音片段的语音片段特征作为与该尖峰对应的语音片段特征
。14.
根据权利要求9所述的方法,其中,对所述原始语音特征进行截断,得到与所述多个尖峰一一对应的所述多个语音片段特征包括:基于所述多个尖峰对所述原始语音特征进行截断,并将每两个相邻尖峰之间的语音片段的特征作为与其中一个尖峰对应的语音片段特征
。15.
根据权利要求1‑3中任一项所述的方法,其中,所述第二解码器为语音大模型
。16.
一种用于语音识别的深度学习模型的训练方法,所述深度学习模型包括第一解码器和第二解码器,所述训练方法包括:获取样本语音和所述样本语音中的多个字的真实识别结果;
获取所述样本语音的第一样本语音特征,所述第一样本语音特征包括与所述样本语音中的多个样本语音片段对应的多个样本语音片段特征;利用第一解码器对所述第一样本语音特征进行解码,得到与所述样本语音中的多个字对应的多个第一样本解码结果,所述第一样本解码结果指示对应的字的第一识别结果;基于第一样本先验信息,从所述第一样本语音特征中抽取得到第二样本语音特征,所述第一样本先验信息包括所述多个第一样本解码结果,所述第二样本语音特征包括与所述多个字对应的多个第一样本字级别音频特征;利用第二解码器对所述第二样本语音特征进行解码,得到与所述多个字对应的多个第二样本解码结果,所述第二样本解码结果指示对应的字的第二识别结果;以及基于所述多个字的真实识别结果

第一识别结果和第二识别结果,调整所述深度学习模型的参数,以得到训练后的深度学习模型
。17.
一种语音识别装置,包括:语音特征编码模块,被配置为获取待识别语音的第一语音特征,所述第一语音特征包括与所述待识别语音中的多个语音片段对应的多个语音片段特征;第一解码器,被配置为对所述第一语音特征进行解码,得到与所述待识别语音中的多个字对应的多个第一解码结果,所述第一解码结果指示对应的字的第一识别结果;字级别特征抽取模块,被配置为基于第一先验信息,从所述第一语音特征中抽取得到第二语音特征,所述第一先验信息包括所述多个第一解码结果,所述第二语音特征包括与所述多个字对...

【专利技术属性】
技术研发人员:付晓寅臧启光盛芬芬王海峰贾磊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1