语音识别模型的训练方法及装置、存储介质及电子设备制造方法及图纸

技术编号:37985800 阅读:24 留言:0更新日期:2023-06-30 10:00
本公开提供了一种语音识别模型的训练方法及相关设备。该方法包括:获取第一语音数据和噪声数据,以及获取第二语音数据及其标签;通过初始语音特征提取模型处理第一语音数据和噪声数据,获得第一语音数据的原始语音特征向量,以及获得经过噪声掩码处理的掩码语音特征向量;利用原始语音特征向量和掩码语音特征向量训练初始语音特征提取模型获得目标语音特征提取模型;将目标语音特征提取模型与初始全连接层连接以构建初始语音识别模型,并通过初始语音识别模型处理第二语音数据获得第二语音数据的识别结果;根据识别结果和标签训练初始语音识别模型,获得目标语音识别模型。该方法引入了真实噪声数据,可以提升模型在噪声中学习音频特征的能力。中学习音频特征的能力。中学习音频特征的能力。

【技术实现步骤摘要】
语音识别模型的训练方法及装置、存储介质及电子设备


[0001]本公开涉及计算机
,尤其涉及一种语音识别模型的训练方法及装置、存储介质及电子设备。

技术介绍

[0002]随着计算机技术的发展,机器学习技术的应用越来越广泛,其中语音识别技术也称为ASR(Automatic Speech Recognition,自动语音识别),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,从而实现人机交互。语音识别正确率越高,则可应用的场景越广泛。
[0003]相关技术中,通常是先使用已有的噪声处理模块去除噪声,然后对语音识别模型进行自监督学习的训练,这种方法训练出的语音识别模型噪声鲁棒性较差,进而导致识别效果较差。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种语音识别模型的训练方法、装置、电子设备及存储介质,以训练获得一种噪声鲁棒性较好的语音识别模型。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,包括:获取第一语音数据和噪声数据,以及获取第二语音数据及其标签;通过初始语音特征提取模型处理所述第一语音数据和所述噪声数据,获得第一语音数据的原始语音特征向量,以及获得经过噪声掩码处理的第一语音数据的掩码语音特征向量;利用所述原始语音特征向量和所述掩码语音特征向量训练所述初始语音特征提取模型,获得目标语音特征提取模型;将所述目标语音特征提取模型与初始全连接层连接以构建初始语音识别模型,并通过所述初始语音识别模型处理所述第二语音数据,获得所述第二语音数据的识别结果;根据所述识别结果和所述标签训练所述初始语音识别模型,获得目标语音识别模型。2.根据权利要求1所述的方法,其特征在于,所述初始语音特征提取模型包括语音编码器;其中,通过初始语音特征提取模型处理所述第一语音数据和所述噪声数据,获得第一语音数据的原始语音特征向量,以及获得经过噪声掩码处理的第一语音数据的掩码语音特征向量,包括:通过所述语音编码器分别对所述第一语音数据和所述噪声数据进行编码,获得第一语音特征向量和噪声特征向量;根据所述第一语音特征向量确定所述原始语音特征向量;以及,根据所述第一语音特征向量和所述噪声特征向量确定所述掩码语音特征向量。3.根据权利要求2所述的方法,其特征在于,通过所述语音编码器分别对所述第一语音数据和所述噪声数据进行编码,获得第一语音特征向量和噪声特征向量,包括:提取所述第一语音数据的语音声学特征,以及提取所述噪声数据的噪声声学特征;通过所述语音编码器处理所述语音声学特征,获得所述第一语音特征向量;以及通过所述语音编码器处理所述噪声声学特征,获得所述噪声特征向量。4.根据权利要求2所述的方法,其特征在于,所述初始语音特征提取模型还包括上下文特征编码器;其中,根据所述第一语音特征向量和所述噪声特征向量确定所述掩码语音特征向量,包括:对所述第一语音特征向量和所述噪声特征向量进行掩码重组处理,获得重组特征向量;通过所述上下文特征编码器处理所述重组特征向量,获得所述掩码语音特征向量。5.根据权利要求4所述的方法,其特征在于,所述第一语音特征向量和所述噪声特征向量中均包含多个时间帧对应的帧特征向量;其中,对所述第一语音特征向量和所述噪声特征向量进行掩码重组处理,获得重组特征向量,包括:根据所述第一语音特征向量中帧特征向量的个数对所述噪声特征向量进行缩减或扩充处理,以生成等长噪声特征向量,使得所述等长噪声特征向量中帧特征向量的个数与所述第一语音特征向量中帧特征向量的个数相同;基于所述第一语音特征向量中帧特征向量的个数确定掩码位置;将所述第一语音特征向量中相应掩码位置的帧特征向量确定为待替换向量,以及将所述等长噪声特征向量中相应掩码位置的帧特征向量确定为掩码向量;将所述第一语音特征向量中的待替换向量替换为所述等长噪声特征向量中的掩码向
量,生成所述重组特征向量。6.根据权利要求5所...

【专利技术属性】
技术研发人员:李清涛
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1