训练语音识别模型的方法、语音识别方法及对应装置制造方法及图纸

技术编号:37495770 阅读:25 留言:0更新日期:2023-05-07 09:33
本申请实施例公开了一种训练语音识别模型的方法、语音识别方法及对应装置,涉及机器学习技术领域。其中方法包括:获取包括多个训练样本的训练数据,所述训练样本包括音频以及该音频被标注的文本标签序列;利用所述训练数据训练基于深度学习模型的语音识别模型;在所述训练中,语音识别模型利用音频中各音频单元的音频表示识别所述音频对应的文本序列,其中在进行所述识别时还依据针对所述音频已经识别得到的文本对应的文本表示序列,所述文本表示序列中被添加有扰动;训练目标包括最小化所述语音识别模型针对音频识别得到的文本序列与对应文本标签序列之间的差异。本申请能够提高语音识别的鲁棒性。高语音识别的鲁棒性。高语音识别的鲁棒性。

【技术实现步骤摘要】
训练语音识别模型的方法、语音识别方法及对应装置


[0001]本申请涉及机器学习
,特别是涉及一种训练语音识别模型的方法、语音识别方法及对应装置。

技术介绍

[0002]近几年来,端到端语音识别技术成为语音识别领域的研究热点。相比较传统的语音识别技术而言,端到端语音识别技术能够将声学特征序列直接转换成字符或词序列的识别结果,其中的转换处理仅由一个端到端语音识别模型完成。
[0003]随着端到端语音识别技术的不断发展,语音识别的鲁棒性问题成为阻碍语音识别技术发展的重要问题。所谓鲁棒性指的是语音识别模型能够在不同场景下具有稳健的识别性能。因此如何提高语音识别的鲁棒性成为目前亟待解决的问题。

技术实现思路

[0004]有鉴于此,本申请提供了一种训练语音识别模型的方法、语音识别方法及对应装置,用以提高语音识别的鲁棒性。
[0005]本申请提供了如下方案:
[0006]第一方面,提供了一种训练语音识别模型的方法,所述方法包括:
[0007]获取包括多个训练样本的训练数据,所述训练样本包括音频以及该音频被本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种训练语音识别模型的方法,其特征在于,所述方法包括:获取包括多个训练样本的训练数据,所述训练样本包括音频以及该音频被标注的文本标签序列;利用所述训练数据训练基于深度学习模型的语音识别模型;在所述训练中,语音识别模型利用音频中各音频单元的音频表示识别所述音频对应的文本序列,其中在进行所述识别时还依据针对所述音频已经识别得到的文本对应的文本表示序列,该文本表示序列中被添加有扰动;训练目标包括最小化所述语音识别模型针对音频识别得到的文本序列与对应文本标签序列之间的差异。2.根据权利要求1所述的方法,其特征在于,所述文本表示序列中被添加有扰动包括:在所述文本表示序列中随机选择部分位置进行掩码处理。3.根据权利要求2所述的方法,其特征在于,在所述文本表示序列中随机选择部分位置进行掩码处理包括:从所述文本表示序列中随机选择M个位置,所述M为正整数;针对所述M个位置,分别从各位置处选择n帧文本表示进行掩码处理,所述n为正整数。4.根据权利要求3所述的方法,其特征在于,所述n从[0,N]均匀分布中采样得到,所述N为预设的正整数。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述深度学习模型为基于注意力机制的编解码AED模型,所述文本表示序列中被添加有扰动包括:在所述AED模型中将所述文本表示序列输入解码网络之前,对所述文本表示序列添加扰动,将添加扰动后的文本表示序列作为所述解码器的输入;或者,所述深度学习模型为循环神经网络转换器RNN

T模型,所述文本表示序列中被添加有扰动包括:在所述RNN

T模型中将所述文本表示序列输入预测网络之前,对所述文本表示序列添加扰动,将添加扰动后的文本表示序列作为所述预测网络的输入。6.一种语音识别方法,其特征在于,所述方法包括:获取待识别音频;将所述待识别音频输入语音识别模型,获取所述语音识...

【专利技术属性】
技术研发人员:安柯宇张仕良
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1