一种语音识别方法、装置、存储介质及设备制造方法及图纸

技术编号:33038115 阅读:23 留言:0更新日期:2022-04-15 09:17
本申请公开了一种语音识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音,然后再将目标语音输入至预先构建的语音识别模型,识别得到目标语音对应的字符概率分布;其中,语音识别模型是在基于注意力机制的神经网络模型基础上,结合RnnT损失约束函数训练得到的神经网络模型;接着可以根据目标语音对应的字符概率分布,对目标语音进行识别,得到目标语音的识别结果。由于本申请中预先构建的语音识别模型是在基于注意力机制的神经网络模型基础上,结合RnnT损失约束函数训练得到的,从而能够在模型训练时,利用RnnT损失约束函数显式地对输入特征和输出字符之间做对齐约束,进而提升了模型的泛化能力,也提升了语音识别效果和准确率。升了语音识别效果和准确率。升了语音识别效果和准确率。

【技术实现步骤摘要】
一种语音识别方法、装置、存储介质及设备


[0001]本申请涉及自然语言处理
,尤其涉及一种语音识别方法、装置、存储介质及设备。

技术介绍

[0002]随着人工智能技术的不断突破和各种智能终端设备的日益普及,人机交互在人们日常工作、生活中出现的频率越来越高。语音作为最方便、快捷的交互方式之一,其识别俨然已成为人机交互的重要环节。随着语音使用用户的不断增多,传统的采用声学模型、发音模型、语言模型组合的语音识别模型进行语音识别的方法,已无法取得较好的识别准确率,而结合互联网大数据的优势,利用声学、发音、语言模型联合建模的端到端语音识别系统得到了广泛应用。
[0003]目前,效果最佳的端到端语音识别模型,主要是基于注意力机制的神经网络模型结构。该结构可以将语音序列逐字地转化为对应的识别结果序列。如图1所示,该结构由编码器模块、解码器模块和注意力模块三个部分组成。利用注意力模块可以将编码器提取的高阶特征转化为一组字符序列的概率分布,然后在通过这个概率分布得到识别序列。为进一步保障效果,再将识别结果通过传统语言模型进行重贴分,从而得到最终识别本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别的目标语音;将所述目标语音输入至预先构建的语音识别模型,识别得到所述目标语音对应的字符概率分布;所述语音识别模型是在基于注意力机制的神经网络模型基础上,结合递归神经网络转换器RnnT损失约束函数训练得到的神经网络模型;根据所述目标语音对应的字符概率分布,对所述目标语音进行识别,得到所述目标语音的识别结果。2.根据权利要求1所述的方法,其特征在于,所述语音识别模型的构建方式如下:获取样本语音;利用所述样本语音和RnnT损失约束函数,对初始语音识别模型进行训练,得到所述语音识别模型。3.根据权利要求2所述的方法,其特征在于,所述初始语音识别模型包括输入层、编码器层、分类层、注意力机制层、仿联合网络层、输出层。4.根据权利要求3所述的方法,其特征在于,所述将所述目标语音输入至预先构建的语音识别模型,识别得到所述目标语音对应的字符概率分布,包括:将所述目标语音的声学特征通过所述输入层输入所述编码器层,得到编码特征;将所述编码特征输入所述分类层,得到所述目标语音中每个语音帧对应的字符初始概率分布;将所述编码特征输入所述注意力机制层,得到所述目标语音中每个语音帧的注意力系数;将所述目标语音中每个语音帧对应的字符初始概率分布和注意力系数输入所述仿联合网络层,得到所述目标语音中每个语音帧对应的字符中间概率分布;并将所述字符中间概率分布与一维空字符的概率进行拼接,得到更新后的中间概率分布;利用所述RnnT损失约束函数,对所述更新后的中间概率分布进行约束,得到所述目标语音中每个语音帧对应的字符的最终概率分布。5.根据权利要求4所述的方法,其特征在于,所述将所述编码特征输入所述注意力机制层,得到所述目标语音中每个语音帧的注意力系数,包括:对所述编码特征进行解码,得到解码...

【专利技术属性】
技术研发人员:尤祖寰刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1