语音识别模型的处理方法、语音识别方法及装置制造方法及图纸

技术编号:33121109 阅读:26 留言:0更新日期:2022-04-17 00:20
本申请涉及一种语音识别模型的处理方法、语音识别方法及装置。上述方法涉及人工智能领域的语音识别技术,包括:通过语音识别模型得到样本信号对应的语音特征,以及基于语音特征输出的第一预测字符序列;将标注字符序列对应的前向字符序列输入解码器,前向字符序列是基于标注字符序列中各字符的前一字符生成的;在解码器中,根据前向字符序列对应的语义特征对语音特征进行解码获得语音语义联合特征,基于语音语义联合特征获得第二预测字符序列;基于根据标注字符序列与第一预测字符序列计算的语音识别损失,以及根据标注字符序列与第二预测字符序列计算的语义识别损失,联合训练语音识别模型与解码器。采用本方法能够提升语音识别准确率。别准确率。别准确率。

【技术实现步骤摘要】
语音识别模型的处理方法、语音识别方法及装置


[0001]本申请涉及计算机
,特别是涉及一种语音识别模型的处理方法、语音识别方法及装置。

技术介绍

[0002]随着计算机技术与人工智能技术的发展,在很多场景中需要进行语音识别,例如虚拟机器人交互场景、智能设备控制场景、机器翻译场景、语音消息的文本转换场景等。例如,终端通过终端上安装的虚拟机器人程序接收用户输入的语音信号,对语音信号进行语音识别获得语音识别结果,基于语音识别结果执行相应的操作。再例如,智能设备上安装有语音控制客户端,智能设备通过语音控制客户端接收用户输入的语音信号,对语音信号进行语音识别获得语音识别结果,基于语音识别结果获得控制指令,进而执行相应的操作。
[0003]目前,非自回归语音识别模型由于语音识别速度快等优势,获得了广泛的应用。但是,非自回归语音识别模型,仅利用了语音信号在语音层次上的信息,存在识别准确率低的缺点。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提升语音识别准确率的语音识别模型的处理方法、语音识别方法及装置本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型的处理方法,其特征在于,所述方法包括:获取样本信号及对应的标注字符序列;将所述样本信号输入语音识别模型,得到所述样本信号对应的语音特征,以及基于所述语音特征输出的第一预测字符序列;将所述标注字符序列对应的前向字符序列输入解码器,所述前向字符序列是基于所述标注字符序列中各字符的前一字符生成的;在所述解码器中,根据所述前向字符序列对应的语义特征对所述语音特征进行解码,获得所述样本信号对应的语音语义联合特征,并基于所述语音语义联合特征进行预测,得到所述样本信号对应的第二预测字符序列;基于根据所述标注字符序列与所述第一预测字符序列计算的语音识别损失,以及根据所述标注字符序列与所述第二预测字符序列计算的语义识别损失,联合训练所述语音识别模型与所述解码器。2.根据权利要求1所述的方法,其特征在于,所述将所述样本信号输入语音识别模型,得到所述样本信号对应的语音特征,以及基于所述语音特征输出的第一预测字符序列,包括:将所述样本信号输入所述语音识别模型;通过所述语音识别模型的编码器输出所述样本信号对应的语音特征;通过所述语音识别模型中与所述编码器连接的分类器,基于所述语音特征输出所述第一预测字符序列。3.根据权利要求2所述的方法,其特征在于,所述编码器包括特征提取网络与基于自注意力的语音上下文网络;所述通过所述语音识别模型的编码器输出所述样本信号对应的语音特征,包括:将所述样本信号输入所述编码器,得到由所述编码器中的特征提取网络输出的与所述样本信号对应的语音向量序列;对所述语音向量序列中的语音向量进行随机遮掩处理;将遮掩处理后的语音向量序列输入所述语音上下文网络,得到由所述语音上下文网络输出的上下文语音特征,作为所述样本信号对应的语音特征。4.根据权利要求1所述的方法,其特征在于,所述解码器包括向量化层、基于自注意力的语义上下文网络与基于交叉注意力的语音语义上下文网络;所述根据所述前向字符序列对应的语义特征对所述语音特征进行解码,获得所述样本信号对应的语音语义联合特征,包括:通过所述解码器的向量化层,将所述前向字符序列转化为对应的前向字符向量序列,将所述前向字符向量序列输入所述语义上下文网络;通过所述语义上下文网络,基于所述前向字符向量序列,计算所述前向字符序列对应的上下文语义特征,作为所述前向字符序列对应的语义特征;通过所述语音语义上下文网络,基于所述前向字符序列对应的语义特征与所述语音特征,计算得到所述样本信号对应的语音语义联合特征。5.根据权利要求4所述的方法,其特征在于,所述基于所述语音语义联合特征进行预测,得到所述样本信号对应的第二预测字符序列,包括:
将所述语音语义联合特征输入所述解码器的分类器;通过所述分类器基于所述语音语义联合特征,输出所述样本信号对应的第二预测字符序列。6.根据权利要求1所述的方法,其特征在于,所述语音识别模型包括编码器和与所述编码器相连接的分类器;所述编码器为使用无标注样本信号进行自监督训练得到的预训练的编码器;所述基于根据所述标注字符序列与所述第一预测字符序列计算的语音识别损失,以及根据所述标注字符序列与所述第二预测字符序列计算的语义识别损失,联合训练所述语音识别模型与所述解码器,包括:根据所述语音识别损失和所述语义识别损失,对所述解码器和所述语音识别模型的分类器进行监督训练;当满足监督训练停止条件时,根据所述语音识别损失和所述语义识别损失,对所述解码器和所述语音识别模型进行监督训练。7.根据权利要求1所述的方法,其特征在于,所述编码器为使用无标注样本信号进行自监督训练得到的预训练的编码器;所述方法还包括:获取所述无标注样本信号;将所述无标注样本信号输入初始编码器,得到由所述初始编码器中的特征提取网络输出的与所述无标注样本信号对应的语音向量序列;对所述语音向量序列执行量化操作,得到语音量化向量序列;对所述语音向量序列中的语音向量进行随机遮掩处理后,确定遮掩语音向量;将遮掩处理后的语音向量序列,输入所述初始编码器的语音上下文网络,得到由所述语音上下文网络输出的与所述遮掩语音向量对应的预测语音向量;基于所述语音量化向量序列中与所述遮掩语音向量对应的语音量化向量,与所述预测语音向量之间的差异,构建自监督训练损失;根据所述自监督训练...

【专利技术属性】
技术研发人员:邓克琦曹松军马龙
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1