语音识别模型的训练方法、语音识别方法及装置制造方法及图纸

技术编号:33744629 阅读:36 留言:0更新日期:2022-06-08 21:43
本申请公开了一种语音识别模型的训练方法、语音识别方法及装置。所述训练方法包括:获取混合数据集及其中的语音数据的标注文本,混合数据集包括第一样本普通话语音数据和样本方言语音数据;将混合数据集及其中的语音数据的标注文本及语种标签输入初始语音识别模型,得到混合数据集中的语音数据的识别结果,内容识别网络用于对语音数据进行编码得到特征向量,以及基于语音数据的特征向量进行语音识别以得到识别文本,语种分类器用于基于语音数据的特征向量进行语音识别以得到识别语种;基于混合数据集中的语音数据的识别结果和语音数据的标注文本及语种标签,确定总识别损失;基于总识别损失,对初始语音识别模型进行迭代训练,得到语音识别模型。得到语音识别模型。得到语音识别模型。

【技术实现步骤摘要】
语音识别模型的训练方法、语音识别方法及装置


[0001]本申请涉及语音处理
,尤其涉及一种语音识别模型的训练、语音识别方法及装置。

技术介绍

[0002]在现实生活中,往往需要对各种各样语种的语音进行识别,比如普通话、方言等。通常情况下,为每个语种训练一个对应的语音识别模型,进而在识别过程中,针对每个语种的语音使用对应的语音识别模型进行语音识别,能够达到较好的识别效果。
[0003]但是,实际应用中,不同语种的语音之间可能会混叠,比如说话者在说话时同时夹杂普通话和方言,这就导致如何判断和选择对这类语音有效的语音识别模型变得困难,进而无法有效进行语音识别。因此,如何训练出一种针对多类语种的语音都具有较好的识别效果的语音识别模型,是当前亟需解决的问题。

技术实现思路

[0004]本申请实施例的目的提供一种语音识别模型的训练方法、语音识别方法及装置,用于使训练出的语音识别模型对多类语音都具有较好的识别效果。
[0005]为了实现上述目的,本申请实施例采用下述技术方案:
[0006]第一方面,本申请实施例提本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,包括获取混合数据集以及所述混合数据集中的语音数据的标注文本及语种标签,其中,所述混合数据集包括第一样本普通话语音数据和样本方言语音数据;将所述混合数据集以及所述混合数据集中的语音数据的标注文本及语种标签输入初始语音识别模型,得到所述混合数据集中的语音数据的识别结果,所述识别结果包括识别文本和识别语种;基于所述混合数据集中的语音数据的识别结果以及所述混合数据集中的语音数据的标注文本及语种标签,确定所述初始语音识别模型的总识别损失;基于所述总识别损失,对所述初始语音识别模型进行迭代训练,得到所述语音识别模型;其中,所述初始语音识别模型包括内容识别网络和语种分类器,所述内容识别网络用于对所述混合数据集中的语音数据进行编码以得到对应的特征向量,以及基于所述特征向量进行语音识别,得到所述识别文本;所述语种分类器用于基于所述特征向量进行语种识别,得到所述识别语种,所述内容识别网络是利用第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本进行预训练得到的。2.根据权利要求1所述的方法,其特征在于,所述基于所述混合数据集中的语音数据的识别结果以及所述混合数据集中的语音数据的标注文本及语种标签,确定所述初始语音识别模型的总识别损失,包括:基于所述识别文本以及所述语音数据的标注文本,确定所述内容识别网络的第一识别损失;基于所述识别语种以及所述语音数据的语种标签,确定所述语种分类器的识别损失;对所述内容识别网络的第一识别损失和所述语种分类器的识别损失进行归一化处理,得到所述初始语音识别模型的总识别损失。3.根据权利要求2所述的方法,其特征在于,所述内容识别网络包括:编码器,用于基于所述语音数据的标注文本,对所述语音数据进行编码,得到所述特征向量,并基于连接时序分类机制和所述特征向量,对所述语音数据进行语音识别,得到所述语音数据的第一识别文本;解码器,用于基于注意力机制和所述特征向量,对所述语音数据进行语音识别,得到所述语音数据的第二识别文本。4.根据权利要求3所述的方法,其特征在于,所述基于所述识别文本以及所述语音数据的标注文本,确定所述内容识别网络的第一识别损失,包括:基于所述语音数据的第一识别文本及所述语音数据的标注文本,确定第一识别子损失,所述第一识别子损失用于表示所述编码器基于连接时序分类机制对所述混合数据集进行语音识别所引起的识别损失;基于所述语音数据的第二识别文本及所述的语音数据的标注文本,确定第二识别子损失,所述第二识别子损失用于表示所述解码器基于注意力机制对所述混合数据集进行语音识别所引起的识别损失;基于所述第一识别子损失和所述第二识别子损失,确定所述内容识别网络的第一识别损失。
5.根据权利要求4所述的方法,其特征在于,所述基于所述语音数据的第二识别文本以及所述语音数据的标注文本,确定第二识别子损失,包括:基于所述语音数据的语种数量和所述语音数据的标注文本的标注形式,对所述语音数据的标注文本进行平滑处理;基于所述语音数据的第二识别文本和所述平滑处理后的标注文本,确定所述第二识别子损失。6.根据权利要求3所述的方法,其特征在于,在将所述混合数据集以及所述语音数据的标注文本输入初始语音识别模型之前,所述方法还包括:将所述第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本输入初始内容识别网络,得到第三识别文本和第四识别文本,其中,所述第三识别文本为所述初...

【专利技术属性】
技术研发人员:孟庆林蒋宁吴海英王洪斌刘敏陈燕丽
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1