语音模型训练方法、语音识别方法、装置及电子设备制造方法及图纸

技术编号:39142365 阅读:11 留言:0更新日期:2023-10-23 14:55
本申请公开了一种语音模型训练方法、语音识别方法、装置及电子设备,涉及语音识别技术领域,以解决现有口音语音识别方法准确率较低的问题。该方法包括:获取语音样本集,语音样本集中每个语音样本均标注有字标签,且每个语音帧均标注有口音标签;利用语音样本集对口音语音识别模型进行训练,口音语音识别模型中的声学特征提取模块用于提取输入语音的声学特征,编码器用于将声学特征编码为声学表征向量,解码器用于依据声学表征向量预测拼音序列,口音分类器用于依据声学表征向量输出帧级口音类别信息,翻译器用于依据帧级口音类别信息翻译拼音序列,获得字序列。本申请实施例能够提高口音语音识别的准确率。口音语音识别的准确率。口音语音识别的准确率。

【技术实现步骤摘要】
语音模型训练方法、语音识别方法、装置及电子设备


[0001]本申请涉及语音识别
,尤其涉及一种语音模型训练方法、语音识别方法、装置及电子设备。

技术介绍

[0002]语音识别模型在识别带口音的语音时常常会出现性能显著下降的问题,因此开发能够识别多种口音的语音识别模型成为行业需要。现有主流方案多采用多任务结构,主要包含语音识别和口音分类两个任务分支,口音分类分支为语音识别分支提供口音信息,语音识别分支则根据口音信息作出相应的预测。此类多口音语音识别方案高度依赖于口音分类分支的准确率,如果准确率不足,反而可能导致语音识别分支被误导。而目前口音分类分支多输出句子级预测结果,这对于一句话内出现多种口音等特殊场景不太适用,会造成口音分类分支的准确性下降,进而影响语音识别的准确率。

技术实现思路

[0003]本申请实施例提供一种语音模型训练方法、语音识别方法、装置及电子设备,以解决现有口音语音识别方法准确率较低的问题。
[0004]第一方面,本申请实施例提供了一种语音模型训练方法,包括:
[0005]获取语音样本集,所述语音样本集中的每个语音样本均标注有字标签,且每个所述语音样本的每个语音帧均标注有口音标签;
[0006]利用所述语音样本集对初始建立的口音语音识别模型进行训练,以得到训练好的口音语音识别模型,其中,所述口音语音识别模型包括声学特征提取模块、编码器、解码器、口音分类器和翻译器,所述声学特征提取模块用于对输入的语音进行声学特征提取;所述编码器用于将所述声学特征提取模块输出的声学特征编码为声学表征向量;所述解码器用于依据所述编码器输出的声学表征向量预测拼音序列;所述口音分类器用于依据所述编码器输出的声学表征向量输出帧级口音类别信息,所述帧级口音类别信息包括所述输入的语音中每个语音帧的口音类别信息;所述翻译器用于依据所述口音分类器输出的帧级口音类别信息对所述解码器预测的拼音序列进行翻译,获得所述输入的语音对应的字序列。
[0007]可选地,所述利用所述语音样本集对初始建立的口音语音识别模型进行训练,包括:
[0008]将所述语音样本集中的第一语音样本输入所述口音语音识别模型;
[0009]通过所述声学特征提取模块对所述第一语音样本进行声学特征提取,得到第一声学特征;通过所述编码器对所述第一声学特征进行编码,得到第一声学表征向量;通过所述解码器对所述第一声学表征向量进行解码,获得第一拼音序列;通过所述口音分类器对所述第一声学表征向量进行口音分类,获得第一口音分类结果,所述第一口音分类结果包括所述第一语音样本中每个语音帧所属的口音类别;通过所述翻译器依据所述第一口音分类结果对所述第一拼音序列进行翻译,获得所述第一语音样本对应的第一字序列;
[0010]根据所述第一拼音序列和所述第一语音样本的拼音标签,确定第一拼音级损失,所述第一语音样本的拼音标签是由所述第一语音样本的字标签经过发音词典映射得到的;
[0011]根据所述第一口音分类结果和所述第一语音样本中每个语音帧的口音标签,确定第一口音分类损失;
[0012]根据所述第一字序列和所述第一语音样本的字标签,确定第一字级损失;
[0013]根据所述第一拼音级损失、所述第一口音分类损失和所述第一字级损失,对所述编码器、所述解码器、所述口音分类器和所述翻译器的结构参数进行训练。
[0014]可选地,所述口音分类器还输出有所述第一语音样本的第一口音嵌入向量;
[0015]所述通过所述翻译器依据所述第一口音分类结果对所述第一拼音序列进行翻译,获得所述第一语音样本对应的第一字序列,包括:
[0016]对所述第一口音嵌入向量进行降采样,其中,降采样后所述第一口音嵌入向量的时间维度与所述第一拼音序列的时间维度相同;
[0017]对所述第一拼音序列进行嵌入编码,得到第一拼音嵌入向量;
[0018]将所述第一拼音嵌入向量与降采样后的所述第一口音嵌入向量进行拼接,得到第一拼接向量;
[0019]通过所述翻译器对所述第一拼接向量进行翻译,获得所述第一字序列。
[0020]可选地,所述将所述语音样本集中的第一语音样本输入所述口音语音识别模型之前,所述方法还包括:
[0021]将所述语音样本集中的第二语音样本输入所述口音语音识别模型;
[0022]通过所述声学特征提取模块对所述第二语音样本进行声学特征提取,得到第二声学特征;通过所述编码器对所述第二声学特征进行编码,得到第二声学表征向量;通过所述解码器对所述第二声学表征向量进行解码,获得第二拼音序列;通过所述口音分类器对所述第二声学表征向量进行口音分类,获得第二口音分类结果,所述第二口音分类结果包括所述第二语音样本中每个语音帧所属的口音类别;通过所述翻译器对所述第二语音样本的拼音标签进行翻译,获得所述第二语音样本对应的第二字序列;
[0023]根据所述第二拼音序列和所述第二语音样本的拼音标签,确定第二拼音级损失,所述第二语音样本的拼音标签是由所述第二语音样本的字标签经过发音词典映射得到的;
[0024]根据所述第二口音分类结果和所述第二语音样本中每个语音帧的口音标签,确定第二口音分类损失;
[0025]根据所述第二字序列和所述第二语音样本的字标签,确定第二字级损失;
[0026]根据所述第二拼音级损失、所述第二口音分类损失和所述第二字级损失,对所述编码器、所述解码器、所述口音分类器和所述翻译器的结构参数进行第一阶段训练;
[0027]所述根据所述第一拼音级损失、所述第一口音分类损失和所述第一字级损失,对所述编码器、所述解码器、所述口音分类器和所述翻译器的结构参数进行训练,包括:
[0028]根据所述第一拼音级损失、所述第一口音分类损失和所述第一字级损失,对第一阶段训练后的所述编码器、所述解码器、所述口音分类器和所述翻译器的结构参数进行第二阶段训练。
[0029]可选地,所述通过所述翻译器对所述第二语音样本的拼音标签进行翻译,获得所述第二语音样本对应的第二字序列,包括:
[0030]对所述第二语音样本的拼音标签进行嵌入编码,得到第二拼音嵌入向量;
[0031]将所述第一拼音嵌入向量与全0向量进行拼接,得到第二拼接向量,其中,所述全0向量的时间维度与所述第一拼音嵌入向量的时间维度相同;
[0032]通过所述翻译器对所述第二拼接向量进行翻译,获得所述第二字序列。
[0033]可选地,所述根据所述第二拼音级损失、所述第二口音分类损失和所述第二字级损失,对所述编码器、所述解码器、所述口音分类器和所述翻译器的结构参数进行第一阶段训练,包括:
[0034]对所述第二拼音级损失、所述第二口音分类损失和所述第二字级损失进行加权求和,得到第一总损失;
[0035]根据所述第一总损失,对所述编码器、所述解码器、所述口音分类器和所述翻译器的结构参数进行第一阶段训练;
[0036]所述根据所述第一拼音级损失、所述第一口音分类损失和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音模型训练方法,其特征在于,包括:获取语音样本集,所述语音样本集中的每个语音样本均标注有字标签,且每个所述语音样本的每个语音帧均标注有口音标签;利用所述语音样本集对初始建立的口音语音识别模型进行训练,以得到训练好的口音语音识别模型,其中,所述口音语音识别模型包括声学特征提取模块、编码器、解码器、口音分类器和翻译器,所述声学特征提取模块用于对输入的语音进行声学特征提取;所述编码器用于将所述声学特征提取模块输出的声学特征编码为声学表征向量;所述解码器用于依据所述编码器输出的声学表征向量预测拼音序列;所述口音分类器用于依据所述编码器输出的声学表征向量输出帧级口音类别信息,所述帧级口音类别信息包括所述输入的语音中每个语音帧的口音类别信息;所述翻译器用于依据所述口音分类器输出的帧级口音类别信息对所述解码器预测的拼音序列进行翻译,获得所述输入的语音对应的字序列。2.根据权利要求1所述的方法,其特征在于,所述利用所述语音样本集对初始建立的口音语音识别模型进行训练,包括:将所述语音样本集中的第一语音样本输入所述口音语音识别模型;通过所述声学特征提取模块对所述第一语音样本进行声学特征提取,得到第一声学特征;通过所述编码器对所述第一声学特征进行编码,得到第一声学表征向量;通过所述解码器对所述第一声学表征向量进行解码,获得第一拼音序列;通过所述口音分类器对所述第一声学表征向量进行口音分类,获得第一口音分类结果,所述第一口音分类结果包括所述第一语音样本中每个语音帧所属的口音类别;通过所述翻译器依据所述第一口音分类结果对所述第一拼音序列进行翻译,获得所述第一语音样本对应的第一字序列;根据所述第一拼音序列和所述第一语音样本的拼音标签,确定第一拼音级损失,所述第一语音样本的拼音标签是由所述第一语音样本的字标签经过发音词典映射得到的;根据所述第一口音分类结果和所述第一语音样本中每个语音帧的口音标签,确定第一口音分类损失;根据所述第一字序列和所述第一语音样本的字标签,确定第一字级损失;根据所述第一拼音级损失、所述第一口音分类损失和所述第一字级损失,对所述编码器、所述解码器、所述口音分类器和所述翻译器的结构参数进行训练。3.根据权利要求2所述的方法,其特征在于,所述口音分类器还输出有所述第一语音样本的第一口音嵌入向量;所述通过所述翻译器依据所述第一口音分类结果对所述第一拼音序列进行翻译,获得所述第一语音样本对应的第一字序列,包括:对所述第一口音嵌入向量进行降采样,其中,降采样后所述第一口音嵌入向量的时间维度与所述第一拼音序列的时间维度相同;对所述第一拼音序列进行嵌入编码,得到第一拼音嵌入向量;将所述第一拼音嵌入向量与降采样后的所述第一口音嵌入向量进行拼接,得到第一拼接向量;通过所述翻译器对所述第一拼接向量进行翻译,获得所述第一字序列。4.根据权利要求2所述的方法,其特征在于,所述将所述语音样本集中的第一语音样本输入所述口音语音识别模型之前,所述方法还包括:
将所述语音样本集中的第二语音样本输入所述口音语音识别模型;通过所述声学特征提取模块对所述第二语音样本进行声学特征提取,得到第二声学特征;通过所述编码器对所述第二声学特征进行编码,得到第二声学表征向量;通过所述解码器对所述第二声学表征向量进行解码,获得第二拼音序列;通过所述口音分类器对所述第二声学表征向量进行口音分类,获得第二口音分类结果,所述第二口音分类结果包括所述第二语音样本中每个语音帧所属的口音类别;通过所述翻译器对所述第二语音样本的拼音标签进行翻译,获得所述第二语音样本对应的第二字序列;根据所述第二拼音序列和所述第二语音样本的拼音标签,确定第二拼音级损失,所述第二语音样本的拼音标签是由所述第二语音样本的字标签经过发音词典映射得到的;根据所述第二口音分类结果和所述第二语音样本中每个语音帧的口音标签,确定第二口音分类损失;根据所述第二字序列和所述第二语音样本的字标签,确定第二字级损失;根据所述第二拼音级损失、所述第二口音分类损失和所述第二字级损失,对所述编码器、所述解码器、所述口音分类器和所述翻译器的结构参数进行第一阶段训练;所述根据所述第一拼音级损失、所述第一口音分类损失和所述第一字级损失,对所述编码器、所述解码器、所述口音分类器和所述翻译器的结构参数进行训练,包括:根据所述第一拼音级损失、所述第一口音分类损失和所述第一字级损失,对第一阶段训练后的所述编码器、所述解码器、所述口音分类器和所述翻译器的结构参数进行第二阶段训练。5.根据权利要求4所述的方法,其特征在于,所述通过所述翻译器对所述第二语音样本的拼音标签进行翻译,获得所述第二语音样本对应的第二字序列,包括:对所述第二语音样...

【专利技术属性】
技术研发人员:侯雷静高莹莹张世磊邵琪杰
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1