System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音识别方法、模型训练方法、装置、设备及存储介质制造方法及图纸_技高网

语音识别方法、模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:40773447 阅读:5 留言:0更新日期:2024-03-25 20:20
本申请实施例公开了一种语音识别方法、模型训练方法、装置、设备及存储介质,对语音识别模型的训练过程包括两轮自监督预训练和一轮有监督的微调,在第二轮自监督预训练过程中,利用对应不同语义粒度的第一类伪标签计算语音识别模型的不同层的自监督损失,使得预训练的语音识别模型可以学习到不同粒度的语音内容信息,从而提高语音识别模型的识别准确率。

【技术实现步骤摘要】

本申请涉及人工智能,更具体地说,涉及一种语音识别方法、模型训练方法、装置、设备及存储介质


技术介绍

1、语音识别技术是一种将语音信号转换成文本的技术。现有的基于深度学习的语音识别系统非常依赖于训练数据的数量,高性能的语音识别系统通常需要大量的带标注语音数据来进行训练。然而,语音数据标注成本较高,获取难度较大,相比之下,无标注语音更加容易获取。

2、自监督学习是基于无标注语音数据进行语音识别模型训练的常用方式,自监督学习通常包含预训练和微调两个阶段,预训练阶段是通过无标注语音数据集对语音识别模型进行自监督训练,得到预训练的语音识别模型;微调阶段则是利用少量有标注的语音数据对预训练的语音识别模型进行微调,得到最终的语音识别模型。

3、目前,基于自监督学习训练得到的语音识别模型的识别准确率较低,因此,如何提高语音识别模型的识别准确率成为亟待解决的技术问题。


技术实现思路

1、有鉴于此,本申请提供了一种语音识别方法、模型训练方法、装置、设备及存储介质,以提高语音识别模型的识别准确率。

2、为了实现上述目的,现提出的方案如下:

3、一种语音识别模型训练方法,包括:

4、利用无标注语音数据集对语音识别模型进行第一轮自监督预训练,得到第一预训练的语音识别模型;

5、将所述无标注语音数据集中的无标注语音数据输入所述第一预训练的语音识别模型,得到所述第一预训练的语音识别模型的目标中间层输出的各个无标注语音数据的隐层特征序列;</p>

6、基于各个无标注语音数据的隐层特征序列确定各个无标注语音数据的至少两个第一类伪标签;不同的第一类伪标签对应不同粒度的语义信息;

7、利用所述无标注语音数据集,以及无标注语音数据的至少两个第一类伪标签对所述第一预训练的语音识别模型进行第二轮自监督预训练,得到第二预训练的语音识别模型;任一无标注语音数据的对应不同粒度的第一类伪标签用于确定所述第一预训练的语音识别模型的不同网络层的自监督损失;

8、利用有标注的语音数据集对所述第二预训练的语音识别模型进行有监督的训练,得到目标语音识别模型。

9、上述方法,可选的,所述基于各个无标注语音数据的隐层特征序列确定各个无标注语音数据的至少两个第一类伪标签,包括:

10、对各个无标注语音数据的隐层特征序列进行n次聚类,不同次聚类采用的聚类数不同;n为大于1的整数;

11、对应任一无标注语音数据,基于n次聚类结果对所述任一无标注语音数据标注n个第一类伪标签;所述任一无标注语音数据的n个第一类伪标签表征所述任一无标注语音数据在不同次聚类结果中所属的聚类类别。

12、上述方法,可选的,对于所述任一无标注语音数据的第一伪标签和第二伪标签,如果所述第一伪标签对应的第一聚类数小于所述第二伪标签对应的第二聚类数,则所述第一伪标签用于确定所述第一预训练的语音识别模型的第一网络层的自监督损失,所述第二伪标签用于确定所述第一预训练的语音识别模型的第一网络层的自监督损失;

13、所述第一伪标签和第二伪标签是所述任一无标注语音数据的任意两个第一类伪标签;所述第二网络层低于所述第二网络层。

14、上述方法,可选的,所述利用无标注语音数据集对语音识别模型进行第一轮自监督预训练,包括:

15、对所述无标注语音数据集中的无标注语音数据进行一次聚类,该次聚类采用的聚类数小于所述n次聚类采用的最大聚类数;

16、根据该一次聚类结果对各个无标注语音数据标注第二类伪标签;任一无标注语音数据的第二类伪标签表征所述任一无标注语音数据在该次聚类结果中所属的聚类类别;

17、利用所述无标注语音数据集,以及无标注语音数据的第二类伪标签对语音识别模型进行第一轮自监督预训练,得到第一预训练的语音识别模型;任一无标注语音数据的第二类伪标签用于确定所述语音识别模型的最高网络层的自监督损失。

18、上述方法,可选的,所述利用所述无标注语音数据集,以及无标注语音数据的至少两个第一类伪标签对所述第一预训练的语音识别模型进行第二轮自监督预训练,包括:

19、通过所述第一预训练的语音识别模型对各个无标注语音数据分别进行编码,得到各个无标注语音数据的编码特征序列;任一无标注语音数据的编码特征序列中的不同特征对应所述任一无标注语音数据的不同语音帧;

20、对所述任一无标注语音数据的编码特征序列进行掩码,得到所述任一无标注语音数据的掩码特征序列;

21、对所述掩码特征序列进行多个层级的隐层特征提取,得到各个层级的隐层特征序列;

22、以基于至少两个目标层级的各无标注语音数据的隐层特征序列确定的第一类伪标签趋近于所述目标层级的所述第一类伪标签为目标,对所述第一预训练的语音识别模型的参数进行更新。

23、上述方法,可选的,所述以基于至少两个目标层级的隐层特征序列确定的第一类伪标签趋近于所述目标层级的第一类伪标签为目标,对所述第一预训练的语音识别模型的参数进行更新,包括:

24、对应任一目标层级以及任一无标注语音数据,以基于所述任一无标注语音数据的被掩盖位置在所述任一目标层级的隐层特征确定的第一类伪标签趋近于所述目标层级的第一类伪标签为目标,对所述第一预训练的语音识别模型的参数进行更新。

25、上述方法,可选的,对所述掩码特征序列进行多个层级的隐层特征提取,包括:

26、对所述掩码特征序列进行多个层级的基于自注意力的隐层特征提取;其中,较高层级的自注意力范围,大于较低层级的自注意力范围。

27、上述方法,可选的,所述对所述掩码特征序列进行多个层级的基于自注意力的隐层特征提取,包括:

28、对所述掩码特征序列进行多个层级的基于多头自注意力的隐层特征提取;其中,

29、多个自注意力头中的至少一个自注意力头的自注意力范围是隐层特征序列的局部范围。

30、上述方法,可选的,所述多个自注意力头中的第一自注意力头和第二自注意力头的自注意力范围是隐层特征序列的局部范围;其中,

31、对于所述隐层特征序列中的任一隐层特征,该任一隐层特征对应所述第一自注意力头的注意力范围是所述隐层特征序列中位于该任一隐层特征之前的多个隐层特征;该任一隐层特征对应所述第二自注意力头的注意力范围是所述隐层特征序列中位于该任一隐层特征之后的多个隐层特征。

32、一种语音识别方法,包括:

33、将待识别语音输入语音识别模型,得到所述语音识别模型输出的语音识别结果;

34、所述语音识别模型通过如上任一项所述的语音识别模型训练方法训练得到。

35、一种语音识别模型训练装置,包括:

36、第一预训练模块,用于利用无标注语音数据集对语音识别模型进行第一轮自监督预训练,得到第一预训练的语音识别模型;

37、输入模块,用于将所述无标注语音数据集中的无标本文档来自技高网...

【技术保护点】

1.一种语音识别模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于各个无标注语音数据的隐层特征序列确定各个无标注语音数据的至少两个第一类伪标签,包括:

3.根据权利要求2所述的方法,其特征在于,对于所述任一无标注语音数据的第一伪标签和第二伪标签,如果所述第一伪标签对应的第一聚类数小于所述第二伪标签对应的第二聚类数,则所述第一伪标签用于确定所述第一预训练的语音识别模型的第一网络层的自监督损失,所述第二伪标签用于确定所述第一预训练的语音识别模型的第二网络层的自监督损失;

4.根据权利要求2所述的方法,其特征在于,所述利用无标注语音数据集对语音识别模型进行第一轮自监督预训练,包括:

5.根据权利要求1所述的方法,其特征在于,所述利用所述无标注语音数据集,以及无标注语音数据的至少两个第一类伪标签对所述第一预训练的语音识别模型进行第二轮自监督预训练,包括:

6.根据权利要求5所述的方法,其特征在于,所述以基于至少两个目标层级的隐层特征序列确定的第一类伪标签趋近于所述目标层级的第一类伪标签为目标,对所述第一预训练的语音识别模型的参数进行更新,包括:

7.根据权利要求5所述的方法,其特征在于,对所述掩码特征序列进行多个层级的隐层特征提取,包括:

8.根据权利要求7所述的方法,其特征在于,所述对所述掩码特征序列进行多个层级的基于自注意力的隐层特征提取,包括:

9.根据权利要求8所述的方法,其特征在于,所述多个自注意力头中的第一自注意力头和第二自注意力头的自注意力范围是隐层特征序列的局部范围;其中,

10.一种语音识别方法,其特征在于,包括:

11.一种语音识别模型训练装置,其特征在于,包括:

12.一种语音处理设备,其特征在于,包括存储器和处理器;

13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-9中任一项所述的语音识别模型训练方法,和/或,如权利要求10所述的语音识别方法的各个步骤。

...

【技术特征摘要】

1.一种语音识别模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于各个无标注语音数据的隐层特征序列确定各个无标注语音数据的至少两个第一类伪标签,包括:

3.根据权利要求2所述的方法,其特征在于,对于所述任一无标注语音数据的第一伪标签和第二伪标签,如果所述第一伪标签对应的第一聚类数小于所述第二伪标签对应的第二聚类数,则所述第一伪标签用于确定所述第一预训练的语音识别模型的第一网络层的自监督损失,所述第二伪标签用于确定所述第一预训练的语音识别模型的第二网络层的自监督损失;

4.根据权利要求2所述的方法,其特征在于,所述利用无标注语音数据集对语音识别模型进行第一轮自监督预训练,包括:

5.根据权利要求1所述的方法,其特征在于,所述利用所述无标注语音数据集,以及无标注语音数据的至少两个第一类伪标签对所述第一预训练的语音识别模型进行第二轮自监督预训练,包括:

6.根据权利要求5所述的方法,其特征在于,所述以基于至少两个目标层级...

【专利技术属性】
技术研发人员:刘谭万根顺潘嘉刘聪熊世富高建清
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1