语音识别模型训练方法、装置、设备及介质制造方法及图纸

技术编号:31706242 阅读:11 留言:0更新日期:2022-01-01 11:08
本发明专利技术涉及人工智能领域,提供一种语音识别模型训练方法、装置、设备及介质,方法包括:获取包含语音样本的语音样本集;将语音样本输入初始识别模型;通过音频增强处理,得到待处理音频片段;通过初始识别模型中的老师网络进行老师声学特征提取,得到第一特征向量,同时通过初始识别模型中的学生网络进行学生声学特征提取,得到第二特征向量;结合老师网络中的动态队列进行对齐对比处理,得到损失值;在损失值未达到预设的收敛条件时,迭代更新直至收敛,并得到训练完成的语音识别模型。本发明专利技术实现了通过老师网络和学生网络共同的语音识别,加快训练效率。本发明专利技术适用于人工智能领域,可进一步推动智慧城市的建设。可进一步推动智慧城市的建设。可进一步推动智慧城市的建设。

【技术实现步骤摘要】
语音识别模型训练方法、装置、设备及介质


[0001]本专利技术涉及人工智能的语音识别领域,尤其涉及一种语音识别模型训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音翻译是将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,不同于传统的机器翻译,语音翻译的输入直接是语音,输出是文本,随着国际性交流的增加,使用不同语种的语言沟通越来越频繁,为克服语言交流障碍,基于客户端进行在线语音翻译得到广泛的应用。
[0003]在线语音翻译一般涉及两个环节,第一是进行语音识别,即将用户输入的第一语种的语音信号转换为文本;第二是通过机器翻译装置对文本进行在线翻译,以得到作为翻译结果的第二语种的文本,最后向用户提供第二语种的文本或者语音信息,然而现有方案中的语音识别通常是采用大量的由人工低效率标注的语音样本训练得到的,而且训练得到的语音识别模型的结构复杂以及计算量大,导致输出的文本效率低,最终存在翻译滞后时长较长的情况,造成实时的在线语音翻译效果差,用户体验满意度低。

技术实现思路

[0004]本专利技术提供一种语音识别模型训练方法、装置、计算机设备及存储介质,实现了无需人工标注的自监督语音识别模型的训练,通过老师声学特征提取和学生声学特征提取,运用动态队列进行老师网络和学生网络之间的对齐对比处理,从而不断进行训练,提高了训练速度,最终简化了学生网络的结构且保证了识别精度,为后续的语音翻译提高了翻译效率和准确率。
[0005]一种语音识别模型训练方法,包括:
[0006]获取语音样本集;所述语音样本集包括多个语音样本;
[0007]将所述语音样本输入含有初始参数的初始识别模型;
[0008]通过所述初始识别模型对所述语音样本进行音频增强处理,得到待处理音频片段;
[0009]通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量,同时通过学生网络对所述待处理音频片段进行学生声学特征提取,得到第二特征向量;其中,所述初始识别模型包括所述老师网络和所述学生网络;所述学生网络为对所述老师网络进行蒸馏学习后获得;
[0010]对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值;
[0011]在所述损失值未达到预设的收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述损失值达到所述收敛条件时,将收敛之后的所述初始识别模型记录为训练完成的语音识别模型。
[0012]一种语音识别模型训练装置,包括:
[0013]获取模块,用于获取语音样本集;所述语音样本集包括多个语音样本;
[0014]输入模块,用于将所述语音样本输入含有初始参数的初始识别模型;
[0015]增强模块,用于通过所述初始识别模型对所述语音样本进行音频增强处理,得到待处理音频片段;
[0016]提取模块,用于通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量,同时通过学生网络对所述待处理音频片段进行学生声学特征提取,得到第二特征向量;其中,所述初始识别模型包括所述老师网络和所述学生网络;所述学生网络为对所述老师网络进行蒸馏学习后获得;
[0017]损失模块,用于对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值;
[0018]训练模块,用于在所述损失值未达到预设的收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述损失值达到所述收敛条件时,将收敛之后的所述初始识别模型记录为训练完成的语音识别模型。
[0019]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音识别模型训练方法的步骤。
[0020]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述语音识别模型训练方法的步骤。
[0021]本专利技术提供的语音识别模型训练方法、装置、计算机设备及存储介质,通过获取包含有多个语音样本的语音样本集;将所述语音样本输入含有初始参数的初始识别模型;通过所述初始识别模型对所述语音样本进行音频增强处理,得到待处理音频片段;通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量,同时通过学生网络对所述待处理音频片段进行学生声学特征提取,得到第二特征向量;其中,所述初始识别模型包括所述老师网络和所述学生网络;所述学生网络为对所述老师网络进行蒸馏学习后获得;对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值;在所述损失值未达到预设的收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述损失值达到所述收敛条件时,将收敛之后的所述初始识别模型记录为训练完成的语音识别模型,如此,实现了通过音频增强处理,并通过老师网络提取老师声学特征,以及通过从老师网络中蒸馏学习获得的学生网络提取学生声学特征,结合动态队列进行对齐对比处理,迭代训练获得语音识别模型,因此,实现了自动增强有用的音频信息,无需大量对语音样本进行标注,节省了人工成本,而且运用蒸馏学习方法,以及通过自监督的老师网络和学生网络的模型训练,训练完成获得语音识别模型,减少了人工标注时间和工作量,通过学生网络,加快了语音识别的效率,从而提高了语音识别效率,并通过老师网络和学生网络共同的语音识别,提高了语音识别的准确性。
附图说明
[0022]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施
例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术一实施例中语音识别模型训练方法的应用环境示意图;
[0024]图2是本专利技术一实施例中语音识别模型训练方法的流程图;
[0025]图3是本专利技术一实施例中语音识别模型训练方法的步骤S50的流程图;
[0026]图4是本专利技术一实施例中语音识别模型训练装置的原理框图;
[0027]图5是本专利技术一实施例中语音识别模型训练装置的损失模块的原理框图;
[0028]图6是本专利技术一实施例中计算机设备的示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]本专利技术提供的语音识别模型训练方法,可应用在如图1的应用环境中,其中,客户端(计算机设备或终端)通过网络与服务器进行通信。其中,客户端(计算机设备或终端)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型训练方法,其特征在于,包括:获取语音样本集;所述语音样本集包括多个语音样本;将所述语音样本输入含有初始参数的初始识别模型;通过所述初始识别模型对所述语音样本进行音频增强处理,得到待处理音频片段;通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量,同时通过学生网络对所述待处理音频片段进行学生声学特征提取,得到第二特征向量;其中,所述初始识别模型包括所述老师网络和所述学生网络;所述学生网络为对所述老师网络进行蒸馏学习后获得;对所述第一特征向量、所述第二特征向量和所述老师网络中的动态队列进行对齐对比处理,得到损失值;在所述损失值未达到预设的收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述损失值达到所述收敛条件时,将收敛之后的所述初始识别模型记录为训练完成的语音识别模型。2.如权利要求1所述的语音识别模型训练方法,其特征在于,所述通过老师网络对所述待处理音频片段进行老师声学特征提取,得到第一特征向量之前,包括:获取预训练样本集;所述预训练样本集包括多个预训练样本;一个所述预训练样本对应一个文本标签;将所述预训练样本输入含有老师参数的初始网络;所述初始网络为基于Bert构建的模型;运用Moco训练方法,通过所述初始网络对所述预训练样本进行频域特征提取,根据提取的频域特征进行编码处理,得到待识别特征向量,并将所述待识别特征向量插入至所述初始网络中的动态队列;根据所述待识别特征向量和插入后的所述动态队列进行文字预测,得到与所述预训练样本对应的文本识别结果;根据与所述预训练样本对应的所述文本标签和所述文本识别结果,确定出对比损失值;在所述对比损失值未达到预训练收敛条件时,迭代更新所述初始网络的老师参数,直至所述对比损失值达到所述预训练收敛条件时,将收敛之后的所述初始网络记录为老师网络。3.如权利要求2所述的语音识别模型训练方法,其特征在于,所述将收敛之后的所述初始网络记录为老师网络之后,包括:运用蒸馏学习方法,对所述老师网络中的各层进行隔层蒸馏处理,得到蒸馏层;将所有所述蒸馏层进行结构拼接,以及从所述老师网络中迁移获得各所述蒸馏层中的学生参数;根据迁移后的所有所述蒸馏层构建出基于TinyBert的所述学生网络;其中,所述学生网络的层级小于所述老师网络的层级。4.如权利要求2所述的语音识别模型训练方法,其特征在于,所述根据所述待识别特征向量和插入后的所述动态队列进行文字预测,得到与所述预训练样本对应的文本识别结果,包括:
对所述待识别特征向量进行转换编码,得到第一编码序列,同时对所述待识别特征向量与插入后的所述动态队列进行点乘编码,得到多个第二编码序列;对所述第一编码序列、各所述第二编码序列进行掩蔽预测编码,得到多个掩蔽序列,并更新所述动态队列;对各所述掩蔽序列进行微调文字解码,以及对微调文字解码后的所有所述掩蔽序列进行对比预测,得到所述文本识别结果。5.如权利要求1所述的语音识别模型训练方法,其特征在于,所述对所述第一特征向量、所述第...

【专利技术属性】
技术研发人员:李泽远王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1