前端适配器训练方法、电子设备和存储介质技术

技术编号:37435190 阅读:14 留言:0更新日期:2023-05-06 09:07
本发明专利技术公开前端适配器训练方法、电子设备和存储介质,其中,一种前端适配器包括第一阶段和第二阶段,所述第一阶段包括:将语音的waveform格式输入至原始前端,获取所述原始前端的第一输出;将所述语音的其他格式输入至所述前端适配器,获取所述前端适配器的第二输出,计算所述第一输出和所述第二输出的第一损失以训练所述前端适配器;以及将所述前端适配器的第二输出输入至主干Transformer模型,计算第二损失,其中,所述第一损失和所述第二损失同时优化预设纪元。通过最小化不同前端输出之间的距离,语音的其他格式的特征也可以兼容使用波形预训练的自监督学习模型。使用波形预训练的自监督学习模型。使用波形预训练的自监督学习模型。

【技术实现步骤摘要】
前端适配器训练方法、电子设备和存储介质


[0001]本专利技术属于前端适配器训练
,尤其涉及前端适配器训练方法、电子设备和存储介质。

技术介绍

[0002]相关技术中,自监督语音模型,包括wav2vec系列,HuBERT,data2vec等。这些模型在预训练阶段使用海量无标签数据进行训练,在微调阶段使用少量有标签数据进行训练。
[0003]因此,尽管上述在关键词发现任务中的努力大大改善了某些特定条件下的性能,但一些未解决的问题限制了这些方法的通用性。
[0004]专利技术人在实现本申请的过程中发现,这些模型在预训练、微调、解码阶段,模型需要输入数据均为waveform格式,对生产场景不友好。

技术实现思路

[0005]本专利技术实施例提供一种前端适配器训练方法、电子设备和存储介质,用于至少解决上述技术问题之一。
[0006]第一方面,本专利技术实施例提供一种前端适配器训练方法,其中,所述训练方法包括第一阶段和第二阶段,所述第一阶段包括:将语音的waveform格式输入至原始前端,获取所述原始前端的第一输出;将所述语音的其他格式输入至所述前端适配器,获取所述前端适配器的第二输出,计算所述第一输出和所述第二输出的第一损失以训练所述前端适配器;以及将所述前端适配器的第二输出输入至主干Transformer模型,计算第二损失,其中,所述第一损失和所述第二损失同时优化预设纪元。
[0007]第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例前端适配器训练方法的步骤。
[0008]第三方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的前端适配器训练方法的步骤。
[0009]本申请实施例的方法,通过训练使用同一语音的其他格式的前端适配器,可以使得使用其他格式的前端适配器能够达到与使用waveform格式的前端基本相同的效果。通过最小化不同前端输出之间的距离,语音的其他格式的特征也可以兼容使用波形预训练的自监督学习模型。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用
的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1为本专利技术一实施例提供的一种前端适配器训练方法的流程图;
[0012]图2为本专利技术一实施例提供的前端适配器的第一阶段;
[0013]图3为本专利技术一实施例提供的前端适配器的第二阶段;
[0014]图4为相关技术的三种不同类型的自监督学习模型的说明;
[0015]图5为本专利技术一实施例提供的基于波形的微调误码率结果;
[0016]图6为本专利技术一实施例提供的基于波形和Fbank的前端输出之间的欧氏距离变化;
[0017]图7为本专利技术一实施例提供的三个自监督学习模型在Librispeech和Gigaspeech测试集上的误码率结果;
[0018]图8是本专利技术一实施例提供的电子设备的结构示意图。
具体实施方式
[0019]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]请参考图1,其示出了本申请的前端适配器训练方法一实施例的流程图。上述方法可以用于自监督学习语音模型,其中,前端适配器训练方法包括第一阶段和第二阶段。第一阶段的训练步骤如下:
[0021]如图1所示,在步骤101中,将语音的waveform格式输入至原始前端,获取所述原始前端的第一输出;
[0022]在步骤102中,将所述语音的其他格式输入至所述前端适配器,获取所述前端适配器的第二输出,计算所述第一输出和所述第二输出的第一损失以训练所述前端适配器;
[0023]在步骤103中,将所述前端适配器的第二输出输入至主干Transformer模型,计算第二损失,其中,所述第一损失和所述第二损失同时优化预设纪元。
[0024]在本实施例中,通过训练使用同一语音的其他格式的前端适配器,可以使得使用其他格式的前端适配器能够达到与使用waveform格式的前端基本相同的效果。通过最小化不同前端输出之间的距离,语音的其他格式的特征也可以兼容使用波形预训练的自监督学习模型。
[0025]在一些可选的实施例中,所述第二阶段包括:将所述语音的其他格式输入至所述前端适配器后,将获取的所述前端适配器的第三输出输入至所述主干Transformer模型,仅计算第二损失。
[0026]在一些可选的实施例中,所述第一损失为L2损失,所述第二损失为CTC损失,所述预设纪元为200纪元。
[0027]在一些可选的实施例中,所述其他格式包括Fbank格式和MFCC格式。
[0028]在一些实施例中,本申请还提供一种自监督语音模型,包括根据前述方法训练后的前端适配器和主干Transformer模型。从而该包含前端适配器的自监督语音模型可以接
受语音的任意格式的输入。
[0029]在一些可选的实施例中,所述自监督语音模型为语音识别模型。
[0030]需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
[0031]下面对通过描述专利技术人在实现本专利技术的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
[0032]专利技术人发现上述缺陷主要是由以下原因导致的:模型的前端在不同阶段固定且相同。
[0033]为了解决相关技术中存在的上述缺陷,本领域技术人员通常要选择waveform格式的数据进行训练。本领域技术人员不易想到的原因:前端适配器的损失局部损失函数不易想到,以及训练不同阶段要使用不同的损失函数不易想的。
[0034]本申请实施例中,给定一个训练好的以waveform为前端输入的预训练模型,我们的模型在微调阶段训练一个前端适配器,从而在解码时可以采用FBank或MFCC格式的输入。
[0035]请参考图2和图3,其示出了本申请一实施例提供的前端适配器训练系统框图。图2示出了一具体示例的前端适配器的第一阶段,图3示出了一具体示例的前端适配器的第二阶段。...

【技术保护点】

【技术特征摘要】
1.一种前端适配器训练方法,其中,所述训练方法包括第一阶段和第二阶段,所述第一阶段包括:将语音的waveform格式输入至原始前端,获取所述原始前端的第一输出;将所述语音的其他格式输入至所述前端适配器,获取所述前端适配器的第二输出,计算所述第一输出和所述第二输出的第一损失以训练所述前端适配器;将所述前端适配器的第二输出输入至主干Transformer模型,计算第二损失,其中,所述第一损失和所述第二损失同时优化预设纪元。2.根据权利要求1所述的方法,其中,所述第二阶段包括:将所述语音的其他格式输入至所述前端适配器后,将获取的所述前端适配器的第三输出输入至所述主干Transformer模型,仅计算第二损失。3.根据权利要求1所述的方法,其中,所述第一损失为L2损失,所述第二损失为CTC损失,...

【专利技术属性】
技术研发人员:俞凯陈谐马子阳郑之胜
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1