前端适配器训练方法、电子设备和存储介质技术

技术编号:37435190 阅读:26 留言:0更新日期:2023-05-06 09:07
本发明专利技术公开前端适配器训练方法、电子设备和存储介质,其中,一种前端适配器包括第一阶段和第二阶段,所述第一阶段包括:将语音的waveform格式输入至原始前端,获取所述原始前端的第一输出;将所述语音的其他格式输入至所述前端适配器,获取所述前端适配器的第二输出,计算所述第一输出和所述第二输出的第一损失以训练所述前端适配器;以及将所述前端适配器的第二输出输入至主干Transformer模型,计算第二损失,其中,所述第一损失和所述第二损失同时优化预设纪元。通过最小化不同前端输出之间的距离,语音的其他格式的特征也可以兼容使用波形预训练的自监督学习模型。使用波形预训练的自监督学习模型。使用波形预训练的自监督学习模型。

【技术实现步骤摘要】
前端适配器训练方法、电子设备和存储介质


[0001]本专利技术属于前端适配器训练
,尤其涉及前端适配器训练方法、电子设备和存储介质。

技术介绍

[0002]相关技术中,自监督语音模型,包括wav2vec系列,HuBERT,data2vec等。这些模型在预训练阶段使用海量无标签数据进行训练,在微调阶段使用少量有标签数据进行训练。
[0003]因此,尽管上述在关键词发现任务中的努力大大改善了某些特定条件下的性能,但一些未解决的问题限制了这些方法的通用性。
[0004]专利技术人在实现本申请的过程中发现,这些模型在预训练、微调、解码阶段,模型需要输入数据均为waveform格式,对生产场景不友好。

技术实现思路

[0005]本专利技术实施例提供一种前端适配器训练方法、电子设备和存储介质,用于至少解决上述技术问题之一。
[0006]第一方面,本专利技术实施例提供一种前端适配器训练方法,其中,所述训练方法包括第一阶段和第二阶段,所述第一阶段包括:将语音的waveform格式输入至原始前端,获取所述原始前端的第本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种前端适配器训练方法,其中,所述训练方法包括第一阶段和第二阶段,所述第一阶段包括:将语音的waveform格式输入至原始前端,获取所述原始前端的第一输出;将所述语音的其他格式输入至所述前端适配器,获取所述前端适配器的第二输出,计算所述第一输出和所述第二输出的第一损失以训练所述前端适配器;将所述前端适配器的第二输出输入至主干Transformer模型,计算第二损失,其中,所述第一损失和所述第二损失同时优化预设纪元。2.根据权利要求1所述的方法,其中,所述第二阶段包括:将所述语音的其他格式输入至所述前端适配器后,将获取的所述前端适配器的第三输出输入至所述主干Transformer模型,仅计算第二损失。3.根据权利要求1所述的方法,其中,所述第一损失为L2损失,所述第二损失为CTC损失,...

【专利技术属性】
技术研发人员:俞凯陈谐马子阳郑之胜
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1