语音识别模型的训练方法、语音识别方法及相关装置制造方法及图纸

技术编号:41209626 阅读:21 留言:0更新日期:2024-05-09 23:31
本申请提供一种语音识别模型的训练方法、语音识别方法以及相关装置,涉及语音识别技术领域,一些实施例的语音识别模型的训练方法包括:获取目标语种的无标注数据以及目标语种的标注数据;基于无标注数据和标注数据对跨语种的预训练模型进行调整,获得目标语种的初始语音识别模型;通过初始语音识别模型为无标注数据添加伪标签,获得具有第一伪标签的无标注数据,以及对标注数据进行数据增广获得增广数据,并将具有第一伪标签的无标注数据和增广数据作为训练数据;基于训练数据对初始语音识别模型进行训练,获得语音识别模型。基于本申请实施例方案,可以通过少量的目标语种的标注数据训练获得目标语种的语音识别模型,训练效果佳且成本低。

【技术实现步骤摘要】

本申请涉及语音识别,特别是涉及一种语音识别模型的训练方法、语音识别方法以及相关装置,其中,相关装置包括语音识别模型的训练装置、语音识别装置、计算机设备及计算机可读存储介质。


技术介绍

1、随着自然语言技术的发展,自动语音识别(asr,auto speech recognition)也得到了日益广泛的应用,例如可广泛服务于搜索、推荐、客服、语音助手、自动字幕等场景。在进行语音识别时,通常会采用语音识别模型进行语音识别,为了能够使得自动语音识别的结果能够具有较高的准确性,通常会通过模型训练的方式得到语音识别模型,再将训练得到的语音识别模型用到具体的语音识别业务中。

2、目前在训练获得语音识别模型时,通常需要大量标注数据进行模型训练,然而,在标注数据的数量较少的情况下,即低资源场景下,会使得训练获得语音识别模型的成本变得很高。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种训练成本低的语音识别模型的训练方法、语音识别方法及相关装置

2、第一方面,本申请提供了一种语音识别模型的训本文档来自技高网...

【技术保护点】

1.一种语音识别模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述无标注数据和所述标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述语音识别模型以及语言模型为所述目标语种的无标注数据添加伪标签,获得具有第二伪标签的无标注数据,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述识别文本对应的语音识别概率和语言识别概率,确定目标语种的无标注数据的第...

【技术特征摘要】

1.一种语音识别模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述无标注数据和所述标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述语音识别模型以及语言模型为所述目标语种的无标注数据添加伪标签,获得具有第二伪标签的无标注数据,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述识别文本对应的语音识别概率和语言识别概率,确定目标语种的无标注数据的第二伪标签,包括:

6.根...

【专利技术属性】
技术研发人员:李承翰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1