多方言语音识别模型训练方法及装置制造方法及图纸

技术编号:45082720 阅读:22 留言:0更新日期:2025-04-25 18:21
本发明专利技术实施例提供了一种多方言语音识别模型训练方法及装置,涉及人工智能技术领域,所述方法包括:获取语音识别模型的预训练模型;其中,所述预训练模型中包括多个网络层,所述网络层中的指定线性层替换为专家路由网络,所述专家路由网络中包括路由门控和专家网络;获取至少一种方言向量化后的方言数据集;采用所述方言数据集对所述预训练模型中的专家路由网络进行训练,并在所述训练模型达到预设收敛条件时,得到训练完成的语音识别模型;所述语音识别模型中对至少一种方言的方言语音进行语音识别。本发明专利技术实施例使用统一的语音识别模型可以让不同地区部署同一个语音识别模型,有效降低运营成本。

【技术实现步骤摘要】

本专利技术实施例涉及人工智能,特别是涉及一种多方言语音识别模型训练方法、一种多方言语音识别模型训练装置、一种电子设备以及一种计算机可读存储介质。


技术介绍

1、asr(automatic speech recognition,语音识别技术)可以将语音转换为计算机可读的文字。

2、目前,语音识别技术在人工智能等广泛领域发挥重要作用,然而大多数基于语音识别技术的语音识别模型,虽然可以较为准确地识别标准的普通话,但是针对方言,例如粤语、闽南语、潮汕话等方言,语音识别模型通常需要为每种方言分别单独训练一个小模型,增加了运营成本。


技术实现思路

1、鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种多方言语音识别模型训练方法及装置。具体技术方案如下:

2、在本专利技术实施的第一方面,首先提供了一种多方言语音识别模型训练方法,所述方法包括:

3、获取语音识别模型的预训练模型;其中,所述预训练模型中包括多个网络层,所述网络层中的指定线性层替换为专家路由网络,所述专家本文档来自技高网...

【技术保护点】

1.一种多方言语音识别模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预训练模型的网络层包括前馈层和多头自注意力层,所述指定线性层至少包括所述前馈层中的线性层和所述多头自注意力层中的线性层。

3.根据权利要求1所述的方法,其特征在于,在获取语音识别模型的预训练模型之前,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述方言数据集中包括方言数据和所述方言数据对应的方言标签;采用所述方言数据集对所述预训练模型中的专家路由网络进行训练,包括:

5.根据权利要求4所述的方法,其特征在于,采用所述...

【技术特征摘要】

1.一种多方言语音识别模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预训练模型的网络层包括前馈层和多头自注意力层,所述指定线性层至少包括所述前馈层中的线性层和所述多头自注意力层中的线性层。

3.根据权利要求1所述的方法,其特征在于,在获取语音识别模型的预训练模型之前,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述方言数据集中包括方言数据和所述方言数据对应的方言标签;采用所述方言数据集对所述预训练模型中的专家路由网络进行训练,包括:

5.根据权利要求4所述的方法,其特征在于,采用所述方言数据集中的方言数据和所述方言标签对所述预训练模...

【专利技术属性】
技术研发人员:刘博卿康健李杰
申请(专利权)人:中电信人工智能科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1