语音识别模型的训练方法及装置、电子设备和存储介质制造方法及图纸

技术编号:39317555 阅读:9 留言:0更新日期:2023-11-12 15:59
本公开提供了一种语音识别模型的训练方法及装置、电子设备和存储介质,利用预训练语料对语音识别模型进行训练,得到已训练语音识别模型;将压缩非线性模块与所述已训练语音识别模型进行拼接;基于拼接后的已训练语音识别模型,对所述压缩非线性模块进行训练,不同所述压缩非线性模块用于拟合不同领域的语料。与相关技术相比,本公开实施例通过对不同领域对应的压缩非线性模块的训练,提高了不同的压缩非线性模块对语料的拟合能力;进而能够提升语音识别模型对于不同领域语料的识别能力及准确性。确性。确性。

【技术实现步骤摘要】
语音识别模型的训练方法及装置、电子设备和存储介质


[0001]本公开涉及人工智能
,尤其涉及一种语音识别模型的训练方法及装置、电子设备和存储介质。

技术介绍

[0002]由于语音识别的应用领域广泛,包括语音助手、自动转录等不同场景,模型的训练和优化必须考虑到这些差异。不同场景中的语音数据特点和语言模式各异,因此需要对模型进行重新训练,以提高准确性和适应性。此外,不同业务领域对语音识别的要求也有所不同,如对专业术语要求较高的医用领域和对口音适应性要求较高的多语种翻译领域等。为了满足不同场景和业务需求,语音识别模型需要重新训练。因此,如何提高语音识别模型对不同场景及业务需求下的识别准确率成为亟待解决的问题。

技术实现思路

[0003]本公开提供了一种语音识别模型的训练方法及装置、电子设备和存储介质。其主要目的在于实现提高语音识别模型对不同场景及业务需求下的识别准确率。
[0004]根据本公开的第一方面,提供了一种语音识别模型的训练方法,其中,包括:
[0005]利用预训练语料对语音识别模型进行训练,得到已训练语音识别模型;
[0006]将压缩非线性模块与所述已训练语音识别模型进行拼接;
[0007]基于拼接后的已训练语音识别模型,对所述压缩非线性模块进行训练,不同所述压缩非线性模块用于拟合不同领域的语料。
[0008]可选的,所述利用预训练语料对语音识别模型进行训练,得到已训练语音识别模型,包括:
[0009]对所述预训练语料进行降采样特征提取;/>[0010]将降采样后的所述预训练语料输入编码层进行编码处理;
[0011]基于所述编码层的输出,计算第一损失函数;
[0012]将所述编码层的输出与位置标注输入解码层进行解码处理;
[0013]基于所述解码层的输出,计算第二损失函数;
[0014]根据所述第一损失函数及所述第二损失函数的计算结果,更新所述语音识别模型的模型参数,得到所述已训练语音识别模型。
[0015]可选的,所述将压缩非线性模块与所述已训练语音识别模型进行拼接,包括:
[0016]将第一数量的所述压缩非线性模块与所述编码层中的attention模块拼接;
[0017]将第二数量的所述压缩非线性模块与所述解码层中的attention模块拼接。
[0018]可选的,所述基于拼接后的已训练语音识别模型,对所述压缩非线性模块进行训练,包括:
[0019]将所述已训练语音识别模型的模型参数冻结;
[0020]将所述预训练语料输入拼接后的已训练语音识别模型,以对所述压缩非线性模块
进行训练。
[0021]可选的,所述将所述预训练语料输入拼接后的已训练语音识别模型,以对所述压缩非线性模块进行训练,包括:
[0022]在所述编码层中attention模块的输出第一处理数据后,基于所述预训练语料中的领域信息,将所述第一处理数据输入至对应的所述压缩非线性模块进行训练;
[0023]在所述解码层中attention模块的输出第二处理数据后,基于所述预训练语料中的领域信息,将所述第二处理数据输入至对应的所述压缩非线性模块进行训练。
[0024]可选的,所述将所述第一处理数据输入至对应的所述压缩非线性模块进行训练,包括:
[0025]基于降采样线性卷积网络,对所述第一处理数据进行降采样处理;
[0026]基于非线性算子,对降采样处理后的数据进行拟合处理;
[0027]基于扩采样线性卷积网络,对拟合处理后的数据进行扩采样处理;
[0028]所述将所述第二处理数据输入至对应的所述压缩非线性模块进行训练,包括:
[0029]基于降采样线性卷积网络,对所述第二处理数据进行降采样处理;
[0030]基于非线性算子,对降采样处理后的数据进行拟合处理;
[0031]基于扩采样线性卷积网络,对拟合处理后的数据进行扩采样处理。
[0032]根据本公开的第二方面,提供了一种语音识别模型的训练装置,包括:
[0033]第一训练单元,用于利用预训练语料对语音识别模型进行训练,得到已训练语音识别模型;
[0034]拼接单元,用于将压缩非线性模块与所述已训练语音识别模型进行拼接;
[0035]第二训练单元,用于基于拼接后的已训练语音识别模型,对所述压缩非线性模块进行训练,不同所述压缩非线性模块用于拟合不同领域的语料。
[0036]可选的,所述第一训练单元包括:
[0037]提取模块,用于对所述预训练语料进行降采样特征提取;
[0038]编码模块,用于将降采样后的所述预训练语料输入编码层进行编码处理;
[0039]第一计算模块,用于基于所述编码层的输出,计算第一损失函数;
[0040]解码模块,用于将所述编码层的输出与位置标注输入解码层进行解码处理;
[0041]第二计算模块,用于基于所述解码层的输出,计算第二损失函数;
[0042]更新模块,用于根据所述第一损失函数及所述第二损失函数的计算结果,更新所述语音识别模型的模型参数,得到所述已训练语音识别模型。
[0043]可选的,所述拼接单元包括:
[0044]第一拼接模块,用于将第一数量的所述压缩非线性模块与所述编码层中的attention模块拼接;
[0045]第二拼接模块,用于将第二数量的所述压缩非线性模块与所述解码层中的attention模块拼接。
[0046]可选的,所述第二训练单元包括:
[0047]冻结模块,用于将所述已训练语音识别模型的模型参数冻结;
[0048]训练模块,用于将所述预训练语料输入拼接后的已训练语音识别模型,以对所述压缩非线性模块进行训练。
[0049]可选的,所述训练模块包括:
[0050]第一训练子模块,用于在所述编码层中attention模块的输出第一处理数据后,基于所述预训练语料中的领域信息,将所述第一处理数据输入至对应的所述压缩非线性模块进行训练;
[0051]第二训练子模块,用于在所述解码层中attention模块的输出第二处理数据后,基于所述预训练语料中的领域信息,将所述第二处理数据输入至对应的所述压缩非线性模块进行训练。
[0052]可选的,所述第一训练子模块还用于:
[0053]基于降采样线性卷积网络,对所述第一处理数据进行降采样处理;
[0054]基于非线性算子,对降采样处理后的数据进行拟合处理;
[0055]基于扩采样线性卷积网络,对拟合处理后的数据进行扩采样处理;
[0056]所述第二训练子模块还用于:
[0057]基于降采样线性卷积网络,对所述第二处理数据进行降采样处理;
[0058]基于非线性算子,对降采样处理后的数据进行拟合处理;
[0059]基于扩采样线性卷积网络,对拟合处理后的数据进行扩采样处理。
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,包括:利用预训练语料对语音识别模型进行训练,得到已训练语音识别模型;将压缩非线性模块与所述已训练语音识别模型进行拼接;基于拼接后的已训练语音识别模型,对所述压缩非线性模块进行训练,不同所述压缩非线性模块用于拟合不同领域的语料。2.根据权利要求1所述的方法,其特征在于,所述利用预训练语料对语音识别模型进行训练,得到已训练语音识别模型,包括:对所述预训练语料进行降采样特征提取;将降采样后的所述预训练语料输入编码层进行编码处理;基于所述编码层的输出,计算第一损失函数;将所述编码层的输出与位置标注输入解码层进行解码处理;基于所述解码层的输出,计算第二损失函数;根据所述第一损失函数及所述第二损失函数的计算结果,更新所述语音识别模型的模型参数,得到所述已训练语音识别模型。3.根据权利要求2所述的方法,其特征在于,所述将压缩非线性模块与所述已训练语音识别模型进行拼接,包括:将第一数量的所述压缩非线性模块与所述编码层中的attention模块拼接;将第二数量的所述压缩非线性模块与所述解码层中的attention模块拼接。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述基于拼接后的已训练语音识别模型,对所述压缩非线性模块进行训练,包括:将所述已训练语音识别模型的模型参数冻结;将所述预训练语料输入拼接后的已训练语音识别模型,以对所述压缩非线性模块进行训练。5.根据权利要求4所述的方法,其特征在于,所述将所述预训练语料输入拼接后的已训练语音识别模型,以对所述压缩非线性模块进行训练,包括:在所述编码层中attention模块的输出第一处理数据后,基于所述预训练语料中的领域信息,将所述第一处理数据输入至对应的所述压缩非线性模块进行训练;在所述解码层中attention模块的输出...

【专利技术属性】
技术研发人员:王伟戌王洲王强强商迎新
申请(专利权)人:北京云思智学科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1