多语言模型的训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38248379 阅读:12 留言:0更新日期:2023-07-25 18:07
本申请实施例属于人工智能领域,涉及一种多语言模型的训练方法,包括:获取预设的单语言预训练模型;基于所述单语言预训练模型构建第一初始多语言模型;基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型;获取预先采集的训练数据;最后使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。本申请还提供一种多语言模型的训练装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,目标多语言模型可存储于区块链中。本申请基于单语言预训练模型的使用有效地降低了目标多语言模型的训练成本,提高了目标多语言模型的训练生成效率。提高了目标多语言模型的训练生成效率。提高了目标多语言模型的训练生成效率。

【技术实现步骤摘要】
多语言模型的训练方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及多语言模型的训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]现有的语音识别模型通常只能识别一种语言,若想要识别多种语言,则要同时部署多个模型。这种方式极大增加模型的部署难度,花费很多资源,而且训练过程也比较繁琐。随着技术的发展,使用一个模型识别多种语言成为可能。多语言模型可以极大的方便部署、上线、维护等过程,且模型训练更加方便。现有的多语言模型训练,通常是直接照搬了单语言模型训练方法,直接使用多个语种数据混合进行训练。这种训练方式需要花费较长的训练时间,从而导致模型的训练成本高,模型训练生成的效率较低。

技术实现思路

[0003]本申请实施例的目的在于提出一种多语言模型的训练方法、装置、计算机设备及存储介质,以解决现有的多语言模型训练,通常是直接照搬了单语言模型训练方法,直接使用多个语种数据混合进行训练。这种训练方式需要花费较长的训练时间,从而导致模型的训练成本高,模型训练生成的效率较低的技术问题。
[0004]为了解决上述技术问题,本申请实施例提供一种多语言模型的训练方法,采用了如下所述的技术方案:
[0005]获取预设的单语言预训练模型;
[0006]基于所述单语言预训练模型构建第一初始多语言模型;
[0007]基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型;
[0008]获取预先采集的训练数据;
[0009]使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。
[0010]进一步的,所述基于所述单语言预训练模型构建第一初始多语言模型的步骤,具体包括:
[0011]获取所述单语言预训练模型的第一编码器的大小;以及,
[0012]获取所述第一编码器的层数;
[0013]构建与所述第一编码器的大小以及所述第一编码器的层数均相同的初始模型;
[0014]对所述初始模型进行预设的随机初始化处理,得到所述第一初始多语言模型。
[0015]进一步的,所述基于所述单语言预训练模型内的编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型的步骤,具体包括:
[0016]获取所述单语言预训练模型的第一模型参数,并从所述第一模型参数中获取所述第一编码器的第一参数;以及,
[0017]获取所述第一初始多语言模型的第二模型参数,并从所述第二模型参数中获取所
述第一初始多语言模型内的第二编码器的第二参数;
[0018]将所述第一初始多语言模型内的所述第二参数替换为所述第一参数;
[0019]保持所述第一初始多语言模型内的第一解码器的第三参数不变,得到所述第二初始多语言模型。
[0020]进一步的,所述使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型的步骤,具体包括:
[0021]冻结所述第二初始多语言模型内的第三编码器的第四参数;
[0022]使用所述训练数据对所述第二初始多语言模型内的第二解码器的第五参数进行训练;
[0023]在确定使用所述训练数据对所述第五参数进行训练的第一训练任务对应的第一损失函数收敛时,解除对于所述第二初始多语言模型内的所述第四参数的冻结;
[0024]使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练;
[0025]在确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型。
[0026]进一步的,在所述使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练的步骤之后,还包括:
[0027]获取使用所述训练数据对所述第三编码器的第四参数进行训练的过程中得到所述第三编码器内的特征数据;
[0028]基于预设的全连接层与所述特征数据构建语种识别任务;
[0029]基于所述语种识别任务对所述第四参数进行优化处理;
[0030]所述在确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型的步骤,包括:
[0031]在完成了基于所述语种识别任务对于所述第四参数的优化处理,且确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型。
[0032]进一步的,所述获取预先采集的训练数据的步骤,具体包括:
[0033]获取预先采集的初始语音数据;
[0034]基于预设的语种采样算法对所述初始语音数据进行处理,以确保所述初始语音数据内包含的各种语言的语音条数均等于预设数值,得到处理后的初始语音数据;
[0035]将所述处理后的初始语音数据作为所述训练数据。
[0036]进一步的,在所述使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型的步骤之后,还包括:
[0037]接收待识别语音;
[0038]将所述待识别语音输入至所述目标多语言模型内,通过所述目标多语言模型输出与所述待识别语音对应的语音识别结果;
[0039]接收所述目标多语言模型返回的所述语音识别结果;
[0040]展示所述语音识别结果。
[0041]为了解决上述技术问题,本申请实施例还提供一种多语言模型的训练装置,采用了如下所述的技术方案:
[0042]第一获取模块,用于获取预设的单语言预训练模型;
[0043]构建模块,用于基于所述单语言预训练模型构建第一初始多语言模型;
[0044]处理模块,用于基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型;
[0045]第二获取模块,用于获取预先采集的训练数据;
[0046]训练模块,用于使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。
[0047]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0048]获取预设的单语言预训练模型;
[0049]基于所述单语言预训练模型构建第一初始多语言模型;
[0050]基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型;
[0051]获取预先采集的训练数据;
[0052]使用所述训练数据对所述第二初始多语言模型进行训练,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语言模型的训练方法,其特征在于,包括下述步骤:获取预设的单语言预训练模型;基于所述单语言预训练模型构建第一初始多语言模型;基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型;获取预先采集的训练数据;使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。2.根据权利要求1所述的多语言模型的训练方法,其特征在于,所述基于所述单语言预训练模型构建第一初始多语言模型的步骤,具体包括:获取所述单语言预训练模型的第一编码器的大小;以及,获取所述第一编码器的层数;构建与所述第一编码器的大小以及所述第一编码器的层数均相同的初始模型;对所述初始模型进行预设的随机初始化处理,得到所述第一初始多语言模型。3.根据权利要求1所述的多语言模型的训练方法,其特征在于,所述基于所述单语言预训练模型内的编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型的步骤,具体包括:获取所述单语言预训练模型的第一模型参数,并从所述第一模型参数中获取所述第一编码器的第一参数;以及,获取所述第一初始多语言模型的第二模型参数,并从所述第二模型参数中获取所述第一初始多语言模型内的第二编码器的第二参数;将所述第一初始多语言模型内的所述第二参数替换为所述第一参数;保持所述第一初始多语言模型内的第一解码器的第三参数不变,得到所述第二初始多语言模型。4.根据权利要求1所述的多语言模型的训练方法,其特征在于,所述使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型的步骤,具体包括:冻结所述第二初始多语言模型内的第三编码器的第四参数;使用所述训练数据对所述第二初始多语言模型内的第二解码器的第五参数进行训练;在确定使用所述训练数据对所述第五参数进行训练的第一训练任务对应的第一损失函数收敛时,解除对于所述第二初始多语言模型内的所述第四参数的冻结;使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练;在确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型。5.根据权利要求4所述的多语言模型的训练方法,其特征在于,在所述使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练的步骤之后,还包括...

【专利技术属性】
技术研发人员:冯超峰魏韬马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1