多语言模型的训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：38248379 阅读：12 留言：0更新日期：2023-07-25 18:07

本申请实施例属于人工智能领域，涉及一种多语言模型的训练方法，包括：获取预设的单语言预训练模型；基于所述单语言预训练模型构建第一初始多语言模型；基于所述单语言预训练模型内的第一编码器的第一参数，对所述第一初始多语言模型进行调整处理，得到第二初始多语言模型；获取预先采集的训练数据；最后使用所述训练数据对所述第二初始多语言模型进行训练，得到目标多语言模型。本申请还提供一种多语言模型的训练装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，目标多语言模型可存储于区块链中。本申请基于单语言预训练模型的使用有效地降低了目标多语言模型的训练成本，提高了目标多语言模型的训练生成效率。提高了目标多语言模型的训练生成效率。提高了目标多语言模型的训练生成效率。

全部详细技术资料下载

【技术实现步骤摘要】
多语言模型的训练方法、装置、计算机设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及多语言模型的训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]现有的语音识别模型通常只能识别一种语言，若想要识别多种语言，则要同时部署多个模型。这种方式极大增加模型的部署难度，花费很多资源，而且训练过程也比较繁琐。随着技术的发展，使用一个模型识别多种语言成为可能。多语言模型可以极大的方便部署、上线、维护等过程，且模型训练更加方便。现有的多语言模型训练，通常是直接照搬了单语言模型训练方法，直接使用多个语种数据混合进行训练。这种训练方式需要花费较长的训练时间，从而导致模型的训练成本高，模型训练生成的效率较低。

技术实现思路

[0003]本申请实施例的目的在于提出一种多语言模型的训练方法、装置、计算机设备及存储介质，以解决现有的多语言模型训练，通常是直接照搬了单语言模型训练方法，直接使用多个语种数据混合进行训练。这种训练方式需要花费较长的训练时间，从而导致模型的训练成本高，模型训练生成的效率较低的技术问题。
[0004]为了解决上述技术问题，本申请实施例提供一种多语言模型的训练方法，采用了如下所述的技术方案：
[0005]获取预设的单语言预训练模型；
[0006]基于所述单语言预训练模型构建第一初始多语言模型；
[0007]基于所述单语言预训练模型内的第一编码器的第一参数，对所述第一初始多语言模型进行调整处理，得到第二初始多语言模型；
[0008]获取预先采集...

【技术保护点】

【技术特征摘要】
1.一种多语言模型的训练方法，其特征在于，包括下述步骤：获取预设的单语言预训练模型；基于所述单语言预训练模型构建第一初始多语言模型；基于所述单语言预训练模型内的第一编码器的第一参数，对所述第一初始多语言模型进行调整处理，得到第二初始多语言模型；获取预先采集的训练数据；使用所述训练数据对所述第二初始多语言模型进行训练，得到目标多语言模型。2.根据权利要求1所述的多语言模型的训练方法，其特征在于，所述基于所述单语言预训练模型构建第一初始多语言模型的步骤，具体包括：获取所述单语言预训练模型的第一编码器的大小；以及，获取所述第一编码器的层数；构建与所述第一编码器的大小以及所述第一编码器的层数均相同的初始模型；对所述初始模型进行预设的随机初始化处理，得到所述第一初始多语言模型。3.根据权利要求1所述的多语言模型的训练方法，其特征在于，所述基于所述单语言预训练模型内的编码器的第一参数，对所述第一初始多语言模型进行调整处理，得到第二初始多语言模型的步骤，具体包括：获取所述单语言预训练模型的第一模型参数，并从所述第一模型参数中获取所述第一编码器的第一参数；以及，获取所述第一初始多语言模型的第二模型参数，并从所述第二模型参数中获取所述第一初始多语言模型内的第二编码器的第二参数；将所述第一初始多语言模型内的所述第二参数替换为所述第一参数；保持所述第一初始多语言模型内的第一解码器的第三参数不变，得到所述第二初始多语言模型。4.根据权利要求1所述的多语言模型的训练方法，其特征在于，所述使用所述训练数据对所述第二初始多语言模型进行训练，得到目标多语言模型的步骤，具体包括：冻结所述第二初始多语言模型内的第三编码器的第四参数；使用所述训练数据对所述第二初始多语言模型内的第二解码器的第五参数进行训练；在确定使用所述训练数据对所述第五参数进行训练的第一训练任务对应的第一损失函数收敛时，解除对于所述第二初始多语言模型内的所述第四参数的冻结；使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练；在确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时，完成对于所述第二初始多语言模型的训练，并将训练好的第二初始多语言模型作为所述目标多语言模型。5.根据权利要求4所述的多语言模型的训练方法，其特征在于，在所述使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练的步骤之后，还包括...

【专利技术属性】
技术研发人员：冯超峰，魏韬，马骏，王少军，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人