一种预训练语言模型的训练方法、装置和电子设备制造方法及图纸

技术编号:37641637 阅读:20 留言:0更新日期:2023-05-25 10:08
本发明专利技术公开了一种预训练语言模型的训练方法、装置和电子设备。该方法包括:基于大规模中文数据训练得到第一预训练模型;利用其它语言或特定领域的数据对所述第一预训练模型进行训练,得到第二预训练模型;对所述第二预训练模型进行基于MoE的训练,得到最终的预训练语言模型。本发明专利技术的技术方案降低了预训练模型的训练开销,快速适配新的语言或者领域以及模型增长规模。型增长规模。型增长规模。

【技术实现步骤摘要】
一种预训练语言模型的训练方法、装置和电子设备


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种预训练语言模型的训练方法、装置和电子设备。

技术介绍

[0002]预训练语言模型(例如ELMo、BERT等)的快速发展大幅提升了自然语言处理的整体水平,同时也使得各种应用场景进入到实际阶段。预训练语言模型是神经网络语言模型,可以使用大规模无标注纯文本语料进行训练;并且可以用于各类下游任务,不需要为下游任务专门设计一种神经网络或提供一种结构,直接选择既有的固定框架进行细化,从而得到较好的结果。并且随着模型规模的增大,预训练语言模型的效果会得到进一步提升。然而在模型规模增大的同时,也会带来训练开销的增大。如果训练一个百亿级别的模型,按照传统技术的训练方法,一般需要一个中等规模的超算集群花费数月的时间来训练。因此提高训练效率,减小超大规模预训练模型的训练开销是一个亟待解决的问题。

技术实现思路

[0003]为了解决现有技术中存在的预训练模型的训练开销较大,不能较快地适应新语言、新领域以及模型大规模增长的问题,本专利技术提供了如下技术方案。
[0004]本专利技术一方面提供了一种预训练语言模型的训练方法,包括:
[0005]基于大规模中文数据训练得到第一预训练模型;
[0006]利用其它语言或特定领域的数据对所述第一预训练模型进行训练,得到第二预训练模型;
[0007]对所述第二预训练模型进行基于MoE的训练,得到最终的预训练语言模型。
[0008]优选地,所述基于大规模中文数据训练得到第一预训练模型包括:
[0009]基于所述大规模中文数据,利用字词混合的编码方式构造第一词表;
[0010]利用所述第一词表对预设模型进行训练,得到所述第一预训练模型。
[0011]优选地,所述利用所述第一词表对预设模型进行训练,得到所述第一预训练模型包括:
[0012]利用数据并行和模型并行框架对所述预设模型执行混合精度训练。
[0013]优选地,所述利用其它语言或特定领域的数据对所述第一预训练模型进行训练包括:
[0014]面向所述其它语言或者特定领域构建扩展词表;
[0015]初始化所述扩展词表对应的模型参数;
[0016]将所述扩展词表加入所述第一词表中,得到第二词表;
[0017]利用所述第二词表对所述第一预训练模型进行训练。
[0018]优选地,所述初始化所述扩展词表对应的模型参数包括:
[0019]使用前缀匹配方式,将所述扩展词表和所述第一词表进行对齐,使所述扩展词表
继承所述第一词表的参数,完成所述扩展词表的初始化。
[0020]优选地,所述对所述第二预训练模型进行基于MoE的训练包括:复制多组网络参数作为MoE模型的初始化,每组参数作为一个专家网络,使用局部敏感哈希算法实现专家网络选择器。
[0021]优选地,所述其它语言可以包括英语,所述特定领域可以包括医疗领域。
[0022]本专利技术另一方面提供了一种预训练语言模型的训练装置,包括:
[0023]预训练单元,用于基于大规模中文数据训练得到第一预训练模型;
[0024]泛化训练单元,用于利用其它语言或特定领域的数据对所述第一预训练模型进行训练,得到第二预训练模型;
[0025]MoE训练单元,用于对所述第二预训练模型进行基于MoE的训练,得到最终的预训练语言模型。
[0026]本专利技术第三方面提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如上述第一方面提供的方法。
[0027]本专利技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如上述第一方面提供的方法。
[0028]本专利技术的有益效果是:通过采用分阶段知识继承方法的训练方案,可以有效利用已有模型进行训练,显著降低了预训练语言模型的训练开销,并且模型可以更快地适配新的语言或者特定领域以及模型增长的规模。
附图说明
[0029]图1为本专利技术所述的预训练语言模型的训练方法的流程图。
[0030]图2为本专利技术所述的大规模预训练模型的分阶段训练过程的详细示意图。
[0031]图3为本专利技术所述的预训练语言模型的训练装置的模块图。
具体实施方式
[0032]为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
[0033]本专利技术提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
[0034]处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read

OnlyMemory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。显示屏用于显示各个应用程序的用户界面。
[0035]除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
[0036]针对传统方法存在的不足,本专利技术以减少超大规模预训练模型的训练中的计算开
销为目标,提出了分阶段知识继承技术,有效利用已有模型进行分阶段逐步训练。在各个阶段的衔接处,基于已有模型构建新的参数,保证训练的顺利进行。
[0037]实施例一
[0038]如图1所示,本专利技术实施例提供了一种预训练语言模型的训练方法,包括:
[0039]S101、基于大规模中文数据训练得到第一预训练模型。
[0040]该步骤使用大规模中文数据,从头训练了一个中文预训练语言模型。所述“大规模”通常是指TB量级的数据。
[0041]具体地,该步骤包括:基于所述大规模中文数据,利用字词混合的编码方式构造第一词表;
[0042]利用所述第一词表对预设模型进行训练,得到所述第一预训练模型。
[0043]作为一个示例,参见图2所示的大规模预训练语言模型高效训练的三个阶段。在第一阶段,需要完成基于超大规模、多领域中文数据进行预训练模型的首轮训练:首先,获取到涵盖多个领域的2.3TB的中文清洗数据,利用字词混合的编码方式构造中文词表,能够有效缩短编码长度,提高训练效率。
[0044]然后,利用该词表对预设模型进行训练,得到所述第一预训练模型。在框架实现上,本专利技术的方法采用混合精度训练、梯度累积训练、检查点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练语言模型的训练方法,其特征在于,包括:S101、基于大规模中文数据训练得到第一预训练模型;S102、利用其它语言或特定领域的数据对所述第一预训练模型进行训练,得到第二预训练模型;S103、对所述第二预训练模型进行基于MoE的训练,得到最终的预训练语言模型。2.根据权利要求1所述的方法,其特征在于,所述基于大规模中文数据训练得到第一预训练模型包括:基于所述大规模中文数据,利用字词混合的编码方式构造第一词表;利用所述第一词表对预设模型进行训练,得到所述第一预训练模型。3.根据权利要求2所述的方法,其特征在于,所述利用所述第一词表对预设模型进行训练,得到所述第一预训练模型包括:利用数据并行和模型并行框架对所述预设模型执行混合精度训练。4.根据权利要求2所述的方法,其特征在于,所述利用其它语言或特定领域的数据对所述第一预训练模型进行训练,包括:面向所述其它语言或者特定领域构建扩展词表;初始化所述扩展词表对应的模型参数;将所述扩展词表加入所述第一词表中,得到第二词表;利用所述第二词表对所述第一预训练模型进行训练。5.根据权利要求4所述的方法,其特征在于,所述初始化所述扩展词表对应的模型参数,包括:使用前缀匹配方式将所述扩展词表和所述第一词表...

【专利技术属性】
技术研发人员:刘知远张正彦韩旭顾煜贤黄民烈孙茂松
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1