【技术实现步骤摘要】
一种预训练语言模型的训练方法、装置和电子设备
[0001]本专利技术涉及自然语言处理领域,尤其涉及一种预训练语言模型的训练方法、装置和电子设备。
技术介绍
[0002]预训练语言模型(例如ELMo、BERT等)的快速发展大幅提升了自然语言处理的整体水平,同时也使得各种应用场景进入到实际阶段。预训练语言模型是神经网络语言模型,可以使用大规模无标注纯文本语料进行训练;并且可以用于各类下游任务,不需要为下游任务专门设计一种神经网络或提供一种结构,直接选择既有的固定框架进行细化,从而得到较好的结果。并且随着模型规模的增大,预训练语言模型的效果会得到进一步提升。然而在模型规模增大的同时,也会带来训练开销的增大。如果训练一个百亿级别的模型,按照传统技术的训练方法,一般需要一个中等规模的超算集群花费数月的时间来训练。因此提高训练效率,减小超大规模预训练模型的训练开销是一个亟待解决的问题。
技术实现思路
[0003]为了解决现有技术中存在的预训练模型的训练开销较大,不能较快地适应新语言、新领域以及模型大规模增长的问题,本专利 ...
【技术保护点】
【技术特征摘要】
1.一种预训练语言模型的训练方法,其特征在于,包括:S101、基于大规模中文数据训练得到第一预训练模型;S102、利用其它语言或特定领域的数据对所述第一预训练模型进行训练,得到第二预训练模型;S103、对所述第二预训练模型进行基于MoE的训练,得到最终的预训练语言模型。2.根据权利要求1所述的方法,其特征在于,所述基于大规模中文数据训练得到第一预训练模型包括:基于所述大规模中文数据,利用字词混合的编码方式构造第一词表;利用所述第一词表对预设模型进行训练,得到所述第一预训练模型。3.根据权利要求2所述的方法,其特征在于,所述利用所述第一词表对预设模型进行训练,得到所述第一预训练模型包括:利用数据并行和模型并行框架对所述预设模型执行混合精度训练。4.根据权利要求2所述的方法,其特征在于,所述利用其它语言或特定领域的数据对所述第一预训练模型进行训练,包括:面向所述其它语言或者特定领域构建扩展词表;初始化所述扩展词表对应的模型参数;将所述扩展词表加入所述第一词表中,得到第二词表;利用所述第二词表对所述第一预训练模型进行训练。5.根据权利要求4所述的方法,其特征在于,所述初始化所述扩展词表对应的模型参数,包括:使用前缀匹配方式将所述扩展词表和所述第一词表...
【专利技术属性】
技术研发人员:刘知远,张正彦,韩旭,顾煜贤,黄民烈,孙茂松,
申请(专利权)人:北京智源人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。