模型训练方法、装置、设备和计算机存储介质制造方法及图纸

技术编号:30096031 阅读:32 留言:0更新日期:2021-09-18 08:59
本公开公开了一种模型训练方法、装置、设备和计算机存储介质,涉及人工智能技术领域下的深度学习和自然语言处理技术。具体实现方案为:获取已训练得到的第一模型;利用所述第一模型的参数对第二模型的参数进行初始化;利用预设的训练目标,对所述第二模型进行训练以迭代更新所述第二模型的参数;其中,所述第二模型的规模大于所述第一模型,且所述第一模型和第二模型的类型相同。通过本公开能够提高模型训练的效率,降低成本。降低成本。降低成本。

【技术实现步骤摘要】
模型训练方法、装置、设备和计算机存储介质


[0001]本公开涉及计算机应用
,尤其涉及人工智能
下的深度学习和自然语言处理技术。

技术介绍

[0002]近年来随着深度学习和自然语言处理技术的不断发展,基于大规模语料的预训练模型+下游任务微调的模式逐渐成为经典的框架。预训练模型效果的提升往往伴随着数据量和模型参数规模的飞速膨胀,从开始的亿级别逐渐扩展到千亿级别,甚至仍会继续膨胀。
[0003]从零开始训练一个大规模的预训练模型的代价是巨大的,这对时间和算力成本都带来了严峻的挑战。因此,如何能够高效率、低成本的进行模型训练成为亟待解决的问题。

技术实现思路

[0004]有鉴于此,本公开提供了一种模型训练方法、装置、设备和计算机存储介质,以便于提高模型训练的效率,降低成本。
[0005]根据本公开的第一方面,提供了一种模型训练方法,包括:
[0006]获取已训练得到的第一模型;
[0007]利用所述第一模型的参数对第二模型的参数进行初始化;
[0008]利用预设的训练目标,对所述第二本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,包括:获取已训练得到的第一模型;利用所述第一模型的参数对第二模型的参数进行初始化;利用预设的训练目标,对所述第二模型进行训练以迭代更新所述第二模型的参数;其中,所述第二模型的规模大于所述第一模型,且所述第一模型和第二模型的类型相同。2.根据权利要求1所述的方法,其中,利用所述第一模型的参数对第二模型的参数进行初始化包括:将所述第一模型的参数值作为所述第二模型的第一部分参数的初始值;对所述第二模型剩余的第二部分参数按照预设的策略进行填充。3.根据权利要求2所述的方法,其中,将所述第一模型的参数值作为所述第二模型的第一部分参数的初始值包括:从第二模型的最低网络层和最低维度开始,依次对应填充第一模型的参数值;或者,将第一模型中的参数按照相同网络层类型的对应关系填充至第二模型中的对应参数位置。4.根据权利要求2所述的方法,其中,对所述第二模型剩余的第二部分参数按照预设的策略进行填充包括以下方式中的至少一种:方式一、对所述第二部分参数采用随机数进行填充;方式二、将所述第一部分参数的初始值复制至第二部分参数中相同层级其他维度的位置,将所述第二部分参数中剩余的位置填充为零;方式三、将所述第一部分参数的初始值复制至第二部分参数中相同维度其他层级的位置,将所述第二部分参数中剩余的位置采用随机数进行填充;方式四、将所述第一部分参数的初始值复制至第二部分参数中相同维度其他层级的位置后,将所述第二模型中已具备初始值的参数对应复制至所述第二部分参数中相同层级的剩余位置并对该剩余位置的参数值添加随机噪声。5.根据权利要求4所述的方法,其中,若所述第二模型的参数维度不是所述第一模型的整数倍,则采用所述方式一、方式三或方式四;若所述第二模型的期望训练时间小于或等于预设时间阈值,则采用所述方式二。6.根据权利要求1至5中任一项所述的方法,其中,所述第一模型和第二模型均为预训练语言模型。7.一种模型训练装置,包括:模型获取单元,用于获取已训练得到的第一模型;初始化单元,用于利用所述第一模型的参数对第二模型的参数进行初始化;模型训练单元,用于利用预设的训练目标,对所述第二模型进行训练以迭代更新所述第二模型的参数;其中,所述第二模型的规模大于所述第一模型,且所述第一模型和第二模型的类型相...

【专利技术属性】
技术研发人员:赵晏彬丁思宇王硕寰刘占一孙宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1