【技术实现步骤摘要】
本申请涉及计算机,特别涉及一种备份方法和电子设备。
技术介绍
1、随着深度学习的不断发展,神经网络模型正朝着更大参数量的方向优化。大规模预训练语言模型已经成为自然语言处理的新范式。诸如gpt-3等拥有数千亿参数的语言模型在自然语言的理解和生成上表现出了强大的性能,它们已被证明在各种自然语言任务中使用几率学习取得了显著的性能。
2、大模型的训练难以在单卡内实现,因此分布式训练是大模型训练系统的核心,随着模型规模的扩大,各深度学习框架开始加入分布式训练的功能。在大模型训练系统进行分布式训练的过程中,存在训练出错导致训练过程中断的情况。为了避免训练过程中断时不需要重头进行训练,通常会在训练过程中对训练中间数据进行备份。
3、但现有的备份技术方案,其针对分布式训练模型的备份效率有限,不仅浪费集群的计算资源,并且给集群整体的任务调度带来管理成本。因此,需要一种针对分布式训练的训练中间数据备份方法。
技术实现思路
1、针对如何针对分布式训练模型进行训练中间数据备份的问题,本申请
...【技术保护点】
1.一种备份方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述邻居节点备份,还包括:
3.根据权利要求1所述的方法,其特征在于,所述在分布式模型训练过程中进行模型参数的备份保存,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括,将所述模型参数切分为多个模型参数块,为所述节点设备分配所述模型参数块;
5.根据权利要求1所述的方法,其特征在于,所述在分布式模型训练过程中进行模型参数的备份保存,包括,在所述分布式模型训练的前向计算与反向计算间的时间空洞内,执行所述单机备份和/或所述
...【技术特征摘要】
1.一种备份方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述邻居节点备份,还包括:
3.根据权利要求1所述的方法,其特征在于,所述在分布式模型训练过程中进行模型参数的备份保存,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括,将所述模型参数切分为多个模型参数块,为所述节点设备分配所述模型参数块;
5.根据权利要求1所述的方法,其特征在于,所述在分布式模型训练过程中进行模型参数的备份保存,包括,在所述分布式模型训练的前向计算与反向计算间的时间空洞内,执行所述单机备份和/或所述邻居节点备份。
6.根据权利要求5所述的方法,其特征在于,所述执行所述单机备份和/或所述邻居节点备份之前,所述方法还包括,将所述节点设备的模型参数备...
【专利技术属性】
技术研发人员:冷静文,过敏意,张锐,胡崝,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。