System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及网络,尤其涉及一种基于改进zero-offload技术的大模型训练方法。
技术介绍
1、随着深度学习的发展,大模型训练已成为研究热点。然而,在大模型训练过程中,由于模型参数数量庞大,传统的内存管理方法常常面临显存不足导致oom(out of memory,内存溢出)的问题。因此,如何优化内存使用和提高计算效率成为大模型训练的关键挑战。
2、因此,急需一种针对性的基于改进zero-offload技术的大模型训练方法。
技术实现思路
1、本专利技术的目的是为了解决上述问题,提供一种基于改进zero-offload技术的大模型训练方法。
2、第一方面,本申请提供一种基于改进zero-offload技术的大模型训练方法,所述方法包括:
3、步骤1,准备训练数据和模型参数;
4、步骤2,使用zero技术对模型参数进行处理,该处理包括:根据模型参数得到参数集合,将其中连续的非零参数分割成单独的参数子集,并将对应的连续非零参数的个数作为表征该参数子集的权值,将该权值与所述参数子集组合,得到处理后的若干参数子集,并通过量化、哈夫曼编码减少参数冗余;
5、步骤3,利用offload技术将计算任务分配给可扩展的计算资源,其中包括:将计算任务进行分片,将所述分片从主内存卸载,分配给可扩展的计算资源,在主内存中将所述分片的计算结果合并;
6、步骤4,将计算密集型任务,其包括前向传播、反向传播,迁移到gpu进行计算;
< ...【技术保护点】
1.一种基于改进ZeRO-Offload技术的大模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于:所述动态显存分配策略是指,根据当前显存使用情况和任务需求,动态调整模型参数的存储方式和计算任务的分配。
3.根据权利要求2所述的方法,其特征在于:所述重复步骤4和5直到训练完成的过程,包括:所有的计算密集型任务迁移完毕,以及所有的计算任务执行完毕,则训练完成。
4.根据权利要求3所述的方法,其特征在于:在所述根据动态显存分配策略动态调整之前,包括:确定场景类型,对应得到规则,生成不同的动态显存分配策略。
5.一种基于改进ZeRO-Offload技术的大模型训练系统,其特征在于,所述系统包括:
6.一种基于改进ZeRO-Offload技术的大模型训练系统,其特征在于,所述系统包括处理器以及存储器:
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于处理器执行实现权利要求1-4任一项所述的方法。
【技术特征摘要】
1.一种基于改进zero-offload技术的大模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于:所述动态显存分配策略是指,根据当前显存使用情况和任务需求,动态调整模型参数的存储方式和计算任务的分配。
3.根据权利要求2所述的方法,其特征在于:所述重复步骤4和5直到训练完成的过程,包括:所有的计算密集型任务迁移完毕,以及所有的计算任务执行完毕,则训练完成。
4.根据权利要求3所述的方法,其特征在于:在所...
【专利技术属性】
技术研发人员:洪万福,钱智毅,朱成忠,徐佳吉,张宏伟,
申请(专利权)人:厦门渊亭信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。