一种使用综合技术降低多机多卡训练和微调大语言模型成本的方法技术

技术编号:38751546 阅读:26 留言:0更新日期:2023-09-09 11:18
本发明专利技术提出一种使用综合技术降低多机多卡训练和微调大语言模型成本的方法。通过采用零冗余优化、优化器卸载、模型分布式加载、数据Auto

【技术实现步骤摘要】
一种使用综合技术降低多机多卡训练和微调大语言模型成本的方法


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种使用综合技术降低多机多卡训练和微调大语言模型成本的方法。

技术介绍

[0002]在深度学习中,大型模型的训练和微调通常需要大量的显存。然而,传统的显存管理方法在处理超大规模模型时面临困难,因为显存需求超过了设备的可用容量。这导致了训练过程中的内存溢出错误,限制了模型规模和性能的进一步提升。

技术实现思路

[0003]本专利技术提出一种使用综合技术降低多机多卡训练和微调大语言模型成本的方法。
[0004]在分布式计算环境中,选择一台作为主设备,其他设备作为从设备。
[0005]将待加载的大型深度学习模型划分为多个逻辑上相互独立的子模型。划分可以根据模型结构、层级或其他合适的划分标准进行。每个子模型包含一部分模型参数和计算图结构。
[0006]将待处理的大规模数据集划分为多个较小的数据块,确保每个数据块的大小适合当前显存容量。
[0007]将模型的参数切片为多个部分,并将每个部分分配到不本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种低成本训练和微调大语言模型的方法,其特征在于:对于在分布式计算环境中,将大型深度学习模型划分为多个独立的子模型,划分为适合显存容量的小数据块;将模型参数切片并分配到不同的GPU上,使用Auto

Parallelism技术并行加载数据块到显存并进行计算;在每个GPU上计算梯度并在主GPU上聚合,通过通信框架传输反向传播结果和模型更新到计算设备;动态管理显存资源的分配和释放,根据需求及时释放计算完成的数据块的显存资源。2.根据权利要求1所述的一种低成本训练和微调大语言模型的方法,其特征在于: 在分布式计算环境中,将大型深度学习模型划分为多个独立的子模型,划分为适合显存容量的小数据块;在分布式计算环境中,选择一台作为主设备,其他设备作为从设备;将待加载的大型深度学习模型划分为多个逻辑上相互独立的子模型。划分可以根据模型结构、层级或其他合适的划分标准进行。每个子模型包含一部分模型参数和计算图结构;将待处理的大规模数据集划分为多个较小的数据块,确保每个数据块的大小适合当前显存容量。3.根据权利要求1所述的一种低成本训练和微调大语言模型的方法,其特征在于:将模型参数切片并分配到不同的GPU上,使用Auto

Parallelism技术并行加载数据块到显存并进行计算;将模型的参数切片为多个部分,并将每个部分分配到不同的GPU上;将模型参数状态存储在每个GPU上,优化器状态只存储在其中一个GPU上;主设备负责加载子模型的第一个块到显存中,并将加载请求广播给其他从设备;从设备接收到加载请求后,从主设备获取相应的子模型块,并将其加载到显存中;当一个子模型块加载完成后,主设备将...

【专利技术属性】
技术研发人员:龙彦蓁段韶华
申请(专利权)人:云南省昆明世显人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1