针对异构GPU显卡的大语言模型分布式流水并行微调方法技术

技术编号：43071990 阅读：31 留言：0更新日期：2024-10-22 14:47

本发明专利技术属于自然语言处理技术领域，公开了一种针对异构GPU显卡的大语言模型分布式流水并行微调方法，基于多任务微调系统同时对多个LoRA模型实现微调；每个LoRA模型切分为多个部分，分布在相应数量的GPU上，并对GPU进行排序；依据用户请求，通过任务配置模块生成多个任务，并将每个任务划分为若干训练批次；按照每个任务的训练批次顺序，通过任务动态调度器结合动态调度策略生成调度方案；按照GPU正序，将调度方案发送给相应GPU上的多任务训练模块，对所有LoRA模型进行训练。本发明专利技术采用精细的模型切分和分配策略、流水线优化路径和任务负载平衡策略，能够更有效地利用多机多卡环境的计算资源，提高微调过程的整体效率，减少资源的浪费。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理，涉及大语言模型微调方法，尤其涉及针对异构gpu显卡的大语言模型分布式流水并行微调方法。

技术介绍

1、在自然语言处理领域，大语言模型(llm)的微调是一项关键任务，旨在将预训练的通用模型适应到特定任务或领域。传统的全量微调方法在微调过程中更新所有模型参数，但由于llm模型的巨大参数量和微调任务的特殊性，这种方法显得笨重且计算资源密集。因此，针对微调过程中的gpu内存和计算优化问题，特别是针对参数高效的微调技术的挑战，成为当前研究的焦点。

2、现有的微调方法，如lora技术，提供了一种参数高效的微调方式，通过仅调整部分参数来实现模型的专业化和领域化，从而在保持微调效果的同时降低了计算资源的需求。然而，面对多任务微调时，特别是在大规模llm模型上，仍然存在一系列挑战，包括如何有效地分配和利用计算资源，以及如何通过动态任务调度和分布式计算优化算法提高整体训练和微调过程的效率。

3、目前已有一些关于llm微调优化的研究，如s-lora等系统。s-lora是一个致力于优化llm服务场景下效率的系...

【技术保护点】

1.一种针对异构GPU显卡的大语言模型分布式流水并行微调方法，其特征在于，基于多任务微调系统同时对多个LoRA模型实现微调；每个LoRA模型切分为多个部分，分布在相应数量的GPU上，并对GPU进行排序；所述多任务微调系统包括任务配置模块、分析器、任务动态调度器和分布在多个GPU上的多任务训练模块；每个多任务训练模块用于实现对LoRA模型的相应部分微调；

2.根据权利要求1所述的针对异构GPU显卡的大语言模型分布式流水并行微调方法，其特征在于，步骤S3中，所述任务动态调度器对各批次中的任务长度进行排序，将同批次中任务长度相同或相近的任务来完成调度方案中任务符号填充。

...

【技术特征摘要】

1.一种针对异构gpu显卡的大语言模型分布式流水并行微调方法，其特征在于，基于多任务微调系统同时对多个lora模型实现微调；每个lora模型切分为多个部分，分布在相应数量的gpu上，并对gpu进行排序；所述多任务微调系统包括任务配置模块、分析器、任务动态调度器和分布在多个gpu上的多任务训练模块；每个多任务训练模块用于实现对lora模型的相应部分微调；

2.根据权利要求1所述的针对异构gpu显卡的大语言模型分布式流水并行微调方法，其特征在于，步骤s3中，所述任务动态调度器对各批次中的任务长度进行排序，将同批次中任务长度相同或相近的任务来完成调度方案中任务符号填充。

3.根据权利要求1或2所述的针对异构gpu显卡的大语言模型分布式流水并行微调方法，其特征在于，所述动态调度策略包括：

4.根据权利要求1所述的针对异构gpu显卡的大语言模型分布式流水并行微调方法，其特征在于，步...

【专利技术属性】
技术研发人员：张士聪，唐明洁，田景绮，叶正茂，李登淳，胡泽涛，段磊，左劼，顾晨辉，
申请(专利权)人：浙江省新型互联网交换中心有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人