基于高效微调和联邦学习的行业大模型训练方法及系统技术方案

技术编号:43417383 阅读:38 留言:0更新日期:2024-11-22 17:52
本发明专利技术提出一种基于高效微调和联邦学习的行业大模型训练方法及系统,涉及联邦学习领域。该方法由中心端执行,包括:获取原始全局模型,初始化可调低秩矩阵;所述可调低秩矩阵用于根据客户端资源量进行秩缩放;将模型结构和可调低秩矩阵发送给各客户端,以使各客户端基于本地数据对可调低秩矩阵进行微调训练,得到更新的可调低秩矩阵,并发送至中心端;将更新的可调低秩矩阵进行聚合,更新原始全局模型的权重文件,得到优化的全局模型。本发明专利技术客户端在微调训练时对预训练权重进行量化,并对具有秩缩放功能的可调低秩矩阵进行微调训练,以提取客户端本地数据有效特征,实现了模型参数的灵活调整与资源的高效利用。

【技术实现步骤摘要】

本专利技术涉及联邦学习,尤其涉及一种基于高效微调和联邦学习的行业大模型训练方法及系统


技术介绍

1、在大型语言模型(llm)应用中,数据隐私是私有域的关注重点。如医疗领域,因数据敏感,医院难将隐私数据上传云端训练,仅用自家数据训练易导致过拟合,为解决此问题,基于联邦学习对大模型微调成为研究热点。

2、关于微调,高效微调算法通过冻结原始模型权重降低了显存的需求,同时冻结模型权重能够有效保留通用知识,实现处理下游任务时保留泛化能力。虽然高效微调算法在微调阶段降低了可训练参数,但仍需要加载全部权重文件。随着模型参数量的不断增大,百亿规模的大模型仍然会对客户端资源需求构成挑战。为了进一步降低大模型微调过程中对资源的需求,研究者分别提出了量化、蒸馏、剪枝等方法对原始权重进行模型压缩,但模型压缩又导致了模型性能损失问题。


技术实现思路

1、为了解决上述问题,本专利技术提出了一种基于高效微调和联邦学习的行业大模型训练方法及系统,所述方法通过引入具有秩缩放能力的可调低秩矩阵,实现了模型参数的灵活调整与资源高效利本文档来自技高网...

【技术保护点】

1.一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,由中心端执行,包括:

2.如权利要求1所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,所述可调低秩矩阵包括依次连接的低秩分解矩阵A、B、C和D;所述低秩分解矩阵A和D为固态低秩矩阵,低秩分解矩阵B和C为动态低秩矩阵;动态低秩矩阵具有缩放功能,基于固态低秩矩阵的秩进行调整实现缩放。

3.如权利要求1所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,所述初始化可调低秩矩阵,具体包括:

4.如权利要求2所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征...

【技术特征摘要】

1.一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,由中心端执行,包括:

2.如权利要求1所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,所述可调低秩矩阵包括依次连接的低秩分解矩阵a、b、c和d;所述低秩分解矩阵a和d为固态低秩矩阵,低秩分解矩阵b和c为动态低秩矩阵;动态低秩矩阵具有缩放功能,基于固态低秩矩阵的秩进行调整实现缩放。

3.如权利要求1所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,所述初始化可调低秩矩阵,具体包括:

4.如权利要求2所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,所述可调低秩矩阵用于根据客户端资源量进行秩缩放,具体包括:

5.如权利要求1所述的...

【专利技术属性】
技术研发人员:李传涛刘福来赵志刚王春晓李响耿丽婷张俭
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1