【技术实现步骤摘要】
本专利技术涉及联邦学习,尤其涉及一种基于高效微调和联邦学习的行业大模型训练方法及系统。
技术介绍
1、在大型语言模型(llm)应用中,数据隐私是私有域的关注重点。如医疗领域,因数据敏感,医院难将隐私数据上传云端训练,仅用自家数据训练易导致过拟合,为解决此问题,基于联邦学习对大模型微调成为研究热点。
2、关于微调,高效微调算法通过冻结原始模型权重降低了显存的需求,同时冻结模型权重能够有效保留通用知识,实现处理下游任务时保留泛化能力。虽然高效微调算法在微调阶段降低了可训练参数,但仍需要加载全部权重文件。随着模型参数量的不断增大,百亿规模的大模型仍然会对客户端资源需求构成挑战。为了进一步降低大模型微调过程中对资源的需求,研究者分别提出了量化、蒸馏、剪枝等方法对原始权重进行模型压缩,但模型压缩又导致了模型性能损失问题。
技术实现思路
1、为了解决上述问题,本专利技术提出了一种基于高效微调和联邦学习的行业大模型训练方法及系统,所述方法通过引入具有秩缩放能力的可调低秩矩阵,实现了模型参数的
...【技术保护点】
1.一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,由中心端执行,包括:
2.如权利要求1所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,所述可调低秩矩阵包括依次连接的低秩分解矩阵A、B、C和D;所述低秩分解矩阵A和D为固态低秩矩阵,低秩分解矩阵B和C为动态低秩矩阵;动态低秩矩阵具有缩放功能,基于固态低秩矩阵的秩进行调整实现缩放。
3.如权利要求1所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,所述初始化可调低秩矩阵,具体包括:
4.如权利要求2所述的一种基于高效微调和联邦学习的行业大
...【技术特征摘要】
1.一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,由中心端执行,包括:
2.如权利要求1所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,所述可调低秩矩阵包括依次连接的低秩分解矩阵a、b、c和d;所述低秩分解矩阵a和d为固态低秩矩阵,低秩分解矩阵b和c为动态低秩矩阵;动态低秩矩阵具有缩放功能,基于固态低秩矩阵的秩进行调整实现缩放。
3.如权利要求1所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,所述初始化可调低秩矩阵,具体包括:
4.如权利要求2所述的一种基于高效微调和联邦学习的行业大模型训练方法,其特征在于,所述可调低秩矩阵用于根据客户端资源量进行秩缩放,具体包括:
5.如权利要求1所述的...
【专利技术属性】
技术研发人员:李传涛,刘福来,赵志刚,王春晓,李响,耿丽婷,张俭,
申请(专利权)人:山东省计算中心国家超级计算济南中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。