一种大模型联邦学习方法、装置、存储介质及电子设备制造方法及图纸

技术编号:41128506 阅读:17 留言:0更新日期:2024-04-30 17:57
本说明书公开了一种大模型联邦学习方法、装置、存储介质及电子设备。在本说明书提供的大模型联邦学习方法中,针对每个参与联邦学习的客户端,接收该客户端在训练该客户端的目标大模型后发送的增量参数,该客户端的模型参数由原始参数和增量参数构成,增量参数的量级小于原始参数的量级,在训练目标大模型时,原始参数不变,增量参数改变;采用各客户端的增量参数对该客户端的增量参数进行聚合,得到该客户端的聚合参数;将聚合参数返回给该客户端,使该客户端根据聚合参数更新该客户端的增量参数,根据原始参数和更新后的增量参数重新确定模型参数,并采用重新确定的模型参数重新对目标大模型进行训练,直到目标大模型收敛。

【技术实现步骤摘要】

本说明书涉及计算机,尤其涉及一种大模型联邦学习方法、装置、存储介质及电子设备


技术介绍

1、联邦学习是一种常用的分布式机器学习方法,其能够使各参与方在不泄露原始数据的情况下,通过安全的机制交互模型参数,从而达到协同训练的效果。这种方法能有效帮助多个机构在保护私有数据的情况下进行神经网络模型的协同训练。

2、随着人工智能技术的不断发展,基于人工智能构建的大模型在各领域中的应用越来越广泛,例如大语言模型(large language model,llm)等生成式模型。由于大模型的参数量级非常庞大,通常在十亿以上,导致在联邦学习中频繁的模型参数交换过程会十分冗长且复杂,产生大量的成本。

3、因此,如何更加简单高效地实现大模型的联邦学习是一个亟待解决的问题。


技术实现思路

1、本说明书提供一种大模型联邦学习方法、装置、存储介质及电子设备,以至少部分地解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种大模型联邦学习方法,所述方法应用于服本文档来自技高网...

【技术保护点】

1.一种大模型联邦学习方法,所述方法应用于服务端,所述方法包括:

2.如权利要求1所述的方法,采用各客户端增量参数对该客户端的增量参数进行聚合,得到该客户端的聚合参数,具体包括:

3.如权利要求2所述的方法,确定该客户端的增量参数与每个客户端的增量参数之间的聚合权重,具体包括:

4.一种大模型联邦学习方法,所述方法应用于客户端,所述方法包括:

5.如权利要求4所述的方法,调整所述目标大模型的增量参数,具体包括:

6.一种大模型联邦学习装置,包括:

7.如权利要求6所示的装置,所述聚合模块,具体用于确定该客户端的增量参...

【技术特征摘要】

1.一种大模型联邦学习方法,所述方法应用于服务端,所述方法包括:

2.如权利要求1所述的方法,采用各客户端增量参数对该客户端的增量参数进行聚合,得到该客户端的聚合参数,具体包括:

3.如权利要求2所述的方法,确定该客户端的增量参数与每个客户端的增量参数之间的聚合权重,具体包括:

4.一种大模型联邦学习方法,所述方法应用于客户端,所述方法包括:

5.如权利要求4所述的方法,调整所述目标大模型的增量参数,具体包括:

6.一种大模型联邦学习装置,包括:

7.如权利要求6所示的装置,所述聚合模块,具体用于确定该客户端的增量参数与每个客户端的增量参数之间的聚合权重;根据所述聚合权重,采用各客户端的增量参数对该客户端的增量参数进行聚合,得到该客户端的聚合参数。

8.如权利要求7所示的装置,所述聚合模块,具体用于确定各客户端在训练...

【专利技术属性】
技术研发人员:吴若凡刘腾飞张天翼王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1