高效联邦大模型调节方法、系统及相关设备技术方案

技术编号:39405072 阅读:9 留言:0更新日期:2023-11-19 15:57
本申请实施例公开了一种高效联邦大模型调节方法、系统及相关设备,应用于多方计算系统,多方计算系统包括:服务端和N个客户端,N为正整数;方法包括:每一客户端向服务端上传各自的预设大模型的大模型脚本,配置相关的模型训练超参数以及数据资源;初始化本地模型的本地模型参数;利用本地数据训练各自的本地模型;将各自的微调模块的B参数加入DP噪声,再将加入DP噪声后的微调模块上传到服务端;服务端将各个客户端上传的模型参数进行安全聚合操作,得到全局参数,将全局参数下发给N个客户端中的每一客户端;每一客户端利用全局参数更新各自的本地模型的模型参数。采用本申请实施例可以提升大模型的训练效率。可以提升大模型的训练效率。可以提升大模型的训练效率。

【技术实现步骤摘要】
高效联邦大模型调节方法、系统及相关设备


[0001]本申请涉及隐私计算
以及计算机
,具体涉及一种高效联邦大模型调节方法、系统及相关设备。

技术介绍

[0002]随着聊天生成预训练转换器(chat generative pre

trained transformer,ChatGPT)的出现,预示着人工智能也正在从感知理解走向生成创造,但是对于智能生成,只有认为它是积极的并且风险是可控的时候,才能开发出更强大的人工智能系统。目前公共领域中的高质量数据是有限的,大模型需要数量更多、质量更好的人工标注数据来提高模型的性能。如何合法的利用手机、物联网上的私有数据将是解决大模型训练数据不足问题的关键。数据隐私之忧已经成为全行业的共识。集中式训练需要把所有的数据上传在一起,存在用户数据泄漏的风险。联邦学习中需要传递模型的参数或梯度,这些数据可能被攻击从而泄漏数据。而除了数据隐私的忧虑之外,由于大模型通常需要消耗大量的算力和数据,而且只有少数大公司拥有足够的资源来训练大模型。因此,如何提升大模型的训练效率的问题亟待解决。

技术实现思路

[0003]本申请实施例提供了一种高效联邦大模型调节方法、系统及相关设备,可以提升大模型的训练效率。
[0004]第一方面,本申请实施例提供一种高效联邦大模型调节方法,应用于多方计算系统,所述多方计算系统包括:服务端和N个客户端,N为正整数;所述方法包括:
[0005]通过所述N个客户端中每一客户端向所述服务端上传各自的预设大模型的大模型脚本,配置相关的模型训练超参数以及数据资源;
[0006]通过所述N个客户端中的每一客户端初始化本地模型的本地模型参数;
[0007]通过所述N个客户端中的每一客户端利用本地数据训练各自的本地模型;
[0008]通过所述N个客户端中的每一客户端将各自的微调模块的B参数加入DP噪声,再将加入DP噪声后的微调模块上传到所述服务端;
[0009]通过所述服务端将各个客户端上传的模型参数进行安全聚合操作,得到全局参数,将所述全局参数下发给所述N个客户端中的每一客户端;
[0010]通过所述N个客户端中的每一客户端利用所述全局参数更新各自的本地模型的模型参数。
[0011]第二方面,本申请实施例提供了一种多方计算系统,所述多方计算系统包括:服务端和N个客户端,N为正整数,其中,
[0012]所述N个客户端中每一客户端,用于向所述服务端上传各自的预设大模型的大模型脚本,配置相关的模型训练超参数以及数据资源;
[0013]所述N个客户端中的每一客户端,用于初始化本地模型的本地模型参数;
[0014]所述N个客户端中的每一客户端,用于利用本地数据训练各自的本地模型;
[0015]所述N个客户端中的每一客户端,用于将各自的微调模块的B参数加入DP噪声,再将加入DP噪声后的微调模块上传到所述服务端;
[0016]所述服务端,用于将各个客户端上传的模型参数进行安全聚合操作,得到全局参数,将所述全局参数下发给所述N个客户端中的每一客户端;
[0017]所述N个客户端中的每一客户端,用于利用所述全局参数更新各自的本地模型的模型参数。
[0018]第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。
[0019]第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
[0020]第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
[0021]实施本申请实施例,具备如下有益效果:
[0022]可以看出,本申请实施例中所描述的高效联邦大模型调节方法、系统及相关设备,应用于多方计算系统,所述多方计算系统包括:服务端和N个客户端,N为正整数,通过N个客户端中每一客户端向服务端上传各自的预设大模型的大模型脚本,配置相关的模型训练超参数以及数据资源,通过N个客户端中的每一客户端初始化本地模型的本地模型参数,通过N个客户端中的每一客户端利用本地数据训练各自的本地模型,通过N个客户端中的每一客户端将各自的微调模块的B参数加入DP噪声,再将加入DP噪声后的微调模块上传到服务端,通过服务端将各个客户端上传的模型参数进行安全聚合操作,得到全局参数,将全局参数下发给N个客户端中的每一客户端,通过N个客户端中的每一客户端利用全局参数更新各自的本地模型的模型参数,如此,在不损失联邦学习模型精度和安全性的前提下,可以在联邦学习中使用私域数据训练,提高模型的性能,预训练模型参数(即预设大模型的模型参数)不更新,降低对显存的需求,上传、聚合微调部分的参数,降低通信开销,使用全局参数限制本地模型更新,防止出现模型偏离,进而,能够提升大模型训练效率。
附图说明
[0023]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本申请实施例提供的一种用于实现高效联邦大模型调节方法的多方计算系统的架构示意图;
[0025]图2是本申请实施例提供的一种高效联邦大模型调节方法的流程示意图;
[0026]图3是本申请实施例提供的另一种高效联邦大模型调节方法的流程示意图;
[0027]图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0028]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0030]在本文中提及“实施例”意味着,结合实施例描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高效联邦大模型调节方法,其特征在于,应用于多方计算系统,所述多方计算系统包括:服务端和N个客户端,N为正整数;所述方法包括:通过所述N个客户端中每一客户端向所述服务端上传各自的预设大模型的大模型脚本,配置相关的模型训练超参数以及数据资源;通过所述N个客户端中的每一客户端初始化本地模型的本地模型参数;通过所述N个客户端中的每一客户端利用本地数据训练各自的本地模型;通过所述N个客户端中的每一客户端将各自的微调模块的B参数加入DP噪声,再将加入DP噪声后的微调模块上传到所述服务端;通过所述服务端将各个客户端上传的模型参数进行安全聚合操作,得到全局参数,将所述全局参数下发给所述N个客户端中的每一客户端;通过所述N个客户端中的每一客户端利用所述全局参数更新各自的本地模型的模型参数。2.根据权利要求1所述的方法,其特征在于,在所述通过所述N个客户端中的每一客户端初始化本地模型的本地模型参数方面,包括:通过所述N个客户端中的每一客户端使用Zero初始化方法初始化各自的本地模型的本地模型参数。3.根据权利要求2所述的方法,其特征在于,所述通过所述N个客户端中的每一客户端使用Zero初始化方法初始化各自的本地模型的本地模型参数,包括:通过所述N个客户端中的每一客户端对各自的微调模块的A参数执行预设初始化方法;对B参数执行所述Zero初始化方法,所述预设初始化方法为均值为0方差为1的初始化方法。4.根据权利要求1

3任一项所述的方法,其特征在于,所述通过所述N个客户端中的每一客户端利用本地数据训练各自的本地模型,包括:通过客户端i利用本地数据训练本地模型达到设定次数,所述客户端i为所述N个客户端中的任一客户端;在本地损失优化函数的基础上加入t轮关于全局模型正则项,得到所述客户端i的本地优化损失函数,t为正整数。5.根据权利要求4所述的方法,其特征在于,所述在本地损失优化函数的基础上加入t轮关于全局模型正则项,得到所述客户端i的本地优化损失函数,包括:通过所述客户端i按照如下公式确定所述客户端i的本地优化损失函数:y

=weight*X+BA*X其中,weight是所述预设大模型的权重参数;B...

【专利技术属性】
技术研发人员:李振飞黄一珉王湾湾何浩姚明
申请(专利权)人:深圳市洞见智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1