一种支持数据快速撤销的联邦学习方法及系统技术方案

技术编号:39602134 阅读:14 留言:0更新日期:2023-12-03 20:02
本发明专利技术涉及一种支持数据快速撤销的联邦学习方法,包括,将联邦学习的多个设备参与方随机均匀的划分为多个小组;每个小组协同共享本地训练形成的本地模型至中央服务器,并聚合形成对应的层级全局模型;当中央服务器获取到查询数据时,运行所有层级全局模型得到每个层级模型对应的预测结果,再通过聚合方法聚合所有预测结果;当数据遗忘时,确定设备参与方的所属小组,定义为小组

【技术实现步骤摘要】
一种支持数据快速撤销的联邦学习方法及系统


[0001]本专利技术涉及隐私计算
,尤其涉及一种支持数据快速撤销的联邦学习方法及系统


技术介绍

[0002]联邦学习是实现数据安全流通的关键技术之一

联邦学习是一种机器学习方法,允许多个参与方在保持数据分散和私密的同时共同训练一个共享模型

它解决了在数据由于隐私问题

法律限制或大数据量而无法传输到中央服务器的情况下数据安全需求

[0003]数据遗忘权或数据删除权是数据隐私的重要方面,允许个人要求在线平台或搜索引擎删除或清除其个人信息,它赋予个人对其个人数据以及其在互联网上的可用性的控制权

机器学习领域的数据遗忘权,允许个人有权控制在机器学习过程中对其个人数据的保留和使用,确保其隐私得到尊重

数据遗忘也有助于提升机器学习模型的可用性和减少机器学习偏见,机器学习模型在历史数据上训练时可能继承数据中存在的偏见和歧视模式

如果个人拥有被遗忘权,他们可以请求将其数据从训练集中删除,从而降低在模型的预测和决策中持续偏见和歧视的风险

[0004]法律法规要求机器学习领域执行数据遗忘时,需从模型完全删除遗忘数据或重新训练机器学习模型

然而,重新训练模型将消耗大量的计算开销

考虑这样一种场景,多个参与方以联邦学习地方式训练一个机器学习全局模型,通过共享在本地数据上训练好的模型参数给一个中央服务器,中央服务器负责聚合参与方们的模型参数,多次重复训练后,获得一个全局模型;之后某一个参与方要求从这个全局模型遗忘包含其本地数据的模型参数,这样的数据遗忘权是受法律法规保护的,所以中央服务器需合规地实现数据遗忘

但是,重新训练全局模型需要重新协调剩余参与方从头训练一个新的全局模型,这样显然计算开销是巨大的


技术实现思路

[0005]本专利技术的目的是为了至少解决现有技术的不足之一,提供一种支持数据快速撤销的联邦学习方法及系统

[0006]为了实现上述目的,本专利技术采用以下的技术方案:
[0007]具体的,提出一种支持数据快速撤销的联邦学习方法,包括以下:
[0008]步骤
110、
将联邦学习的多个设备参与方随机均匀的划分为多个小组;
[0009]步骤
120、
每个小组内的设备参与方协同共享本地训练形成的本地模型至中央服务器,并由中央服务器聚合形成对应的层级全局模型,得到对应小组的多个层级全局模型;
[0010]步骤
130、
当中央服务器获取到查询数据时,运行所有层级全局模型得到每个层级模型对应的预测结果,再通过聚合方法聚合所有所述预测结果,得到针对查询数据的最终预测;
[0011]步骤
140、
当中央服务器获取到某一设备参与方所提出的数据遗忘请求时,确定所
述设备参与方的所属小组,定义为小组
A

[0012]步骤
150、
中央服务器重新训练小组
A
的层级全局模型得到小组
A
更新后的层级全局模型,不对其他小组对应的层级全局模型进行处理;
[0013]步骤
160、
以小组
A
更新后的层级全局模型以及原有的其他小组对应的层级全局模型按照步骤
130
继续提供预测服务

[0014]进一步,具体的,将联邦学习的多个设备参与方随机均匀的划分为多个小组,包括,
[0015]假定共同参与联邦学习的设备参与方的设备标识符为
(d1,d2,

,d
n
)
,中央服务器设置每一组包含设备参与方的数量为
m
个,并根据设备标识符将这些设备随机划分为个小组,
m

n
均为整数

[0016]进一步,具体的,所述步骤
120
包括,
[0017]对于个小组,第
i
个小组的设备参与方
(

d1,

,d
m
)
各自使用本地训练数据
D1,

,D
m
训练生成本地模型其中,
[0018]设备参与方生成关于本地模型的同态消息验证码每个同态消息验证码是对应于每个本地模型的唯一随机字符串,用于验证本地模型发送至中央服务器过程中是否被篡改,并且,只有拥有生成同态消息验证码秘钥的一方才可以对一个本地模型生成相应同态消息验证码
[0019]每个小组的本地模型和同态消息验证码发送给中央服务器,中央服务器聚合这些本地模型生成每个小组的层级全局模型
M
i
,以及相应的同态消息验证码聚合值
H
i

[0020]进一步,具体的,所述步骤
130
包括,
[0021]当给定一个查询数据时,中央服务器把该查询数据输入到所有层级全局模型中,每个层级全局模型输出对应于查询数据的预测结果;
[0022]预测结果包括的格式有单个标签格式
、Top

k
标签列表格式以及后项概率向量格式,
[0023]针对单个标签格式与
Top

k
标签列表格式,中央服务器采用大多数投票的方式输出最终预测结果,针对多个层级全局模型的后项概率向量格式,中央服务器采用平均化或权值平均化的方式输出最后预测结果

[0024]进一步,具体的,所述步骤
140
包括,
[0025]某一设备参与方发出数据遗忘请求时,将其设备标识符发送给中央服务器,中央服务器根据设备标识符确定其所在的组号,假定
[0026]此外,设备参与方还需提供其曾经共享过本地模型的证明
Prof
,即证明其具备生成同态消息验证码的密钥该同态消息验证码能够被验证与其本地模型有关;
[0027]如果中央服务器验证证明
Prof
是有效的,且同态消息验证码也是有效的,则中央服务器相信该参与方确实曾在小组
A
共享过本地模型
[0028]进一步,具体的,所述步骤
150
包括,
[0029]中央服务器删除小组
A
的层级全局模型,并要求组内除了提出数据遗忘请求的设备参与方的剩余参与方重新训练本地模型,待收到所有本地模型后,重新聚合生成小组
A
的层级全局模型

[0030]本专利技术还提出一种支持数据快速撤销的联邦学习系统,包括:
[0031]多个设备参与方,被随本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种支持数据快速撤销的联邦学习方法,其特征在于,包括以下:步骤
110、
将联邦学习的多个设备参与方随机均匀的划分为多个小组;步骤
120、
每个小组内的设备参与方协同共享本地训练形成的本地模型至中央服务器,并由中央服务器聚合形成对应的层级全局模型,得到对应小组的多个层级全局模型;步骤
130、
当中央服务器获取到查询数据时,运行所有层级全局模型得到每个层级模型对应的预测结果,再通过聚合方法聚合所有所述预测结果,得到针对查询数据的最终预测;步骤
140、
当中央服务器获取到某一设备参与方所提出的数据遗忘请求时,确定所述设备参与方的所属小组,定义为小组
A
;步骤
150、
中央服务器重新训练小组
A
的层级全局模型得到小组
A
更新后的层级全局模型,不对其他小组对应的层级全局模型进行处理;步骤
160、
以小组
A
更新后的层级全局模型以及原有的其他小组对应的层级全局模型按照步骤
130
继续提供预测服务
。2.
根据权利要求1所述的一种支持数据快速撤销的联邦学习方法,其特征在于,具体的,将联邦学习的多个设备参与方随机均匀的划分为多个小组,包括,假定共同参与联邦学习的设备参与方的设备标识符为
(d1,d2,

,d
n
)
,中央服务器设置每一组包含设备参与方的数量为
m
个,并根据设备标识符将这些设备随机划分为个小组,
m

n
均为整数
。3.
根据权利要求1所述的一种支持数据快速撤销的联邦学习方法,其特征在于,具体的,所述步骤
120
包括,对于个小组,第
i
个小组的设备参与方
(

d1,

,d
m
)
各自使用本地训练数据
D1,

,D
m
训练生成本地模型其中,设备参与方生成关于本地模型的同态消息验证码每个同态消息验证码是对应于每个本地模型的唯一随机字符串,用于验证本地模型发送至中央服务器过程中是否被篡改,并且,只有拥有生成同态消息验证码秘钥的一方才可以对一个本地模型生成相应同态消息验证码每个小组的本地模型和同态消息验证码发送给中央服务器,中央服务器聚合这些本地模型生成每个小组的层级全局模型
M
i
,以及相应的同态消息验证码聚合值
H
i
。4.<...

【专利技术属性】
技术研发人员:张昊天黄文喜梁友曾立波喻昕昕周兆基
申请(专利权)人:广州芳禾数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1