当前位置: 首页 > 专利查询>浙江大学专利>正文

数据处理方法技术

技术编号:39755334 阅读:9 留言:0更新日期:2023-12-17 23:54
本申请实施例公开了一种数据处理方法

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本申请属于联邦学习训练领域,具体涉及一种数据处理方法

装置

电子设备及存储介质


技术介绍

[0002]联邦学习是一种新兴的分布式学习框架,可以实现成千上万,甚至数以百万计的大规模分布式合作学习

在联邦学习中数据无需上传到中心服务器,既保证了数据隐私,又缓解了数据孤岛带来的棘手问题

联邦学习现在已经被广泛应用在金融,医疗,保险等隐私敏感领域中

最近,一些严格的数据法案已明确规定了用户享有数据“被遗忘权”,例如通用数据保护法规
(GDPR)
和加州消费者隐私法
(CCPA)


从隐私和安全的角度来看,遗忘权至关重要

它不仅可以保护单个用户的隐私,及时删除关于该用户的相关记忆,还可以清除在实际的联邦学习部署中某些可能中毒的恶意客户

但相关的数据处理方式,在遗忘数据的过程中,可能会出现灾难性遗忘


技术实现思路

[0003]鉴于上述问题,本申请提出了一种数据处理方法

装置

电子设备以及存储介质,以实现改善上述问题

[0004]第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:响应于数据遗忘请求,获取待训练模型和待遗忘数据;生成所述待遗忘数据对应的随机标签;通过所述随机标签对所述待训练模型进行训练,直至满足训练结束条件,得到目标模型

[0005]第二方面,本申请实施例提供了一种数据处理装置,所述装置包括:获取单元,用于响应于数据遗忘请求,获取待训练模型和待遗忘数据;标签生成单元,用于生成所述待遗忘数据对应的随机标签;训练单元,用于通过所述随机标签对所述待训练模型进行训练,直至满足训练结束条件,得到目标模型

[0006]第三方面,本申请实施例提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法

[0007]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法

[0008]本申请实施例提供了一种数据处理方法

装置

电子设备及存储介质

响应于数据遗忘请求,获取待训练模型和待遗忘数据,生成待遗忘数据对应的随机标签,通过随机标签对待训练模型进行训练,直至满足训练结束条件,得到目标模型

通过上述方法,可以在遗忘过程中保护原有知识不会出现灾难性遗忘,保证整体联邦训练目标的稳定性

附图说明
[0009]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使
用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0010]图1示出了本申请一实施例提出的一种数据处理方法的流程图;
[0011]图2示出了本申请另一实施例提出的一种数据处理方法的流程图;
[0012]图3示出了本申请再一实施例提出的一种数据处理方法的流程图;
[0013]图4示出了本申请实施例提出的一种数据处理装置的结构框图;
[0014]图5示出了本申请实施例中的用于执行根据本申请实施例的数据处理方法的电子设备的结构框图;
[0015]图6示出了本申请实施例中的用于保存或者携带实现根据本申请实施例的数据处理方法的程序代码的存储单元

具体实施方式
[0016]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例

基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围

[0017]联邦学习是隐私保护机器学习的热点研究方向之一

联邦学习能够在保证数据隐私安全的基础上,实现联合建模,提升模型的效果

但已有研究表明,恶意攻击者可以从训练模型中提取一些目标数据中的隐私信息,该研究揭示了训练数据会隐式包含在模型参数中

为了解决该问题,研究者提出一种消除目标数据对模型参数隐式影响的技术
‑‑
机器遗忘学习,通过对模型进行机器遗忘学习,能够消除或减弱用户数据经由模型参数泄露的风险

在联邦学习的框架下应用机器遗忘学习,保护用户由法律法规授予的“被遗忘权”,也与联邦学习本身的隐私保护目标不谋而合,从而为用户个人隐私保护提出了一种更全面的视角与补充

[0018]传统机器遗忘学习方法需要同时在云端获得待遗忘的目标数据以及需要进行遗忘的模型参数,通过重新训练的方法更新模型参数,从而达到在模型中消除数据的隐式影响

然而在联邦学习训练框架中,由于数据安全法规的限制以及联邦学习的分布式架构,训练数据分散在不同客户端且不能被直接获取

同时,随着模型参数规模的不断增长,对模型参数进行重新训练的成本也逐步增长,因此传统遗忘学习的策略在该场景下难以实现,对该场景下的机器遗忘任务带来了更大的挑战

[0019]对于联邦学习中的遗忘任务需要满足以下要求:遗忘过程不应影响联邦学习流程以及原有训练步骤

不能直接收集用户隐私数据到云端

训练后处理避免对模型的重训练,降低机器遗忘过程的成本

同时,任何机器遗忘方法针对联邦训练场景下的用户数据遗忘方法应同时达到两方面目标:
1)
遗忘目标:消除或减弱待遗忘的目标数据对模型的影响,保证攻击者无法通过攻击获取对于目标数据的推断能力,即无法通过攻击获取某条数据是否存在于模型训练过程中

无法获取某个用户是否参与模型训练

无法恢复单条数据的原始信息等;
2)
训练目标:保证联邦学习在遗忘后的模型性能相较于原有模型不会有较大的差异,避免因为机器遗忘对原有的联邦任务产生显著负面影响

[0020]因此,专利技术人提出了本申请中的数据处理方法

装置

电子设备及存储介质

响应于数据遗忘请求,获取待训练模型和待遗忘数据,生成待遗忘数据对应的随机标签,通过随机标签对待训练模型进行训练,直至满足训练结束本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法,其特征在于,所述方法包括:响应于数据遗忘请求,获取待训练模型和待遗忘数据;生成所述待遗忘数据对应的随机标签;通过所述随机标签对所述待训练模型进行训练,直至满足训练结束条件,得到目标模型
。2.
根据权利要求1所述的方法,其特征在于,所述生成所述待遗忘数据对应的随机标签,包括:将所述待遗忘数据输入到记忆生成器中,获取所述记忆生成器输出的所述待遗忘数据对应的随机标签;所述通过所述随机标签对所述待训练模型进行训练,直至满足训练结束条件,得到目标模型,包括:基于所述随机标签,构建随机记忆;通过所述随机记忆对所述待训练模型进行训练,直至满足训练结束条件,得到所述目标模型
。3.
根据权利要求2所述的方法,其特征在于,所述通过所述随机记忆对所述待训练模型进行训练,直至满足训练结束条件,得到所述目标模型,包括:获取预设损失函数,其中,所述预设损失函数为知识保护器基于待遗忘数据和非遗忘数据进行构建;通过所述预设损失函数和所述随机记忆对所述待训练模型进行训练,直至满足训练结束条件,得到目标模型
。4.
根据权利要求2所述的方法,其特征在于,所述记忆生成器中包括多个教师模型;所述将所述待遗忘数据输入到记忆生成器中,获取所述记忆生成器输出的所述待遗忘数据对应的随机标签,包括:获取所述待遗忘数据对应的数据特征;将所述数据特征输入到所述多个教师模型中,获取所述多个教师模型输出的所述待遗忘数据对应的多个预测标签,其中,所述多个预测标签为去偏教师标签;基于所述多个预测标签,确定所述待遗忘数据对应的随机标签
。5.
根据权利要求4所述的方法,其特征在于,所述多个教...

【专利技术属性】
技术研发人员:王俊孟丹瞿祥谋齐越傅致晖裴瑞光
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1