联邦学习中的隐私去重方法、装置、设备及存储介质制造方法及图纸

技术编号:34081589 阅读:9 留言:0更新日期:2022-07-11 19:00
本申请公开了一种联邦学习中的隐私去重方法、装置、设备及存储介质,涉及机器学习领域。该方法包括:获取第一数据集;将第一数据的第一数据标识发送至协助方设备,协助方设备存储的第二数据对应有索引关系;接收协助方设备发送的索引结果,索引结果是协助方设备在索引关系中基于第二数据标识对第一数据标识进行查询得到的结果,用于表示第一数据标识在索引关系中的排列次序;对索引结果进行聚合分析,得到第二数据集的数据去重统计结果。通过以上方式,能够在避免信息泄露的前提下,使得发起方设备无需获取协助方设备的对象数据,根据索引结果确定第二数据的部分数据信息。本申请可应用于云技术、人工智能、智慧交通等各种场景。智慧交通等各种场景。智慧交通等各种场景。

【技术实现步骤摘要】
联邦学习中的隐私去重方法、装置、设备及存储介质


[0001]本申请实施例涉及机器学习领域,特别涉及一种联邦学习中的隐私去重方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,联邦学习逐渐成为一个热门课题,联邦学习通过多方协作对数据进行加密分析。在保护用户隐私和数据安全的同时,解决了数据孤岛的问题。
[0003]相关技术中,通常采用聚合函数,由不同的数据拥有方对自身拥有的数据进行数据分析。例如,在对数据进行去重操作时,将数据进行分组。对于一个组内的数据,采用映射方法,对不同数据赋予相同的数据值,并根据键信息对数据进行去重操作,其中,去重操作的过程由不同的数据拥有方各自进行。
[0004]在上述方法中各个数据拥有方之间是相互独立的。出于隐私保护的原因,不同数据拥有方无法直接将原始数据发送至其他数据拥有方,当某个数据拥有方需要对其他数据拥有方的数据信息进行去重分析时,无法实现保密分析过程。

技术实现思路

[0005]本申请实施例提供了一种联邦学习中的隐私去重方法、装置、设备及存储介质,能够使得发起方设备无需获取协助方设备的对象数据,即可根据协助方设备发送的索引结果,确定第二数据集中第二数据的部分数据信息,在避免数据泄露的前提下,实现了数据去重统计过程。针对本申请训练得到的联邦学习中的隐私去重方法。所述技术方案如下。
[0006]一方面,提供了一种联邦学习中的隐私去重方法,所述方法包括:获取第一数据集,所述第一数据集中的第一数据对应有第一数据标识,所述第一数据标识用于唯一指示所述第一数据;将所述第一数据的第一数据标识发送至协助方设备,所述协助方设备存储有第二数据集,所述第二数据集中包括至少一个第二数据的第二数据标识与所述第一数据标识匹配,所述第二数据对应有索引关系,所述索引关系是对所述第二数据排列得的顺序关系;接收所述协助方设备发送的索引结果,所述索引结果是所述协助方设备在所述索引关系中基于所述第二数据标识对所述第一数据标识进行查询得到的结果,所述索引结果用于表示所述第一数据标识在所述索引关系中的排列次序;对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,所述数据去重统计结果是针对所述索引结果进行去重后统计得到的结果。
[0007]另一方面,提供了一种联邦学习中的隐私去重方法,所述方法包括:接收第一数据标识,所述第一数据标识用于唯一指示第一数据,所述第一数据是发起方设备中第一数据集中的数据;基于协助方设备存储的第二数据集中的第二数据,确定所述第二数据对应的索引关系,所述第二数据集中包括至少一个第二数据的第二数据标识与所述第一数据标识匹
配,所述索引关系是对所述第二数据排列得到的顺序关系;在所述索引关系中基于所述第二数据标识对所述第一数据标识进行查询,得到索引结果;将所述索引结果发送至所述发起方设备,所述发起方设备用于基于所述索引结果确定所述第二数据集的数据去重统计结果。
[0008]另一方面,提供了一种联邦学习中的隐私去重装置,所述装置包括:获取模块,用于获取第一数据集,所述第一数据集中的第一数据对应有第一数据标识,所述第一数据标识用于唯一指示所述第一数据;发送模块,用于将所述第一数据的第一数据标识发送至协助方设备,所述协助方设备存储有第二数据集,所述第二数据集中包括至少一个第二数据的第二数据标识与所述第一数据标识匹配,所述第二数据对应有索引关系,所述索引关系是对所述第二数据排列得到的顺序关系;接收模块,用于接收所述协助方设备发送的索引结果,所述索引结果是所述协助方设备在所述索引关系中基于所述第二数据标识对所述第一数据标识进行查询得到的结果,所述索引结果用于表示所述第一数据标识在所述索引关系中的排列次序;分析模块,用于对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,所述数据去重统计结果是针对所述索引结果进行去重后统计得到的结果。
[0009]另一方面,提供了一种联邦学习中的隐私去重装置,所述装置包括:接收模块,用于接收第一数据标识,所述第一数据标识用于唯一指示第一数据,所述第一数据是发起方设备中第一数据集中的数据;确定模块,用于基于协助方设备存储的第二数据集中的第二数据,确定所述第二数据对应的索引关系,所述第二数据集中包括至少一个第二数据的第二数据标识与所述第一数据标识匹配,所述索引关系是对所述第二数据排列得到的顺序关系;查询模块,用于在所述索引关系中基于所述第二数据标识对所述第一数据标识进行查询,得到索引结果;发送模块,用于将所述索引结果发送至所述发起方设备,所述发起方设备用于基于所述索引结果确定所述第二数据集的数据去重统计结果。
[0010]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述联邦学习中的隐私去重方法。
[0011]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的联邦学习中的隐私去重方法。
[0012]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的联邦学习中的隐私去重方法。
[0013]本申请实施例提供的技术方案带来的有益效果至少包括:在发起方设备和协助方设备之间进行联邦学习中的隐私去重过程时,发起方设备将第一数据的第一数据标识发送至协助方设备,协助方设备根据第二数据排列得到的顺序关系确定索引关系,并在索引关系中对第一数据标识进行查询得到索引结果,发起方设备接收协助方设备发送的索引结果后进行聚合分析,得到第二数据集的数据去重统计结果。通过上述方法,发起方设备无需获取协助方设备的对象数据,即可根据协助方设备发送的索引结果,确定第二数据集中第二数据的部分数据信息,保护了发起方设备和协助方设备的原始敏感数据和分组结果不被对方获取,实现发起方设备和协助方设备之间安全、公平的信息共享过程,在避免数据泄露的前提下,实现了数据去重统计过程。
附图说明
[0014]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0015]图1是本申请一个示例性实施例提供的相关技术中的去重方法流程图;图2是本申请一个示例性实施例提供的实施环境示意图;图3是本申请一个示例性实施例提供的联邦学习中的隐私去重方法流程图;图4是本申请一个示例性实施例提供的发起方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联邦学习中的隐私去重方法,其特征在于,所述方法包括:获取第一数据集,所述第一数据集中的第一数据对应有第一数据标识,所述第一数据标识用于唯一指示所述第一数据;将所述第一数据的第一数据标识发送至协助方设备,所述协助方设备存储有第二数据集,所述第二数据集中包括至少一个第二数据的第二数据标识与所述第一数据标识匹配,所述第二数据对应有索引关系,所述索引关系是对所述第二数据排列得到的顺序关系;接收所述协助方设备发送的索引结果,所述索引结果是所述协助方设备在所述索引关系中基于所述第二数据标识对所述第一数据标识进行查询得到的结果,所述索引结果用于表示所述第一数据标识在所述索引关系中的排列次序;对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,所述数据去重统计结果是针对所述索引结果进行去重后统计得到的结果。2.根据权利要求1所述的方法,其特征在于,所述对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,包括:创建所述第一数据集对应的基础位图;基于所述索引结果对所述基础位图进行赋值更新,得到数据位图,其中,针对所述索引结果中的重复索引值,对所述基础位图中与所述重复索引值对应的比特位进行单次赋值;对所述数据位图进行聚合分析,得到所述第二数据集的数据去重统计结果。3.根据权利要求2所述的方法,其特征在于,所述第一数据集根据指定信息字段分为多个分组,发送至所述协助方设备的第一数据标识是指定分组中第一数据的数据标识;所述创建所述第一数据集对应的基础位图,包括:创建多个分组分别对应的基础位图,其中包括所述指定分组对应的基础位图;所述基于所述索引结果对所述基础位图进行赋值更新,得到数据位图,包括:基于所述索引结果对所述指定分组对应的基础位图进行赋值更新,得到所述指定分组对应的数据位图。4.根据权利要求3所述的方法,其特征在于,所述创建多个分组分别对应的基础位图,包括:响应于所述指定分组中第一数据的数量达到预设数量阈值,对所述指定分组中的第一数据进行小组划分,得到所述指定分组对应的多个数据小组;创建所述多个数据小组分别对应的基础位图。5.根据权利要求4所述的方法,其特征在于,所述基于所述索引结果对所述指定分组对应的基础位图进行赋值更新,得到所述指定分组对应的数据位图之后,还包括:在所述指定分组内,对多个数据小组分别对应的数据位图进行按位或操作,得到所述指定分组对应的位图更新结果。6.根据权利要求1至5任一所述的方法,其特征在于,所述将所述第一数据的第一数据标识发送至协助方设备,包括:根据第一数据对应的指定信息字段对所述第一数据集进行分组,得到多个分组;将指定分组中的第一数据对应的第一数据标识发送至所述协助方设备,所述指定分组是所述多个分组中的分组。7.根据权利要求6所述的方法,其特征在于,所述将指定分组中的第一数据对应的第一
数据标识发送至所述协助方设备,包括:响应于所述指定分组中第一数据的数量达到预设数量阈值,对所述指定分组中的第一数据进行小组划分,得到多个数据小组;根据所述多个数据小组分批次向所述协助方设备发送所述第一数据对应的第一数据标识。8.根据权利要求1至5任一所述的方法,其特征在于,所述对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,包括:通过预设聚合函数,对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果。9.根据权利要求8所述的方法,其特征在于,所述通过预设聚合函数,对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,包括:在所述预设聚合函数包括数量统计函数的情况下,根据所述索引结果中比特位为指定取值的比特位数量,确定数量结果;将所述数量结果作为所述数据去重统计结果。10.根据权利要求9所述的方法,其特征在于,所述通过预设聚合函数,对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,还包括:确定通过所述索引结果分析得到的去重中间结果,所述去重中间结果用于指示对所述索引结果进行汇总分析后的结果;在所述预设聚合函数包括求和函数、求均值函数、求最大值函数以及求最小值函数中的至少一种情况下,将所述去重中间结果发送至所述协助方设备;接收所述协助方设备对所述去重中间结果的分析结果,所述分析结果包括与所述求和函数对应的求和结果,与所述求均值函数对应的均值结果,与所述求最大值函数对应的最大值结果以...

【专利技术属性】
技术研发人员:杨昱睿蒋杰刘煜宏陈鹏陶阳宇范晓亮程勇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1