【技术实现步骤摘要】
联邦学习中的隐私去重方法、装置、设备及存储介质
[0001]本申请实施例涉及机器学习领域,特别涉及一种联邦学习中的隐私去重方法、装置、设备及存储介质。
技术介绍
[0002]随着计算机技术的发展,联邦学习逐渐成为一个热门课题,联邦学习通过多方协作对数据进行加密分析。在保护用户隐私和数据安全的同时,解决了数据孤岛的问题。
[0003]相关技术中,通常采用聚合函数,由不同的数据拥有方对自身拥有的数据进行数据分析。例如,在对数据进行去重操作时,将数据进行分组。对于一个组内的数据,采用映射方法,对不同数据赋予相同的数据值,并根据键信息对数据进行去重操作,其中,去重操作的过程由不同的数据拥有方各自进行。
[0004]在上述方法中各个数据拥有方之间是相互独立的。出于隐私保护的原因,不同数据拥有方无法直接将原始数据发送至其他数据拥有方,当某个数据拥有方需要对其他数据拥有方的数据信息进行去重分析时,无法实现保密分析过程。
技术实现思路
[0005]本申请实施例提供了一种联邦学习中的隐私去重方法、装置、设备及存储介质,能够使得发起方设备无需获取协助方设备的对象数据,即可根据协助方设备发送的索引结果,确定第二数据集中第二数据的部分数据信息,在避免数据泄露的前提下,实现了数据去重统计过程。针对本申请训练得到的联邦学习中的隐私去重方法。所述技术方案如下。
[0006]一方面,提供了一种联邦学习中的隐私去重方法,所述方法包括:获取第一数据集,所述第一数据集中的第一数据对应有第一数据标识,所述第一数据标识 ...
【技术保护点】
【技术特征摘要】
1.一种联邦学习中的隐私去重方法,其特征在于,所述方法包括:获取第一数据集,所述第一数据集中的第一数据对应有第一数据标识,所述第一数据标识用于唯一指示所述第一数据;将所述第一数据的第一数据标识发送至协助方设备,所述协助方设备存储有第二数据集,所述第二数据集中包括至少一个第二数据的第二数据标识与所述第一数据标识匹配,所述第二数据对应有索引关系,所述索引关系是对所述第二数据排列得到的顺序关系;接收所述协助方设备发送的索引结果,所述索引结果是所述协助方设备在所述索引关系中基于所述第二数据标识对所述第一数据标识进行查询得到的结果,所述索引结果用于表示所述第一数据标识在所述索引关系中的排列次序;对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,所述数据去重统计结果是针对所述索引结果进行去重后统计得到的结果。2.根据权利要求1所述的方法,其特征在于,所述对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,包括:创建所述第一数据集对应的基础位图;基于所述索引结果对所述基础位图进行赋值更新,得到数据位图,其中,针对所述索引结果中的重复索引值,对所述基础位图中与所述重复索引值对应的比特位进行单次赋值;对所述数据位图进行聚合分析,得到所述第二数据集的数据去重统计结果。3.根据权利要求2所述的方法,其特征在于,所述第一数据集根据指定信息字段分为多个分组,发送至所述协助方设备的第一数据标识是指定分组中第一数据的数据标识;所述创建所述第一数据集对应的基础位图,包括:创建多个分组分别对应的基础位图,其中包括所述指定分组对应的基础位图;所述基于所述索引结果对所述基础位图进行赋值更新,得到数据位图,包括:基于所述索引结果对所述指定分组对应的基础位图进行赋值更新,得到所述指定分组对应的数据位图。4.根据权利要求3所述的方法,其特征在于,所述创建多个分组分别对应的基础位图,包括:响应于所述指定分组中第一数据的数量达到预设数量阈值,对所述指定分组中的第一数据进行小组划分,得到所述指定分组对应的多个数据小组;创建所述多个数据小组分别对应的基础位图。5.根据权利要求4所述的方法,其特征在于,所述基于所述索引结果对所述指定分组对应的基础位图进行赋值更新,得到所述指定分组对应的数据位图之后,还包括:在所述指定分组内,对多个数据小组分别对应的数据位图进行按位或操作,得到所述指定分组对应的位图更新结果。6.根据权利要求1至5任一所述的方法,其特征在于,所述将所述第一数据的第一数据标识发送至协助方设备,包括:根据第一数据对应的指定信息字段对所述第一数据集进行分组,得到多个分组;将指定分组中的第一数据对应的第一数据标识发送至所述协助方设备,所述指定分组是所述多个分组中的分组。7.根据权利要求6所述的方法,其特征在于,所述将指定分组中的第一数据对应的第一
数据标识发送至所述协助方设备,包括:响应于所述指定分组中第一数据的数量达到预设数量阈值,对所述指定分组中的第一数据进行小组划分,得到多个数据小组;根据所述多个数据小组分批次向所述协助方设备发送所述第一数据对应的第一数据标识。8.根据权利要求1至5任一所述的方法,其特征在于,所述对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,包括:通过预设聚合函数,对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果。9.根据权利要求8所述的方法,其特征在于,所述通过预设聚合函数,对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,包括:在所述预设聚合函数包括数量统计函数的情况下,根据所述索引结果中比特位为指定取值的比特位数量,确定数量结果;将所述数量结果作为所述数据去重统计结果。10.根据权利要求9所述的方法,其特征在于,所述通过预设聚合函数,对所述索引结果进行聚合分析,得到所述第二数据集的数据去重统计结果,还包括:确定通过所述索引结果分析得到的去重中间结果,所述去重中间结果用于指示对所述索引结果进行汇总分析后的结果;在所述预设聚合函数包括求和函数、求均值函数、求最大值函数以及求最小值函数中的至少一种情况下,将所述去重中间结果发送至所述协助方设备;接收所述协助方设备对所述去重中间结果的分析结果,所述分析结果包括与所述求和函数对应的求和结果,与所述求均值函数对应的均值结果,与所述求最大值函数对应的最大值结果以...
【专利技术属性】
技术研发人员:杨昱睿,蒋杰,刘煜宏,陈鹏,陶阳宇,范晓亮,程勇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。