数据处理方法、装置、电子设备和介质制造方法及图纸

技术编号:35994415 阅读:55 留言:0更新日期:2022-12-17 23:10
本公开实施例提供了一种数据处理方法、装置、电子设备和介质,涉及数据安全技术领域。该方法包括:对第一数据集合中的第一数据进行计算,确定第一数据对应的第一桶标识和第一块标识;第一桶标识用于标记存储第一数据的目标桶,第一块标识用于标记目标桶内存储第一数据的目标块;接收第二参与方发送的第二桶标识和第二块标识,第二桶标识和第二块标识是对第二数据集合中的第二数据进行计算得到的;比对第一桶标识和第二桶标识、第一块标识和第二块标识,确定两个数据集合中不相交的数据。本公开实施例利用桶标识和块标识联合表示数据,桶标识和块标识作为数据的唯一表示,利用其可以在保证数据安全性的同时快速筛选数据,计算量小,节省了资源。节省了资源。节省了资源。

【技术实现步骤摘要】
数据处理方法、装置、电子设备和介质


[0001]本公开涉及数据安全
,具体而言,涉及一种数据处理方法、装置、电子设备和介质。

技术介绍

[0002]在保证数据安全的前提下,数据孤岛现象随之出现,联邦学习作为目前主流的技术手段,将“孤岛”联盟起来,联合多家数据进行数据训练与建模。
[0003]在其过程中,隐私集合求交(Private Set Intersection,PSI)成为了一个必要的过程,也就是在不暴露各自数据的条件下,找到双方共有的样本成为了一个必要的过程。例如两方机构分别是当地的运营商与银行,用户交集较大,符合纵向联邦学习的情况,然而会有一种情况,运营商的数据(亿级)远远大于银行数据量(万级),在这种情况下,双方的PSI求交集也就是非平衡PSI,当前的非平衡PSI方案性能相比平衡PSI性能优势不是十分明显,因此考虑一种方法,进一步降低非平衡PSI情况下计算开销,提高性能,尽量将计算量交给数据量较大的一方。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开实施例提供一种数据处理方法、装置、电子设备和计算机可读存储介质,能够。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一个方面,提供一种数据处理方法,该方法应用于纵向联邦学习的第一参与方,所述第一参与方的第一数据集合大于所述纵向联邦学习的第二参与方的第二数据集合;所述数据处理方法包括:
[0008]基于预设的函数对所述第一数据集合中的每一第一数据进行计算,确定所述第一数据对应的第一桶标识和第一块标识;所述第一桶标识用于标记存储所述第一数据的目标桶,所述目标桶内包括多个块,所述第一块标识用于标记所述目标桶内存储所述第一数据的目标块;
[0009]接收所述第二参与方发送的第二桶标识和第二块标识,所述第二桶标识和所述第二块标识是所述第二参与方基于所述预设的函数对所述第二数据集合中的每一第二数据进行计算得到的;
[0010]比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识,确定所述第一数据集合与所述第二数据集合中不相交的数据。
[0011]在本公开的一些实施例中,比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识,确定所述第一数据集合与所述第二数据集合中不相交的数据,包
括:比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识,确定相同的桶标识和相同的块标识;将所述相同的桶标识作为目标桶标识、所述相同的块标识作为目标块标识,所述目标桶标识和所述目标块标识指示的数据作为所述第一数据集合与所述第二数据集合中共有的数据,所述第一数据集合中除所述共有的数据之外的数据以及所述第二数据集合中除所述共有的数据之外的数据为所述第一数据集合与所述第二数据集合中不相交的数据;向所述第二参与方发送所述目标桶标识和所述目标块标识,以使所述第二参与方基于所述目标桶标识和所述目标块标识对应的数据与所述第一参与方进行隐私求交加密处理。
[0012]在本公开的一些实施例中,所述对所述第一数据集合中的每一第一数据进行计算,包括:对所述第一数据集合中的第一数据并行进行计算。
[0013]在本公开的一些实施例中,并行对所述第一数据集合中的第一数据进行计算,包括:根据单指令流多数据流方法,对所述第一数据集合中的第一数据并行进行计算。
[0014]在本公开的一些实施例中,所述对所述第一数据集合中的第一数据并行进行计算,包括:对所述第一数据集合进行分割,得到多个子数据集;同时对所述多个子数据集中的第一数据并行进行计算。
[0015]在本公开的一些实施例中,所述对所述第一数据集合进行分割,得到多个子数据集,包括:基于所述第二数据集合,对所述第一数据集合进行分割,得到多个子数据集。
[0016]在本公开的一些实施例中,所述比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识,包括:根据单指令流多数据流方法,并行比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识。
[0017]根据本公开的另一个方面,提供了一种数据处理方法,所述方法应用于纵向联邦学习的第二参与方,所述第二参与方的第二数据集合小于所述纵向联邦学习的第一参与方的第一数据集合;所述数据处理方法包括:
[0018]基于预设的函数对所述第二数据集合中的每一第二数据进行计算,确定所述第二数据对应的第二桶标识和第二块标识;所述第二桶标识用于标记存储所述第二数据的目标桶,所述目标桶内包括多个块,所述第二块标识用于标记所述目标桶内存储所述第二数据的目标块;
[0019]将所述第二桶标识和所述第二块标识发送至所述第一参与方;
[0020]接收所述第一参与方发送的目标桶标识和目标块标识;所述目标桶标识是所述第二桶标识和第一桶标识中相同的桶标识,所述目标块标识是所述第二块标识和第一块标识中相同的块标识,所述第一桶标识和所述第一块标识是所述第一参与方基于预设的函数对所述第一数据集合中的每一第一数据进行计算得到的。
[0021]在本公开的一些实施例中,所述对所述第二数据集合中的每一第二数据进行计算,包括:对所述第二数据集合中的第二数据并行进行计算。
[0022]在本公开的一些实施例中,所述对所述第二数据集合中的第二数据并行进行计算,包括:根据单指令流多数据流方法,对所述第二数据集合中的第二数据并行进行计算。
[0023]根据本公开的又一个方面,提供了一种数据处理装置,该装置应用于纵向联邦学习的第一参与方,所述第一参与方的第一数据集合大于所述纵向联邦学习的第二参与方的第二数据集合;所述数据处理装置包括:
[0024]第一计算模块,用于基于预设的函数对所述第一数据集合中的每一第一数据进行计算,确定所述第一数据对应的第一桶标识和第一块标识;所述第一桶标识用于标记存储所述第一数据的目标桶,所述目标桶内包括多个块,所述第一块标识用于标记所述目标桶内存储所述第一数据的目标块;
[0025]第一接收模块,用于接收所述第二参与方发送的第二桶标识和第二块标识,所述第二桶标识和所述第二块标识是所述第二参与方基于所述预设的函数对所述第二数据集合中的每一第二数据进行计算得到的;
[0026]比对模块,用于比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识,确定所述第一数据集合与所述第二数据集合中不相交的数据。
[0027]在本公开的一些实施例中,所述比对模块还用于:比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识,确定相同的桶标识和相同的块标识;将所述相同的桶标识作为目标桶标识、所述相同的块标识作为目标块标识,所述目标桶标识和所述目标块标识指示的数据作为所述第一数据集合与所述第二数据集合中共有的数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,该方法应用于纵向联邦学习的第一参与方,所述第一参与方的第一数据集合大于所述纵向联邦学习的第二参与方的第二数据集合;所述数据处理方法包括:基于预设的函数对所述第一数据集合中的每一第一数据进行计算,确定所述第一数据对应的第一桶标识和第一块标识;所述第一桶标识用于标记存储所述第一数据的目标桶,所述目标桶内包括多个块,所述第一块标识用于标记所述目标桶内存储所述第一数据的目标块;接收所述第二参与方发送的第二桶标识和第二块标识,所述第二桶标识和所述第二块标识是所述第二参与方基于所述预设的函数对所述第二数据集合中的每一第二数据进行计算得到的;比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识,确定所述第一数据集合与所述第二数据集合中不相交的数据。2.根据权利要求1所述的方法,其特征在于,比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识,确定所述第一数据集合与所述第二数据集合中不相交的数据,包括:比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识,确定相同的桶标识和相同的块标识;将所述相同的桶标识作为目标桶标识、所述相同的块标识作为目标块标识,所述目标桶标识和所述目标块标识指示的数据作为所述第一数据集合与所述第二数据集合中共有的数据,所述第一数据集合中除所述共有的数据之外的数据以及所述第二数据集合中除所述共有的数据之外的数据为所述第一数据集合与所述第二数据集合中不相交的数据;向所述第二参与方发送所述目标桶标识和所述目标块标识,以使所述第二参与方基于所述共有的数据与所述第一参与方进行隐私求交加密处理。3.根据权利要求1所述的方法,其特征在于,所述对所述第一数据集合中的每一第一数据进行计算,包括:对所述第一数据集合中的第一数据并行进行计算。4.根据权利要求3所述的方法,其特征在于,所述并行对所述第一数据集合中的第一数据进行计算,包括:根据单指令流多数据流方法,对所述第一数据集合中的第一数据并行进行计算。5.根据权利要求3所述的方法,其特征在于,所述对所述第一数据集合中的第一数据并行进行计算,包括:对所述第一数据集合进行分割,得到多个子数据集;同时对所述多个子数据集中的第一数据并行进行计算。6.根据权利要求5所述的方法,其特征在于,所述对所述第一数据集合进行分割,得到多个子数据集,包括:基于所述第二数据集合,对所述第一数据集合进行分割,得到多个子数据集。7.根据权利要求2所述的方法,其特征在于,所述比对所述第一桶标识和所述第二桶标识、所述第一块标识和所述第二块标识,包括:根据单指令流多数据流方法,并行比对所述第一桶标识和所述第二桶标识、所述第一
块标识和所述第二块标识。8.一种数据处理方法,其特征在于,所述方法应用于纵向联邦学习的第二参与方,所述第二参与方的第二数据集合小于所述纵向联邦学习的第一参与方的第一数据集合;所述数据处理方法包括:基于预设的函数对所述第二数据集合中的每一第二数据进行计算,确定所述第二数据对应的第二桶标识和第二块标识;所述第二桶标识用于标记存储所述第二数据的目标桶,所述目标桶...

【专利技术属性】
技术研发人员:尹虹舒周旭华严梦嘉
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1