基于隐私保护的数据处理方法及装置制造方法及图纸

技术编号:38157211 阅读:13 留言:0更新日期:2023-07-13 09:26
一种基于隐私保护的数据处理方法及装置,涉及第一方和第二方,第一方持有被划分为多个数据分组的多个样本数据,第二方持有多个样本数据的多个标签值。由第一方执行的方法包括:从第二方接收通过同态加密算法的公钥对多个标签值进行加密以得到的多个标签密文;对多个数据分组,并发确定数据分组中的样本数据各自所属的分箱,并发融合数据分组中属于相同分箱的样本数据的标签密文,获得与多个分箱对应的多个第一融合标签;融合对应相同分箱的第一融合标签以获得多个第二融合标签;向第二方发送与多个分箱对应的多个第二融合标签,使第二方根据同态加密算法的私钥对多个第二融合标签进行解密,获得多个分箱各自包括的目标样本数据的第一样本数量。据的第一样本数量。据的第一样本数量。

【技术实现步骤摘要】
基于隐私保护的数据处理方法及装置


[0001]本说明书一个或多个实施例涉及计算机领域,尤其涉及一种基于隐私保护的数据处理方法及装置。

技术介绍

[0002]数据分箱通常也被表述为离散分箱或数据分段,其是数据挖掘中较为典型的数据预处理技术,用于按照样本数据中某个字段下的字段值,将已采集的多个样本数据划分到多个分箱/箱子中,用于减少次要观察误差的影响,提高泛化性。
[0003]部分涉及隐私保护的技术场景中,一个参与方(非标签方)可能持有多个样本数据,而另一个参与方(标签方)可能持有该多个样本数据对应的多个标签值,标签值通常用于指示对应的样本数据是正样本或负样本。非标签方可能对其持有的多个样本数据进行数据分箱,标签方可能期望获得各箱子/分箱中目标样本数据的数量,以便其计算各分箱的统计信息,例如证据权重(Weight of Evidence,WOE)和信息价值(Information Value,IV)。

技术实现思路

[0004]本说明书一个或多个实施例中提供了一种基于隐私保护的数据处理方法及装置。
[0005]第一方面,提供了一种基于隐私保护的数据处理方法,涉及第一方和第二方,所述第一方持有多个样本数据,所述多个样本数据被划分为多个数据分组,所述第二方持有所述多个样本数据的多个标签值,所述方法由所述第一方执行。所述方法包括:从所述第二方接收所述多个样本数据的多个标签密文,所述多个标签密文是通过同态加密算法的公钥对所述多个标签值进行加密以得到的;对所述多个数据分组,并发确定数据分组中的样本数据各自所属的分箱,并发融合数据分组中属于相同分箱的样本数据的标签密文,获得与多个分箱对应的多个第一融合标签;融合对应相同分箱的第一融合标签,获得与所述多个分箱对应的多个第二融合标签;向所述第二方发送所述多个分箱各自对应的第二融合标签,使得所述第二方根据所述同态加密算法的私钥,对所述多个分箱各自对应的第二融合标签进行解密,获得所述多个分箱各自包括的目标样本数据的第一数量。
[0006]在一种可能的实施方式中,所述方法还包括:对所述多个数据分组,并发确定数据分组中属于相同分箱的样本数据的第二数量;对与所述多个分箱中任意的第i个分箱相对应的第二数量求和,获得所述第i个分箱中所包括的样本数据的第三数量;向所述第二方发送所述多个分箱各自对应的第三数量。
[0007]在一种可能的实施方式中,所述标签值的允许取值包括1,用于指示对应的样本数据是正样本;所述标签值的允许取值包括0,用于指示对应的样本数据是负样本。
[0008]在一种可能的实施方式中,所述方法还包括将所述多个样本数据划分为多个数据分组。
[0009]第二方面,还提供了一种基于隐私保护的数据处理方法,涉及第一方和第二方,所述第一方持有多个样本数据,所述多个样本数据被划分为多个数据分组,所述第二方持有
所述多个样本数据的多个标签值。包括:所述第二方通过同态加密算法的公钥对所述多个标签值进行加密,获得所述多个样本数据的多个标签密文;所述第二方向所述第一方发送所述多个样本数据的多个标签密文;所述第一方对所述多个数据分组,并发确定数据分组中的样本数据各自所属的分箱,并发融合数据分组中属于相同分箱的样本数据的标签密文,获得与多个分箱对应的多个第一融合标签;所述第一方融合对应相同分箱的第一融合标签,获得与所述多个分箱对应的多个第二融合标签,并向所述第二方发送所述多个分箱各自对应的第二融合标签;所述第二方根据所述同态加密算法的私钥,对所述多个分箱各自对应的第二融合标签进行解密,获得所述多个分箱各自包括的目标样本数据的第一数量。
[0010]在一种可能的实施方式中,所述方法还包括:所述第一方对所述多个数据分组,并发确定数据分组中属于相同分箱的样本数据的第二数量;所述第一方对与所述多个分箱中任意的第i个分箱相对应的第二数量求和,获得所述第i个分箱中所包括的样本数据的第三数量;所述第一方向所述第二方发送所述多个分箱各自对应的第三数量;所述第二方根据所述多个分箱各自对应的第一数量和第三数量,计算所述多个分箱各自对应的证据权重和/或信息价值。
[0011]第三方面,提供了一种种基于隐私保护的数据处理装置,涉及第一方和第二方,所述第一方持有多个样本数据,所述多个样本数据被划分为多个数据分组,所述第二方持有所述多个样本数据的多个标签值,所述装置部署在第一方。所述装置包括:通信处理单元,配置为从所述第二方接收所述多个样本数据的多个标签密文,所述多个标签密文是通过同态加密算法的公钥对所述多个标签值进行加密以得到的;分箱处理单元,配置为对所述多个数据分组,并发确定数据分组中的样本数据各自所属的分箱,并发融合数据分组中属于相同分箱的样本数据的标签密文,获得与多个分箱对应的多个第一融合标签;融合处理单元,配置为融合对应相同分箱的第一融合标签,获得与所述多个分箱对应的多个第二融合标签;所述通信处理单元,还配置为向所述第二方发送所述多个分箱各自对应的第二融合标签,使得所述第二方根据所述同态加密算法的私钥,对所述多个分箱各自对应的第二融合标签进行解密,获得所述多个分箱各自包括的目标样本数据的第一数量。
[0012]在一种可能的实施方式中,所述分箱处理单元,还配置为对所述多个数据分组,并发确定数据分组中属于相同分箱的样本数据的第二数量;所述融合处理单元,还配置为对与所述多个分箱中任意的第i个分箱相对应的第二数量求和,获得所述第i个分箱中所包括的样本数据的第三数量;所述通信处理单元,还配置为向所述第二方发送所述多个分箱各自对应的第三数量。
[0013]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序/指令,所述计算机程序/指令在计算设备中执行时,计算设备实现第一方面中任一项所述的方法。
[0014]第五方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面中任一项所述的方法。
[0015]通过本说明书一个或多个实施例中提供的方法及装置,第一方可以通过多任务并行执行的方式,快速完成对划分为多个数据分组的多个样本数据进行数据分箱,通过两轮密文融合操作快速获得与多个分箱对应的多个数据量相对较小的第二融合标签。因样本数据的标签密文是第二方使用同态加密算法的公钥对标签值进行加密以得到的,第一方通过
向第二方提供该多个分箱各自对应的第二融合标签而无需向第二方提供大规模数据,第二方即可根据同态加密算法的私钥对该多个分箱各自对应的第二融合标签进行解密,从而获得该多个分箱各自包括的目标样本数据的第一样本数量。综上,第一方和第二方可以在实现隐私保护并且无需交互大规模数据的情况下,快速完成对第一方持有的多个样本数据进行数据分箱,并且使得对应持有多个标签值的第二方获得多个分箱各自包含的目标样本数据。
附图说明
[0016]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于隐私保护的数据处理方法,涉及第一方和第二方,所述第一方持有多个样本数据,所述多个样本数据被划分为多个数据分组,所述第二方持有所述多个样本数据的多个标签值,所述方法由所述第一方执行,所述方法包括:从所述第二方接收所述多个样本数据的多个标签密文,所述多个标签密文是通过同态加密算法的公钥对所述多个标签值进行加密以得到的;对所述多个数据分组,并发确定数据分组中的样本数据各自所属的分箱,并发融合数据分组中属于相同分箱的样本数据的标签密文,获得与多个分箱对应的多个第一融合标签;融合对应相同分箱的第一融合标签,获得与所述多个分箱对应的多个第二融合标签;向所述第二方发送所述多个分箱各自对应的第二融合标签,使得所述第二方根据所述同态加密算法的私钥,对所述多个分箱各自对应的第二融合标签进行解密,获得所述多个分箱各自包括的目标样本数据的第一数量。2.根据权利要求1所述的方法,所述方法还包括:对所述多个数据分组,并发确定数据分组中属于相同分箱的样本数据的第二数量;对与所述多个分箱中任意的第i个分箱相对应的第二数量求和,获得所述第i个分箱中所包括的样本数据的第三数量;向所述第二方发送所述多个分箱各自对应的第三数量。3.根据权利要求1所述的方法,所述标签值的允许取值包括1,用于指示对应的样本数据是正样本;所述标签值的允许取值包括0,用于指示对应的样本数据是负样本。4.根据权利要求1

3中任一项所述的方法,所述方法还包括:将所述多个样本数据划分为多个数据分组。5.一种基于隐私保护的数据处理方法,涉及第一方和第二方,所述第一方持有多个样本数据,所述多个样本数据被划分为多个数据分组,所述第二方持有所述多个样本数据的多个标签值,所述方法包括:所述第二方通过同态加密算法的公钥对所述多个标签值进行加密,获得所述多个样本数据的多个标签密文;所述第二方向所述第一方发送所述多个样本数据的多个标签密文;所述第一方对所述多个数据分组,并发确定数据分组中的样本数据各自所属的分箱,并发融合数据分组中属于相同分箱的样本数据的标签密文,获得与多个分箱对应的多个第一融合标签;所述第一方融合对应相同分箱的第一融合标签,获得与所述多个分箱对应的多个第二融合标签,并向所述第二方发送所述多个分箱各自对应的第二融合标签;所述第二方根据所述同态加密算法的私钥,对所述多个分箱各自对应的第二融...

【专利技术属性】
技术研发人员:蒋金文白姣姣赵原
申请(专利权)人:蚂蚁区块链科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1