基于隐私保护的数据处理方法及装置制造方法及图纸

技术编号:38157211 阅读:19 留言:0更新日期:2023-07-13 09:26
一种基于隐私保护的数据处理方法及装置,涉及第一方和第二方,第一方持有被划分为多个数据分组的多个样本数据,第二方持有多个样本数据的多个标签值。由第一方执行的方法包括:从第二方接收通过同态加密算法的公钥对多个标签值进行加密以得到的多个标签密文;对多个数据分组,并发确定数据分组中的样本数据各自所属的分箱,并发融合数据分组中属于相同分箱的样本数据的标签密文,获得与多个分箱对应的多个第一融合标签;融合对应相同分箱的第一融合标签以获得多个第二融合标签;向第二方发送与多个分箱对应的多个第二融合标签,使第二方根据同态加密算法的私钥对多个第二融合标签进行解密,获得多个分箱各自包括的目标样本数据的第一样本数量。据的第一样本数量。据的第一样本数量。

【技术实现步骤摘要】
基于隐私保护的数据处理方法及装置


[0001]本说明书一个或多个实施例涉及计算机领域,尤其涉及一种基于隐私保护的数据处理方法及装置。

技术介绍

[0002]数据分箱通常也被表述为离散分箱或数据分段,其是数据挖掘中较为典型的数据预处理技术,用于按照样本数据中某个字段下的字段值,将已采集的多个样本数据划分到多个分箱/箱子中,用于减少次要观察误差的影响,提高泛化性。
[0003]部分涉及隐私保护的技术场景中,一个参与方(非标签方)可能持有多个样本数据,而另一个参与方(标签方)可能持有该多个样本数据对应的多个标签值,标签值通常用于指示对应的样本数据是正样本或负样本。非标签方可能对其持有的多个样本数据进行数据分箱,标签方可能期望获得各箱子/分箱中目标样本数据的数量,以便其计算各分箱的统计信息,例如证据权重(Weight of Evidence,WOE)和信息价值(Information Value,IV)。

技术实现思路

[0004]本说明书一个或多个实施例中提供了一种基于隐私保护的数据处理方法及装置。
>[0005]第一方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于隐私保护的数据处理方法,涉及第一方和第二方,所述第一方持有多个样本数据,所述多个样本数据被划分为多个数据分组,所述第二方持有所述多个样本数据的多个标签值,所述方法由所述第一方执行,所述方法包括:从所述第二方接收所述多个样本数据的多个标签密文,所述多个标签密文是通过同态加密算法的公钥对所述多个标签值进行加密以得到的;对所述多个数据分组,并发确定数据分组中的样本数据各自所属的分箱,并发融合数据分组中属于相同分箱的样本数据的标签密文,获得与多个分箱对应的多个第一融合标签;融合对应相同分箱的第一融合标签,获得与所述多个分箱对应的多个第二融合标签;向所述第二方发送所述多个分箱各自对应的第二融合标签,使得所述第二方根据所述同态加密算法的私钥,对所述多个分箱各自对应的第二融合标签进行解密,获得所述多个分箱各自包括的目标样本数据的第一数量。2.根据权利要求1所述的方法,所述方法还包括:对所述多个数据分组,并发确定数据分组中属于相同分箱的样本数据的第二数量;对与所述多个分箱中任意的第i个分箱相对应的第二数量求和,获得所述第i个分箱中所包括的样本数据的第三数量;向所述第二方发送所述多个分箱各自对应的第三数量。3.根据权利要求1所述的方法,所述标签值的允许取值包括1,用于指示对应的样本数据是正样本;所述标签值的允许取值包括0,用于指示对应的样本数据是负样本。4.根据权利要求1

3中任一项所述的方法,所述方法还包括:将所述多个样本数据划分为多个数据分组。5.一种基于隐私保护的数据处理方法,涉及第一方和第二方,所述第一方持有多个样本数据,所述多个样本数据被划分为多个数据分组,所述第二方持有所述多个样本数据的多个标签值,所述方法包括:所述第二方通过同态加密算法的公钥对所述多个标签值进行加密,获得所述多个样本数据的多个标签密文;所述第二方向所述第一方发送所述多个样本数据的多个标签密文;所述第一方对所述多个数据分组,并发确定数据分组中的样本数据各自所属的分箱,并发融合数据分组中属于相同分箱的样本数据的标签密文,获得与多个分箱对应的多个第一融合标签;所述第一方融合对应相同分箱的第一融合标签,获得与所述多个分箱对应的多个第二融合标签,并向所述第二方发送所述多个分箱各自对应的第二融合标签;所述第二方根据所述同态加密算法的私钥,对所述多个分箱各自对应的第二融...

【专利技术属性】
技术研发人员:蒋金文白姣姣赵原
申请(专利权)人:蚂蚁区块链科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1