两方数据分组统计方法、装置及系统制造方法及图纸

技术编号:26478881 阅读:37 留言:0更新日期:2020-11-25 19:23
本说明书的实施例提供两方数据分组统计方法、装置及系统。在第一数据拥有方处,根据数据样本的统计变量的变量值以及第一分组变量的变量值数目来为数据样本集中的各个数据样本构建样本数组,并将经过加密后的各个数据样本的样本数组发送给第二数据拥有方。在第二数据拥有方处,根据所具有的第二分组变量的变量值对数据样本集进行分组,针对各个样本分组,根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果,并将各个样本分组的第一密文统计结果发送给第一数据拥有方。随后,在第一数据拥有方处,对各个样本分组的第一密文统计结果进行解密得到分组统计结果,由此实现基于隐私数据保护的两方数据分组统计。

【技术实现步骤摘要】
两方数据分组统计方法、装置及系统
本说明书实施例通常涉及数据处理领域,尤其涉及用于经由第一和第二数据拥有方联合分组统计的方法、装置及系统。
技术介绍
在很多应用场景下,存在两个数据拥有方(例如,个体或机构)联合进行数据统计的需求,比如,若干商业保险机构联合统计得到行业总体情况,或者若干医疗机构联合统计得到某些疾病的总体情况。然而,在进行联合统计时,每个数据拥有方的用户数据都是机密数据,需要进行隐私保护,不能泄露给对方。如何在确保两方数据隐私安全的情况下实现分组统计成为亟待解决的问题。
技术实现思路
鉴于上述,本说明书实施例提供用于经由第一和第二数据拥有方联合分组统计的方法、装置和系统。利用该方法、装置和系统,在第一数据拥有方处,根据所具有的第一分组变量的变量值和统计变量的变量值,为每个数据样本构建样本数组,所构建出的样本数组的每个维度分别对应于第一分组变量的不同变量值,并且除了该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量,其它维度处的维度值都为零,并将经过加密后的各个数据样本本文档来自技高网...

【技术保护点】
1.一种用于经由第一和第二数据拥有方联合分组统计的方法,第一数据拥有方具有数据样本的第一分组变量和统计变量,第二数据拥有方具有所述数据样本的第二分组变量,所述方法包括:/n在第一数据拥有方处,为数据样本集中的各个数据样本构建样本数组,并将经过加密后的各个数据样本的样本数组发送给第二数据拥有方,在所述样本数组中,每个维度分别对应于所述第一分组变量的不同变量值,该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量,以及其它维度处的维度值为零;/n在第二数据拥有方处,根据所具有的第二分组变量的变量值对所述数据样本集进行分组,针对各个样本分组,根据该样本分组中的所有数...

【技术特征摘要】
1.一种用于经由第一和第二数据拥有方联合分组统计的方法,第一数据拥有方具有数据样本的第一分组变量和统计变量,第二数据拥有方具有所述数据样本的第二分组变量,所述方法包括:
在第一数据拥有方处,为数据样本集中的各个数据样本构建样本数组,并将经过加密后的各个数据样本的样本数组发送给第二数据拥有方,在所述样本数组中,每个维度分别对应于所述第一分组变量的不同变量值,该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量,以及其它维度处的维度值为零;
在第二数据拥有方处,根据所具有的第二分组变量的变量值对所述数据样本集进行分组,针对各个样本分组,根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果,并将各个样本分组的第一密文统计结果发送给第一数据拥有方;以及
在第一数据拥有方处,对各个样本分组的第一密文统计结果进行解密得到分组统计结果。


2.如权利要求1所述的方法,还包括:
在第二数据拥有方处,对各个样本分组的第一密文统计结果进行重随机处理,
将各个样本分组的第一密文统计结果发送给第一数据拥有方包括:
将各个样本分组的经过重随机处理后的第一密文统计结果发送给第一数据拥有方。


3.如权利要求2所述的方法,其中,所述第一数据拥有方具有公钥/私钥对,所述第一数据拥有方使用公钥/私钥对中的公钥对样本数组进行加密,所述方法还包括:
第一数据拥有方将所述公钥发送给第二数据拥有方,
在第二数据拥有方处,对各个样本分组的第一密文统计结果进行重随机处理包括:
在第二数据拥有方处,针对各个样本分组,使用所述公钥生成0的随机密文,并将所生成的随机密文与该样本分组的第一密文统计结果同态相加得到该样本分组的第二密文统计结果。


4.如权利要求1所述的方法,其中,将各个样本分组的第一密文统计结果发送给第一数据拥有方包括:
将各个样本分组的第一密文统计结果以及对应的第二分组变量的变量值发送给第一数据拥有方。


5.如权利要求1所述的方法,其中,所述第一分组变量包括多个第一分组变量,以及所述样本分组的维度数等于所述多个第一分组变量的变量取值的不同组合的组合数。


6.如权利要求1所述的方法,其中,所述样本数组的加密过程采用同态加密算法实现。


7.如权利要求6所述的方法,其中,所述同态加密算法包括基于Paillier的分段加密算法。


8.如权利要求1到7中任一所述的方法,其中,所述分组统计包括:
分组求和;
分组计数;
分组求均值;或者
分组求方差。


9.一种用于经由第一和第二数据拥有方联合分组统计的方法,第一数据拥有方具有数据样本的第一分组变量和统计变量,第二数据拥有方具有所述数据样本的第二分组变量,所述方法应用于第一数据拥有方,所述方法包括:
为数据样本集中的各个数据样本构建样本数组,在所述样本数组中,每个维度分别对应于所述第一分组变量的不同变量值,该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量,以及其它维度处的维度值为零;
对各个数据样本的样本数组进行加密并将加密后的样本数组发送给第二数据拥有方;
从第二数据拥有方获取各个样本分组的第一密文统计结果,各个样本分组由第二数据拥有方根据所具有的第二分组变量的变量值对所述数据样本集进行分组得到,各个样本分组的第一密文统计结果由第二数据拥有方使用该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到;以及
对各个样本分组的第一密文统计结果进行解密得到分组统计结果。


10.一种用于经由第一和第二数据拥有方联合分组统计的方法,第一数据拥有方具有数据样本的第一分组变量和统计变量,第二数据拥有方具有所述数据样本的第二分组变量,所述方法应用于第二数据拥有方,所述方法包括:
从第一数据拥有方获取各个数据样本的加密后的样本数组,各个数据样本的样本数组由第一数据拥有方根据该数据样本的统计变量的变量值以及第一分组变量的变量值数目构建,在所述样本数组中,每个维度分别对应于所述第一分组变量的不同变量值,该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量,以及其它维度处的维度值为零;
根据所具有的第二分组变量的变量值对所述数据样本集进行分组;
针对各个样本分组,根据该样本分组中的所有数据样本的加密后的样本...

【专利技术属性】
技术研发人员:张文彬李漓春
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1