一种面向隐私保护的分布式频率直方图估计系统技术方案

技术编号:38854412 阅读:13 留言:0更新日期:2023-09-17 10:00
本发明专利技术公开了一种面向隐私保护的分布式频率直方图估计系统,包括:参数和随机数初始化子系统、数据收集子系统和数据聚合子系统连接;参数和随机数初始化子系统,用于数据方和计算方的安全参数协商、数据方构建MPS++sketch的参数协商以及计算方生成相关随机数,其中MPS++sketch是本发明专利技术原创的解决该问题的数据梗概;数据收集子系统,用于通过数据方收集本地数据集,构建本地的MPS++sketch,并将数据方的数据梗概以及数据方独立生成的离散高斯噪声分享给计算方;数据聚合子系统,用于计算方聚合数据方的数据梗概,进而完成面向隐私保护的分布式频率直方图估计。保护的分布式频率直方图估计。保护的分布式频率直方图估计。

【技术实现步骤摘要】
一种面向隐私保护的分布式频率直方图估计系统


[0001]本专利技术属于数据挖掘技术和隐私计算
,尤其涉及一种面向隐私保护的分布式频率直方图估计系统。

技术介绍

[0002]随着社会的快速发展,数据隐私得到越来越多的关注,各个国家和地区相继推出相关法律法规保护个人隐私。再考虑到在线广告的发布者间缺乏信任,他们需要竞争广告收入并保护商业信息,而频率直方图是评价发布者推送广告效果的关键指标,因此必须为频率直方图问题构造一种分布式解决方案。我们构造一种适合分布式场景的数据梗概,采用基于秘密共享的SPDZ协议实现安全计算,并通过添加噪声的方式实现差分隐私。然而,已有的分布式频率直方图估计方案都存在一些缺点。第一,很多方案在可扩展性存在缺陷,例如使用标准Bloom Filter估计频率直方图,这类方案的数据梗概尺寸随受众数量线性增长,这在受众数量在数十亿级别的在线广告问题是无法接受的。第二,有些方案安全计算的运算量太大,例如有一类基于频率组合的频率直方图估计方案,发布者构建多个特定频率数据的数据梗概,再将这些数据梗概进行的安全组合,安全计算的需求量随频率估计范围的平方线性增长。第三,大多数方案的精度无法得到保证,基本所有方案都是基于采样的思想进行频率直方图的构建,但是这些方法对采样数量没有保障,随着受众数量的增长,这些方案的精度会明显变差。因此,亟需提出一种面向隐私保护的分布式频率直方图估计系统。

技术实现思路

[0003]为解决上述技术问题,本专利技术提出了一种面向隐私保护的分布式频率直方图估计系统,具有更高的估计精度,且精度不因数据集变大而降低,极大程度地保证数据隐私,安全方案的安全保证高,计算效率高。
[0004]为实现上述目的,本专利技术提供了一种面向隐私保护的分布式频率直方图估计系统,包括:参数和随机数初始化子系统、数据收集子系统以及数据聚合子系统,所述参数和随机数初始化子系统、所述数据收集子系统和所述数据聚合子系统连接;
[0005]所述参数和随机数初始化子系统,用于数据方和计算方的安全参数协商、数据方构建MPS++sketch的参数协商以及计算方生成相关随机数,其中MPS++sketch是一种数据梗概,所述MPS++sketch用于被插入对象的无偏采样进行频率直方图的估计;
[0006]所述数据收集子系统,用于通过所述数据方收集本地数据集,构建本地的MPS++sketch,将所述数据方的MPS++sketch以及所述数据方独立生成的离散高斯噪声采用秘密共享的方式给所述计算方;
[0007]所述数据聚合子系统,用于所述计算方聚合所述数据方的MPS++sketch,并完成面向隐私保护的分布式频率直方图估计。
[0008]可选的,所述数据方和所述计算方的安全参数协商包括:所述数据方和计算方共同协商一个有限域。
[0009]可选的,所述数据方构建MPS++sketch的参数协商包括:生成MPS++sketch所需哈希密钥,以及MPS++sketch的尺寸m和w。
[0010]可选的,所述任意相关随机数只被用于一次计算。
[0011]可选的,通过所述数据方收集的本地数据集,构建本地的MPS++sketch,将所述数据方的MPS++sketch分享给所述计算方的过程包括:
[0012]所述数据方使用同一组哈希函数,每个所述数据方计算本地的MPS++sketch,接着所述数据方利用秘密共享的方式将本地的MPS++sketch分享给所述计算方。
[0013]可选的,将所述数据方的MPS++sketch分享给所述计算方之后,所述数据方通过离散高斯噪声机制独立生成一组离散高斯随机变量,并将所述离散高斯随机变量利用秘密分享的方式分享给所有计算方,实现对差分隐私的保证。
[0014]可选的,所述计算方聚合所述数据方的MPS++sketch的方法为:
[0015][0016][0017]其中,i=1,

,m,l=1,

,w,m代表MPS++sketch的单个矩阵包含整数数组个数,w代表单个整数数组的长度,d代表数据方的数量。
[0018]可选的,所述MPS++sketch由4个矩阵组成,每个矩阵包含m个整数数组。
[0019]本专利技术技术效果:本专利技术公开了一种面向隐私保护的分布式频率直方图估计系统,本专利技术使用一种原创的MPS++sketch,当MPS++sketch的参数w取值合适且数据集较大时,采样用户的数量基本维持不变,而其他方法的采样数量大多都会随数据集的增加而降低,因此本专利技术的估计精度更有保障。本专利技术极大程度地保证数据隐私,且安全方案的安全保证高,本专利技术采用由多个数据方提供离散高斯噪声的方法实现差分隐私,该方法理论完备、对结果影响小;除此之外,安全方案所使用的SPDZ协议保证强安全性,即只要一个计算方没有被攻击者控制,攻击者就无法推断任意时刻的计算结果,也无法篡改被控制计算方的结果而不被发现。与此同时,本专利技术与其他方案相比计算效率高,数据方只需要对每个数据进行两次哈希运算,计算方只需要做加法、乘法以及判零操作,计算速度快,对计算资源的要求低。
附图说明
[0020]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0021]图1为本专利技术实施例面向隐私保护的分布式频率直方图估计系统的结构示意图;
[0022]图2为本专利技术实施例本专利技术参数和随机数初始化子系统流程图;
[0023]图3为本专利技术实施例数据收集子系统流程图;
[0024]图4为本专利技术实施例MPS++sketch更新方式说明图;
[0025]图5为本专利技术实施例数据聚合子系统流程图。
具体实施方式
[0026]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0027]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0028]如图1所示,本实施例中提供一种面向隐私保护的分布式频率直方图估计系统,包括:参数和随机数初始化子系统,数据收集子系统以及数据聚合子系统。系统的输入数据为数据方进行广告推送的数据,主要包含用户的ID以及对应被推送的频次。
[0029]首先,数据方将各自的安全要求和精度要求输入参数和随机数初始化子系统,该系统根据这些要求确定数据梗概相关参数和安全参数,并产生后两个子系统所需的随机数。
[0030]其次,数据方将数据以及数据梗概相关参数、安全参数输入数据收集子系统,该子系统的主要任务是数据方生成各自的MPS++sketch,并生成满足要求的离散高斯噪声,接着将这些数据秘密分享给数据聚合子系统。
[0031]最后,数据聚合子系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向隐私保护的分布式频率直方图估计系统,其特征在于,包括:参数和随机数初始化子系统、数据收集子系统以及数据聚合子系统,所述参数和随机数初始化子系统、所述数据收集子系统和所述数据聚合子系统连接;所述参数和随机数初始化子系统,用于数据方和计算方的安全参数协商、数据方构建MPS++sketch的参数协商以及计算方生成相关随机数,其中MPS++sketch是一种数据梗概,所述MPS++sketch用于被插入对象的无偏采样进行频率直方图的估计;所述数据收集子系统,用于通过所述数据方收集本地数据集,构建本地的MPS++sketch,将所述数据方的MPS++sketch以及所述数据方独立生成的离散高斯噪声采用秘密共享的方式给所述计算方;所述数据聚合子系统,用于所述计算方聚合所述数据方的MPS++sketch,并完成面向隐私保护的分布式频率直方图估计。2.如权利要求1所述的面向隐私保护的分布式频率直方图估计系统,其特征在于,所述数据方和所述计算方的安全参数协商包括:所述数据方和计算方共同协商一个有限域。3.如权利要求1所述的面向隐私保护的分布式频率直方图估计系统,其特征在于,所述数据方构建MPS++sketch的参数协商包括:生成MPS++sketch所需哈希密钥,以及MPS++sketch的尺寸m和w。4.如权利要求1所述的面向隐私保护的分布式频率直方图估计系统,其特征在于,所述任意相关随机...

【专利技术属性】
技术研发人员:王平辉杨浩鑫孙钦东管晓宏
申请(专利权)人:四川数字经济产业发展研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1