当前位置: 首页 > 专利查询>山东大学专利>正文

面向数值分布计算的本地化差分隐私保护方法及系统技术方案

技术编号:30904606 阅读:18 留言:0更新日期:2021-11-22 23:49
本发明专利技术公开了面向数值分布计算的本地化差分隐私保护方法及系统,服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户端数据的样本分布;基于所述样本分布,服务器获取第二批数据拥有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;基于前t

【技术实现步骤摘要】
面向数值分布计算的本地化差分隐私保护方法及系统


[0001]本专利技术涉及数据安全与隐私保护
,特别是涉及面向数值分布计算 的本地化差分隐私保护方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有 技术。
[0003]每个数据拥有者客户端个体拥有一条数值属性的数据,比如数据拥有者客 户端个人的工资,或是年龄,或是浏览某一特定页面的时间等。实际应用中, 为了完成某些特定的查询任务,如均值查询,范围查询等,需要收集所有数据 拥有者客户端个体所拥有的数据来计算整体数据的数值分布。然而,数据中往 往包含数据拥有者客户端个体的敏感信息,数据拥有者客户端不太会想要分享 个人的真实数据给任何第三方数据收集者。因此,需要解决满足隐私保护的数 值属性数据数值分布计算问题。
[0004]本地化差分隐私作为一种新的隐私保护模型,不依赖与任何宣称自己是可信 的第三方实体,从数据拥有者客户端个体的角度出发对每个数据拥有者客户端 的真实数据提供隐私保护,即便第三方数据收集者是恶意的,也能够保证数据 拥有者客户端个体的隐私不被泄露。在该模型中,数据拥有者客户端通过在本 地将自己的真实数据添加适量噪音加以扰动,并将扰动后的数据发送给第三方 数据收集者,第三方数据收集者在收到所有数据拥有者客户端添加了扰动的数 据之后,对所有数据拥有者客户端的真实数据所组成的数据集的数值分布进行 计算。
[0005]基于该模型,现有工作提出了一些方案来解决该问题。
[0006]其中,一部分工作直接利用针对分类属性数据的频数估计协议来完成数值分 布计算,具体来说,首先对要收集的数据拥有者客户端数据所在的数值域通过 等距的数据分箱技术进行离散化,将离散后的每个箱子看做一个单独的分类, 并将数据拥有者客户端的数据所属的类标记为数据拥有者客户端个体所属的一 个分类属性,这样就将数据拥有者客户端的数值属性数据转化为分类属性的数 据,接着数据拥有者客户端会将添加了扰动之后的分类属性数据发送给第三方 数据收集者,最后第三方数据收集者会对收集到的数据进行统计集成并给出原 来的数值属性数据频率分布的计算结果。然而该方法没有考虑数值属性数据的 有序性特点,将每个分类看做一个黑盒模型,导致分布估计的准确性下降。
[0007]另一部分工作从信息论的角度出发,提出将数据拥有者客户端的真实数据进 行扰动时,将其扰动为其附近的一个数值比扰动为距离其较远的一个数值所带 来的有用信息更多,基于此观察提出了Square Wave(SW)扰动机制,并采用 Expectation Maximization with Smoothing(EMS)算法作为后处理算法重构了数 值分布,提高了数值分布的准确性。
[0008]但是,专利技术人发现,以上方法在给出数值分布的计算结果时,并没有考虑利 用关于数据集的真实分布的先验知识所带来的有用信息,也没有考虑到数值分 布计算过程中
的数据隐私保护。

技术实现思路

[0009]为了解决现有技术的不足,本专利技术提供了面向数值分布计算的本地化差分 隐私保护方法及系统;
[0010]第一方面,本专利技术提供了面向数值分布计算的本地化差分隐私保护方法;
[0011]面向数值分布计算的本地化差分隐私保护方法,包括:
[0012]服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户 端数据的样本分布;
[0013]基于第一批数据拥有者客户端数据的样本分布,服务器获取第二批数据拥 有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;
[0014]服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;
[0015]基于前t

1批数据拥有者客户端数据的样本分布,服务器获取第t批数据拥 有者客户端数据,并计算第t批数据拥有者客户端数据的样本分布;
[0016]服务器将前T批数据拥有者客户端数据的样本分布汇总,并发布;
[0017]服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分布的 样本频率。
[0018]第二方面,本专利技术提供了面向数值分布计算的本地化差分隐私保护系统;
[0019]面向数值分布计算的本地化差分隐私保护系统,包括:服务器,和若干个 数据拥有者客户端;
[0020]服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户 端数据的样本分布;
[0021]基于第一批数据拥有者客户端数据的样本分布,服务器获取第二批数据拥 有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;
[0022]服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;
[0023]基于前t

1批数据拥有者客户端数据的样本分布,服务器获取第t批数据拥 有者客户端数据,并计算第t批数据拥有者客户端数据的样本分布;
[0024]服务器将前T批数据拥有者客户端数据的样本分布汇总,并发布;
[0025]服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分布的 样本频率。
[0026]与现有技术相比,本专利技术的有益效果是:
[0027]在本地化场景下,每个数据拥有者客户端个体拥有一条数值类型的数据, 这被称为数值属性数据。为了完成某些特定的查询任务,如范围查询,需要收 集所有数据拥有者客户端个体的数据来计算整体数据的数值分布。然而,数据 中往往包含数据拥有者客户端个体的敏感信息。因此,需要解决满足隐私保护 的数值属性数据数值分布计算问题。该方法利用关于整体数据的分布的先验知 识来减小计算数值分布时的误差。本专利技术相对于已有的计算方法,能够为每个 数据拥有者客户端个体提供隐私保护的同时,显著提高计算结果的精度。
[0028]本专利技术从利用数据集分布的先验知识的角度出发,提出基于累计分布映射 的数
值属性数据数值分布计算方法,以进一步提高分布计算结果的精度。也能 够实现数值分布计算过程中的数据拥有者客户端隐私保护。
[0029]本专利技术附加方面的优点将在下面的描述中部分给出,或通过本专利技术的实践了 解到。
附图说明
[0030]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本发 明的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0031]图1为第一个实施例的方法流程图。
具体实施方式
[0032]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。 除非另有指明,本专利技术使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0033]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图 限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确 指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括
”ꢀ
和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向数值分布计算的本地化差分隐私保护方法,其特征是,包括:服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户端数据的样本分布;基于第一批数据拥有者客户端数据的样本分布,服务器获取第二批数据拥有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;基于前t

1批数据拥有者客户端数据的样本分布,服务器获取第t批数据拥有者客户端数据,并计算第t批数据拥有者客户端数据的样本分布;服务器将前T批数据拥有者客户端数据的样本分布汇总,并发布;服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分布的样本频率。2.如权利要求1所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户端数据的样本分布;具体包括:第一批数据拥有者客户端,均对自己的真实数据添加扰动,生成扰动数据;服务器采集第一批数据拥有者客户端所生成的扰动数据;其中,第一批数据拥有者客户端数量占整体数据拥有者客户端数量的服务器计算第一批数据拥有者客户端数据的样本分布。3.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,第一批数据拥有者客户端,均对自己的真实数据添加扰动,生成扰动数据;是采用方波扰动机制实现扰动的添加。4.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,第一批数据拥有者客户端,均对自己的真实数据添加扰动,生成扰动数据;具体包括:第一批数据拥有者客户端,均将自己的真实数据压缩为区间[0,1]上的浮点数,记区间[0,1]=D;设置表示隐私保护强度的参数ε的取值,ε越大,表示提供的隐私保护强度越高,反之则越低;对于得到的每一个数据拥有者客户端的浮点数v,该算法以如下概率输出扰动结果即有:其中D=[0,1]表示得到的所有数据拥有者客户端的浮点数可能的取值集合,表示所有可能的扰动结果的取值集合,是一个正数,表示将某个浮点数v通过方波扰动机制扰动为某个值的概率,p与q都是正数且在得到扰动结果后,数据拥有者客户端将其报告给服务器。
5.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,服务器计算第一批数据拥有者客户端数据的样本分布;是服务器在拿到第一批数据拥有者客户端的报告结果后,采用带有平滑的期望最大化算法作为后处理算法来推断第一批数据拥有者客户端的真实数据的样本分布;该算法采用最大似然估计的思想,通过多次迭代来进行计算。6.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,服务器计算第一批数据拥有者客户端数据的样本分布;具体包括:区间划分:将SW算法的输入域D和输出域都等距划分为K个相互独立的子区间,并将每个区间看作一个独立的桶,记划分输入域D的K个桶分别为B1,B2,

,B
K
;划分输出域的K个桶分别为计算概率转移矩阵:定义一个K
×
K维的概率转移矩阵M来刻画SW扰动算法的扰动过程,其中M
j,i
表示,当数据拥有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即v∈B
i
时,SW扰动算法以概率M
j,i
输出扰动结果且扰动结果落在划分输出域的第j个桶内,即有假定划分输入域的每个桶内的数据是服从均匀分布的,计算矩阵M中的元素M
j,i
,i,j=1,2,

,K;统计报告值:在收到所有数据拥有者客户端的扰动结果后,服务器统计数据拥有者客户端的扰动值落在划分输出域的K个桶内的数据点的个数,记落入桶内的数据点个数为n
j
,j=1,2,

,K;计算第一批数据拥有者客户端数据的样本分布:采用多次迭代的方式计算数据拥有者客户端的真实数据点落在桶B
i
内的样本占比,并给出最终的计算结果i=1,2,

,K,记7.如权利要求6所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,所述计算第一批数据拥有者客户端数据的样本分布;具体步骤包括:(1)计算期望:对设定为均匀分布,即令计算其中,表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比,表示已知当前的数据集服从分布并且数据拥有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即v∈B
i
时,SW扰动算法输出扰
动结果且扰动结果落在划分输出域的第j个桶内的条件概率;表示已知当前的数据集分布为均匀分布时,SW扰动算法输出扰动结果且扰动结果落在划分输出域的第j个桶内的条件概率;(2)期望最大化:由(1)得到的计算结果对分布估计结果进行更新,即对有其中,P
i
是由(1)中得到的参数,表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内更新后的用户占比;(3)平滑操作:对(2)中得到的更新结果利用平滑算法进行处理,即对有其中,等式右边中的与是由(2)中得到的第一批数据拥有者客户端的数据分别落在划分输入域的第i

1、第i+1和第i个桶内的用户占比;等式左边的表示由(2)中得到的第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比经过平滑操作之后的结果;(4)计算当前更新后的分布参数下的似然函数下的似然函数其中,n1表示第一批数据拥有者客户端的人数,表示第k个数据拥有者客户端的报告值,表示由(3)中得到的第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比;的取值取决于落在输出域上的位置,是一个概率值;(5)判断停止迭代条件:根据(4)计算得到的在当前迭代下的似然函数的结果,假设当前为第t+1次迭代过程,对于一个正数τ来说,当前为第t+1次迭代过程,对于一个正数τ来说,当时,带有平滑的期望最大化算法收敛,即停止进行操作,并将当前的估计值作为最终的输出结果,否则,继续执行(1)~(3)中的操作对参数进行更新,并执行(4)再次计算似然函数以判断是否停止迭代;(6)输出并公开样本分布:由(5)最终得到的第一批数据拥有者客户端的数据在数据域D上的样本分布计算每...

【专利技术属性】
技术研发人员:郭山清白兴涛唐朋胡程瑜刘高源杨晨旭赵洁
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1