面向数值分布计算的本地化差分隐私保护方法及系统技术方案

技术编号：30904606 阅读：18 留言：0更新日期：2021-11-22 23:49

本发明专利技术公开了面向数值分布计算的本地化差分隐私保护方法及系统，服务器获取第一批数据拥有者客户端数据，并计算第一批数据拥有者客户端数据的样本分布；基于所述样本分布，服务器获取第二批数据拥有者客户端数据，并计算第二批数据拥有者客户端数据的样本分布；服务器将前两批数据拥有者客户端数据的样本分布汇总，并发布；基于前t

全部详细技术资料下载

【技术实现步骤摘要】
面向数值分布计算的本地化差分隐私保护方法及系统

[0001]本专利技术涉及数据安全与隐私保护
，特别是涉及面向数值分布计算的本地化差分隐私保护方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
，并不必然构成现有技术。
[0003]每个数据拥有者客户端个体拥有一条数值属性的数据，比如数据拥有者客户端个人的工资，或是年龄，或是浏览某一特定页面的时间等。实际应用中，为了完成某些特定的查询任务，如均值查询，范围查询等，需要收集所有数据拥有者客户端个体所拥有的数据来计算整体数据的数值分布。然而，数据中往往包含数据拥有者客户端个体的敏感信息，数据拥有者客户端不太会想要分享个人的真实数据给任何第三方数据收集者。因此，需要解决满足隐私保护的数值属性数据数值分布计算问题。
[0004]本地化差分隐私作为一种新的隐私保护模型，不依赖与任何宣称自己是可信的第三方实体，从数据拥有者客户端个体的角度出发对每个数据拥有者客户端的真实数据提供隐私保护，即便第三方数据收集者是恶意的，也能够保证数据拥有者客户端个体的隐私不被泄露。在该模型中，数据拥有者客户端通过在本地将自己的真实数据添加适量噪音加以扰动，并将扰动后的数据发送给第三方数据收集者，第三方数据收集者在收到所有数据拥有者客户端添加了扰动的数据之后，对所有数据拥有者客户端的真实数据所组成的数据集的数值分布进行计算。
[0005]基于该模型，现有工作提出了一些方案来解决该问题。
[0006]其...

【技术保护点】

【技术特征摘要】
1.面向数值分布计算的本地化差分隐私保护方法，其特征是，包括：服务器获取第一批数据拥有者客户端数据，并计算第一批数据拥有者客户端数据的样本分布；基于第一批数据拥有者客户端数据的样本分布，服务器获取第二批数据拥有者客户端数据，并计算第二批数据拥有者客户端数据的样本分布；服务器将前两批数据拥有者客户端数据的样本分布汇总，并发布；基于前t
‑
1批数据拥有者客户端数据的样本分布，服务器获取第t批数据拥有者客户端数据，并计算第t批数据拥有者客户端数据的样本分布；服务器将前T批数据拥有者客户端数据的样本分布汇总，并发布；服务器基于汇总后的样本分布，按照累计分布，计算汇总后的样本分布的样本频率。2.如权利要求1所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，服务器获取第一批数据拥有者客户端数据，并计算第一批数据拥有者客户端数据的样本分布；具体包括：第一批数据拥有者客户端，均对自己的真实数据添加扰动，生成扰动数据；服务器采集第一批数据拥有者客户端所生成的扰动数据；其中，第一批数据拥有者客户端数量占整体数据拥有者客户端数量的服务器计算第一批数据拥有者客户端数据的样本分布。3.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，第一批数据拥有者客户端，均对自己的真实数据添加扰动，生成扰动数据；是采用方波扰动机制实现扰动的添加。4.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，第一批数据拥有者客户端，均对自己的真实数据添加扰动，生成扰动数据；具体包括：第一批数据拥有者客户端，均将自己的真实数据压缩为区间[0，1]上的浮点数，记区间[0，1]＝D；设置表示隐私保护强度的参数ε的取值，ε越大，表示提供的隐私保护强度越高，反之则越低；对于得到的每一个数据拥有者客户端的浮点数v，该算法以如下概率输出扰动结果即有：其中D＝[0，1]表示得到的所有数据拥有者客户端的浮点数可能的取值集合，表示所有可能的扰动结果的取值集合，是一个正数，表示将某个浮点数v通过方波扰动机制扰动为某个值的概率，p与q都是正数且在得到扰动结果后，数据拥有者客户端将其报告给服务器。
5.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，服务器计算第一批数据拥有者客户端数据的样本分布；是服务器在拿到第一批数据拥有者客户端的报告结果后，采用带有平滑的期望最大化算法作为后处理算法来推断第一批数据拥有者客户端的真实数据的样本分布；该算法采用最大似然估计的思想，通过多次迭代来进行计算。6.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，服务器计算第一批数据拥有者客户端数据的样本分布；具体包括：区间划分：将SW算法的输入域D和输出域都等距划分为K个相互独立的子区间，并将每个区间看作一个独立的桶，记划分输入域D的K个桶分别为B1,B2,
…
,B
K
；划分输出域的K个桶分别为计算概率转移矩阵：定义一个K
×
K维的概率转移矩阵M来刻画SW扰动算法的扰动过程，其中M
j,i
表示，当数据拥有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即v∈B
i
时，SW扰动算法以概率M
j,i
输出扰动结果且扰动结果落在划分输出域的第j个桶内，即有假定划分输入域的每个桶内的数据是服从均匀分布的，计算矩阵M中的元素M
j,i
，i,j＝1,2,
…
,K；统计报告值：在收到所有数据拥有者客户端的扰动结果后，服务器统计数据拥有者客户端的扰动值落在划分输出域的K个桶内的数据点的个数，记落入桶内的数据点个数为n
j
,j＝1,2,
…
,K；计算第一批数据拥有者客户端数据的样本分布：采用多次迭代的方式计算数据拥有者客户端的真实数据点落在桶B
i
内的样本占比，并给出最终的计算结果i＝1,2,
…
,K,记7.如权利要求6所述的面向数值分布计算的本地化差分隐私保护方法，其特征是，所述计算第一批数据拥有者客户端数据的样本分布；具体步骤包括：(1)计算期望：对设定为均匀分布，即令计算其中，表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比，表示已知当前的数据集服从分布并且数据拥有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即v∈B
i
时，SW扰动算法输出扰
动结果且扰动结果落在划分输出域的第j个桶内的条件概率；表示已知当前的数据集分布为均匀分布时，SW扰动算法输出扰动结果且扰动结果落在划分输出域的第j个桶内的条件概率；(2)期望最大化：由(1)得到的计算结果对分布估计结果进行更新，即对有其中，P
i
是由(1)中得到的参数，表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内更新后的用户占比；(3)平滑操作：对(2)中得到的更新结果利用平滑算法进行处理，即对有其中，等式右边中的与是由(2)中得到的第一批数据拥有者客户端的数据分别落在划分输入域的第i
‑
1、第i+1和第i个桶内的用户占比；等式左边的表示由(2)中得到的第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比经过平滑操作之后的结果；(4)计算当前更新后的分布参数下的似然函数下的似然函数其中，n1表示第一批数据拥有者客户端的人数，表示第k个数据拥有者客户端的报告值，表示由(3)中得到的第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比；的取值取决于落在输出域上的位置，是一个概率值；(5)判断停止迭代条件：根据(4)计算得到的在当前迭代下的似然函数的结果，假设当前为第t+1次迭代过程，对于一个正数τ来说，当前为第t+1次迭代过程，对于一个正数τ来说，当时，带有平滑的期望最大化算法收敛，即停止进行操作，并将当前的估计值作为最终的输出结果，否则，继续执行(1)～(3)中的操作对参数进行更新，并执行(4)再次计算似然函数以判断是否停止迭代；(6)输出并公开样本分布：由(5)最终得到的第一批数据拥有者客户端的数据在数据域D上的样本分布计算每...

【专利技术属性】
技术研发人员：郭山清，白兴涛，唐朋，胡程瑜，刘高源，杨晨旭，赵洁，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人