一种用于局部差异隐私下的边际释放的一致自适应边际制造技术

技术编号:26650816 阅读:21 留言:0更新日期:2020-12-09 00:51
本发明专利技术公开了一种用于局部差异隐私下的边际释放的一致自适应边际,属于局部差异隐私技术领域,包括以下步骤:S1:聚合器将总体随机分为大小相同的m个组;S2:选择一组m个边际集和要使用的FO协议;S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;S7:生成k向边距;本发明专利技术对于局部差分隐私下的边际释放问题,引入了CALM,当存在非二进制属性时,CALM也适用。

【技术实现步骤摘要】
一种用于局部差异隐私下的边际释放的一致自适应边际
本专利技术属于局部差异隐私
,具体涉及一种用于局部差异隐私下的边际释放的一致自适应边际。
技术介绍
现有用于局部差异隐私下的边际释放方法在高维环境中表现不佳,更糟糕的是,某些方法会产生非常昂贵的计算开销。
技术实现思路
为解决上述
技术介绍
中提出的问题。本专利技术提供了一种用于局部差异隐私下的边际释放的一致自适应边际,具有提高有效性和效率的特点。为实现上述目的,本专利技术提供如下技术方案:一种用于局部差异隐私下的边际释放的一致自适应边际,包括以下步骤:S1:聚合器将总体随机分为大小相同的m个组;S2:选择一组m个边际集和要使用的FO协议;S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;S7本文档来自技高网...

【技术保护点】
1.一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于,包括以下步骤:/nS1:聚合器将总体随机分为大小相同的m个组;/nS2:选择一组m个边际集和要使用的FO协议;/nS3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;/nS4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;/nS5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;/nS6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;/nS7:生成k向边距。/n

【技术特征摘要】
1.一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于,包括以下步骤:
S1:聚合器将总体随机分为大小相同的m个组;
S2:选择一组m个边际集和要使用的FO协议;
S3:聚合器将每个用户分配给边际之一,并通知用户应报告哪个边际;
S4:每个用户将其私人价值v投影到他要报告的边际上,并通过FO报告v的预测值;
S5:服务器在接收到用户的报告后,使用FO的聚合算法来获取嘈杂的边缘表;
S6:给定这些嘈杂的边际/视图,可以直接计算一些三向边际;
S7:生成k向边距。


2.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤S1中,分组的具体步骤为:
S11:对混合属性数据表可行的差分隐私保护方法
为加强隐私保护和提高数据可用性,提出一种可对混合属性数据表执行差分隐私的数据保护方法,该方法首先采用ICMD聚类算法对数据进行聚类匿名,然后在此基础上进行ε-差分隐私保护,ICMD聚类算法对数据表中的分类属性和数值属性采用不同方法计算距离和质心,并引入全序函数以满足执行差分隐私的要求,通过聚类,实现了将查询敏感度由单条数据向组数据的分化,降低了信息损失和信息纰漏的风险,
对于查询函数f,若算法A有则算法A满足ε-差分隐私,其中,Δf表示查询函数的敏感性,指的是查询函数f作用于邻近数据集时产生的最大距离差,添加拉普拉斯噪声引起的误差
S12:混合型数据表中距离和质心计算
现有数据大多数为混合型数据表,即表中的数据属性既有数值型又有分类型,针对不同属性的数据有不同的距离计算和质心求解方法,采用单一的方法往往会造成信息丢失、质心偏差等问题,因而提出一种针对混合型数据表的距离计算和质心求解方法,
设混合型数据集D以及X,Y为数据集D中的记录,每一个记录具有p维分类属性和q维数值属性,计算数据记录X,Y的距离d(X,Y)c,首先分别计算其分类属性距离d(X,Y)n,定义如下:
S121:分类距离
对于数据表中的任意记录X,Y,假设数据表含有p维分类属性,则记录X,Y的分类属性部分的距离定义为:



其中,
由式中可知,每维分类属性取值[0,1],对于指数型,如果采用海明距离作为每维数据的距离,会导致分类属性部分的距离被数值属性部分的距离湮灭,因而采用如下定义计算数值属性距离;
S122:数值距离
首先将数据记录的数值属性部分的每一维进行标准化处理,即X第q维值为其中为该维数据记录的最大值,为该维数据记录的最小值,则该数值部分距离为:



S123:混合距离
通过把数据记录X,Y的分类属性和数值属性的距离相加可得它们之间的距离,即:D(X,Y)=d(X,Y)c+d(X,Y)n;
S124:质心
设T是n维数据集D的一个等价类,ti是等价类T的一条记录,即ti∈T,(i=1,2,...,n),是记录ti的数值属性部分,是记录ti的分类属性部分,即:设to是数值属性的均值,tc是属性的泛化,则等价类T的质心为C(T)={to,tc}。
S13:数据发布方法
针对混合性数据表,阐述其距离和质心的计算方法,提出一种满足k匿名机制的聚类方法,然后对聚类后的数据添加噪声,实现差分隐私保护。聚类操作减小了查询函数的敏感性,进而可以通过添加较小的噪声达到同样的隐私保护效果,提高数据可用性;
S14:对混合数据表可行的聚类方法
在MDAV的基础上,采用所述的混合属性数据表距离和质心计算方法,提出一种对混合属性数据表可行的聚类匿名化方法CMD,根据k-匿名的定义可知,该方法同时满足k-匿名机制,
聚类算法CMD(D,k):
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸。
输出:满足k-匿名的聚类数据集D′。
步骤:
计算聚类中心,并计算距离该中心最远的纪录r和距r最远的纪录s,作为两个初始类中心;
分别计算距离r和s最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤1、2;
若m∈[k,2k-1],则自成一类,加入到数据集D′;
否则,将剩下的m条记录,划分到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′;
返回的数据表D′满足k匿名机制,其中的每个组都至少拥有k条记录,对每组记录中的数值属性和分类属性,分别用均值和泛化值进行替换,降低了查询函数的敏感性;
S15:可执行差分隐私保护的聚类改造方法
差分隐私和聚类算法提供了不同的信息纰漏保护,利用聚类算法能降低差分隐私中需要引入的噪声,实现了查询函数的敏感性分化,同时差分隐私保护能够弥补聚类算法的不可抗力任意背景知识攻,两者的结合能够达到更好的隐私保护结果,并保留较好的数据可用性,
设M为聚类函数,f为查询函数,为了有效降低的敏感度,M应该满足对于数据集D和D′,其中,D为原始数据集,D′为对D修改一条记录后生成的数据集,其聚类中心基本稳定,那么就要求数据集D′聚类后产生的所有簇与原本相对应的簇两两之间只有一条记录不同,:聚类算法M为非敏感聚类的聚类函数才能执行差分隐私保护;
S16:非敏感聚类
假设数据集D,聚类函数M,D经M的聚类结果{C1,C2,...,Cn},D′为对D只进行修改一条记录得到的数据集,{C1′,C2′,...,Cn′}为D′经M的聚类结果,若聚类结果{C1,C2,...,Cn}和{C1′,C2′,...,Cn′}对应的簇中只有一个数据记录不同,称聚类算法M为非敏感聚类;
为了使聚类方法CMD满足非敏感聚类,执行差分隐私进行数据保护,需要改变其中的距离函数D为一个全序函数,针对混合型数据表,可通过如下方式构造满足全序关系的距离函数,
假设数据表D含有n维属性,其中P维分类属性,q维输指数型,X,Y为数据表D中的任意数据记录,Z为数据表D的聚类中心,通过定义5的距离公式计算距离Z最远的数据记录,记为Xb,并计算距离Xb最远的数据记录Xt,定义数据表D的边界为{Xb,Xt},则



式中,第i个组,为一个距离矩阵形式,是满足全序关系的距离函数;
其中,
将上述距离函数引入聚类算法CMD,构造满足非敏感聚类的聚类算法ICMD;
非敏感聚类算法ICMS(D,k)
输入:D为有n≥2k条记录的原始数据集,k为聚类最小尺寸,
输出:可执行差分隐私保护的聚类数据集D′,
步骤:
计算原始数据集的边界[Xb,Xt];
分别计算距离Xb和Xt最近的k条记录,并将其进行归类,加入到数据集D′;
对剩下的m条记录,若m≥2k,则对剩下的数据记录重复步骤2;
否则,将剩下的m条记录,划归到距离格子最近的类中;
计算各类的类质心,并用其替换各类中的数据记录;
返回替换后的数据表D′,D′为将D聚类分类之后,对每一个组的值改为这一组的均值;
距离计算采用的计算方法,则ICMD满足非敏感类算法定义,可对其结果执行差分隐私保护,对于查询函数fi,有由此可知,原始数据集经过聚类分组,实现了记录隐藏和查询敏感性由单条数据向组数据的分化;
S17:差分隐私保护数据发布方法
基于k匿名机制的聚类匿名不能够抵御背景知识攻击和同质攻击,为了进一步保护,在聚类的基础上对数据记录添加噪声,已达到差分隐私保护的目的,添加拉普拉斯噪声,实现一种对混合属性数据表实施噪声扰动的数据保护方法ICMD-DP,
差分隐私保护算法ICMD-DP
输入:D为有n≥2k条记录的原始数据集,ε为隐私保护预算;
输出:满足k-匿名的ε-差分隐私数据集Dε;
步骤:
对数据集D进行聚类处理ICMD(D,k),返回数据集D′;
查询函数fi返回数据集D′第i条记录的属性,函数Sε()为查询结果添加拉普拉斯噪声,则对于i∈(1,n),xi=Sε(fi(D′)),将xi加入数据集Dε;
返回数据集Dε;
每个查询函数的结果满足ε-差分隐私,又每条查询针对的记录不相交,则根据并行性原则可知,最终的数据集Dε满足ε-差分隐私;
对于聚集尺寸为k的数据集D,单个查询敏感度小于Δfi(D)/k,并且有n/k个相互独立的查询,因此若要满足经ICMD-DP差分隐私保护的数据查询敏感度小于原始数据集的查询敏感度,则需有即由上可知,虽然经聚类算法处理将造成信息丢失,但该部分损失可由敏感度降低带来的增益进行弥补。


3.根据权利要求1所述的一种用于局部差异隐私下的边际释放的一致自适应边际,其特征在于:所述步骤S2中,选择边际集的具体步骤如下:
S21:噪声误差错误分析
为了理解噪声误差,分析估计边际的总方差以及它们如何受到m和l的选择的影响,对于每个l边表,有个用户报告它,根据公式每个像元的方差为与用于估算的组规模成正比,更具体地说,有:



式中,L是一个边缘中的像元数,具有二进制属性的边缘具有L=2l个像元,当每个属性具有不同数量的可能值时,l是一个边缘中的期望像元数,
为了从这样的1向边沿构造一个l边际,l边际的每个像元都是来自较大边际的一些像元的总和,通过方差的线性关系,任何l向边际的方差为Var1=Varc·L,
从上面可以看出,增加m会增加线性因子,但是,增加m也会导致l向边界的包含次数增加,当l次边际包含t次时,我们可以获得1次边际的t个估计,其中每个大小边际都包含一个,对这些t估计值求平均可将方差减小t倍,更具体地,每个大小-边际包括属性,因此,可以预料的是,每个属性的信息将由l边际贡献,因此,这些估计的平均值是:



此外的主要观察结果是噪声误差的大小,不取决于m,取决于l和ε,其中ε影响第一项,这是FO协议的方差,参数l同时影响属于和FO协议的方差,
当根据估计k个属性的边际,该估计受k额属性的误差影响,因此,当针对特定的k值进行优化时,将NE(n,d,ε,l)用作噪声误差;
S22:中间错误分析
当k向边界违背任何选定的边界覆盖时,就会发生重建错误,重建错误的大小取决于属性在多大程度上相关,如果所有属性都是相互独立的,则不存在重构错误,当属性相互依赖时,总体趋势是,较大的m和较大的l将覆盖更多的属性组合,从而减少重构误差,重建误差的减小效果随着m的增加而减小,例如,如果所有k向边缘都已被完全覆盖,则“重建错误”已经为0,无法进一步减小,即使不是所有的k向边际都被完全覆盖,将m增加到某个合理的大数以上指挥导致收益递减,由于重建错误与数据集有关,因此没有估算公式;
S23:采样错误分析<...

【专利技术属性】
技术研发人员:王之涵
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1