点差分隐私下图的度直方图发布方法技术

技术编号:20118598 阅读:24 留言:0更新日期:2019-01-16 12:12
本发明专利技术涉及图数据发布的隐私保护技术领域,尤其涉及点差分隐私下图的度直方图发布方法。本发明专利技术首先利用基于度排序的边移除方法SER,通过将原始图投影到一个压缩图来降低发布机制中的全局敏感度。然后,基于SER投影方法给出了一种满足点差分隐私的度直方图发布方法。仿真实验表明,相比已有方法,在相同的约束条件下,SER投影方法能最大程度地保留原始图中的边信息,为后续的数据处理奠定了良好的基础。与已有度分布发布方法相比,基于SER投影方法的本发明专利技术点差分隐私下图的度直方图发布方法在L1误差和KS距离这2个评估指标上均具有优势,使得发布后的度分布更接近原始图的度分布,可用性也越高。

Degree Histogram Publishing Method for Graphs with Point Difference Privacy

The invention relates to the privacy protection technology field of graph data publishing, in particular to the degree histogram publishing method of a graph under point difference privacy. The present invention first utilizes the degree-based sorting edge removal method SER to reduce the global sensitivity of the publishing mechanism by projecting the original graph to a compressed graph. Then, based on SER projection method, a degree histogram publishing method which satisfies the point difference privacy is proposed. The simulation results show that, compared with the existing methods, the SER projection method can retain the edge information of the original image to the greatest extent under the same constraints, which lays a good foundation for subsequent data processing. Compared with the existing degree distribution publishing methods, the degree histogram publishing method based on SER projection method has advantages in L1 error and KS distance, which makes the degree distribution after publication closer to the degree distribution of the original graph and higher availability.

【技术实现步骤摘要】
点差分隐私下图的度直方图发布方法
本专利技术涉及图数据发布的隐私保护
,尤其涉及点差分隐私下图的度直方图发布方法。
技术介绍
随着互联网和信息技术的飞速发展,许多组织机构搜集的个人数据规模急剧增长,随之而来的用户隐私保护问题变得日益重要。图数据作为一种典型的数据类型,随着社交网络、推荐系统、协作网络等信息系统的广泛使用而变得越发常见,为解决隐私保护下数据的发布问题,差分隐私被提出,并衍生出两种变体,即边差分隐私和点差分隐私。在边差分隐私中,两个相邻图仅相差一条边,而在点差分隐私中,两个相邻图相差一个节点以及与此节点相连的所有边。对于一个节点数目为n的图G=(V,E)(其中V是所有节点的集合、E为所有边的集合),删除一条边只影响这条边上两个节点度的变化,而删除一个节点在最坏情况下会导致n-1条边被删除。因此,图数据中的点差分隐私比边差分隐私更难满足,但却能提供更高强度的隐私保护。度分布是图的一种重要统计特性,也是图数据发布过程中的保护重点。如何在点差分隐私约束下实现图的度分布发布在近年来得到了广泛关注,其主要目标是要在满足点差分隐私的条件下给出一种尽可能接近图的度的真实分布的近似分布。目前,解决该问题的一种主要技术是将原始图压缩到一个节点度数不超过最大值θ的压缩图,以此来降低度发布过程中的敏感度,而这其中的关键又在于如何在压缩过程中尽可能多地保留原始图的信息。
技术实现思路
针对上述问题,本专利技术提出了点差分隐私下图的度直方图发布方法,提高了差分隐私保护后的数据可用性,发布后的度分布更接近原始图的度分布。为了实现上述目的,本专利技术采用以下技术方案:点差分隐私下图的度直方图发布方法,所述方法在点差分隐私约束下进行,包括以下步骤:步骤1:选取候选集T,所述候选集T由图G的多个度门限值θ组成;步骤2:计算在隐私预算ε2下候选集T中每个θ的质量函数其中|{v|v∈V,deg(v)>θ}|为图G中度大于θ的节点数量;步骤3:通过指数机制选择节点的度门限值θ*,在隐私预算ε1下,通过指数机制选择最优的θi,其中Δq=2Θ+2;步骤4:采用基于度排序的边移除投影方法SER,通过节点的度门限值θ*对图G的度进行限制,得到投影后的图步骤5:通过拉普拉斯机制对图的累积度直方图加噪,在隐私预算ε2下,其中ch为图的噪声累积度直方图,为图的累积度直方图,Δcumhist=θ+1为拉普拉斯机制下累积度直方图的全局敏感度;步骤6:把累积度直方图转化为度直方图H={h1,h2,...,hθ};步骤7:对度直方图H={h1,h2,...,hθ}进行尾部处理;步骤8:发布点差分隐私保护下的图的度直方图。进一步地,在所述步骤1之前,还包括:参量初始化。进一步地,所述θ∈Θ,Θ的大小为100,即所述θ依次取[0,100]中的整数值。进一步地,所述SER包括:步骤4.1:计算图G中所有节点的度deg(i),对[i,deg(i)]按deg(i)从大到小的顺序排列得到列表sorted_l;步骤4.2:对度最大的节点i,如果存在deg(i)>θ*,则找到节点i的所有相邻节点j,对[j,deg(j)]按deg(j)从大到小的顺序排列得到列表sorted_list,令deg(i)=deg(i)-1,deg(j)=deg(j)-1,遍历列表sorted_list,当deg(i)=θ*时,对列表sorted_l重排序,直到列表sorted_l中的最大度不大于θ*时为止,此时得到投影图如果不存在deg(i)>θ*,则令进一步地,所述步骤6包括:步骤6.1:如果累积度直方图的第一个桶计数为负数,则令其计数为0;步骤6.2:从累积度直方图的第一个桶开始比较,如果前一个桶i比后一个桶i+1小,则直接用桶i和桶i-1的差值作为桶i的计数,否则,需要在桶i到桶θ中找到第一个大于桶i的桶j,把桶i-1和桶j的差值平均分配到桶i至桶j中。进一步地,所述步骤7包括:步骤7.1:对度直方图的后半部分H′={hθ/2,hθ/2+1,...,hθ-1,hθ}拟合得到二次函数F,找到拐点r,并取预算budget=sum([hr+1,hr+2...,hθ]);步骤7.2:把H′中除去预算的部分{hθ/2,hθ/2+1,...,hr}作为回归学习的样本,并求平均值步骤7.3:根据回归学习的样本得到线性回归的斜率k和截距b,对ht来说,其中t∈[r+1,n],如果k<0,ht=k×t+b,否则,ht=c,令预算budget=budget-ht,直到预算耗尽为止。与现有技术相比,本专利技术具有的有益效果:本专利技术通过SER投影方法进行图压缩,该方法按照度的大小依次删除图G=(V,E)中与度数较大的节点相连的边,最终将图中每个节点的度限制到给定的门限值θ之内,同时又使得G中原有的边能最大程度地保留,为差分隐私机制在压缩图中的应用提供基础。SER投影方法规定了边的排序规则,在限制度的前提下,更多的保留了原始图中的边,减小了投影图和原始图之间的误差,从而提高了差分隐私保护后的数据可用性。仿真实验表明,相比已有方法,在相同的约束条件下,SER投影方法能最大程度地保留原始图中的边信息,为后续的数据处理奠定了良好的基础。与已有度分布发布方法相比,基于SER投影方法的本专利技术点差分隐私下图的度直方图发布方法在L1误差和KS距离这2个评估指标上均具有优势,使得发布后的度分布更接近原始图的度分布,可用性也越高。附图说明图1为本专利技术实施例的点差分隐私下图的度直方图发布方法的基本流程图。图2为本专利技术另一实施例的点差分隐私下图的度直方图发布方法的基本流程图。图3为本专利技术实施例的点差分隐私下图的度直方图发布方法的图投影方法流程示意图。图4为本专利技术实施例的点差分隐私下图的度直方图发布方法的2类节点在图中的连接方式示意图。图5为本专利技术实施例的点差分隐私下图的度直方图发布方法的对比实验结果图。具体实施方式下面结合附图和具体的实施例对本专利技术做进一步的解释说明:实施例一:如图1所示,本专利技术的一种点差分隐私下图的度直方图发布方法,包括以下步骤:步骤S101:选取候选集T,所述候选集T由图G的多个度门限值θ组成;步骤S102:计算在隐私预算ε2下候选集T中每个θ的质量函数其中|{v|v∈V,deg(v)>θ}|为图G中度大于θ的节点数量;步骤S103:通过指数机制选择节点的度门限值θ*,在隐私预算ε1下,通过指数机制选择最优的θi,其中Δq=2Θ+2;步骤S104:采用基于度排序的边移除投影方法SER,通过节点的度门限值θ*对图G的度进行限制,得到投影后的图步骤S105:通过拉普拉斯机制对图的累积度直方图加噪,在隐私预算ε2下,其中ch为图的噪声累积度直方图,为图的累积度直方图,Δcumhist=θ+1为拉普拉斯机制下累积度直方图的全局敏感度;步骤S106:把累积度直方图转化为度直方图H={h1,h2,...,hθ};步骤S107:对度直方图H={h1,h2,...,hθ}进行尾部处理;步骤S108:发布点差分隐私保护下的图的度直方图。实施例二:如图2所示,本专利技术的另一种点差分隐私下图的度直方图发布方法,包括:步骤S201:参量初始化。具体地,定义以下基于差分隐私保护的图数据直方图发布中的参量:图数据本文档来自技高网...

【技术保护点】
1.点差分隐私下图的度直方图发布方法,其特征在于,所述方法在点差分隐私约束下进行,包括以下步骤:步骤1:选取候选集T,所述候选集T由图G的多个度门限值θ组成;步骤2:计算在隐私预算ε2下候选集T中每个θ的质量函数

【技术特征摘要】
1.点差分隐私下图的度直方图发布方法,其特征在于,所述方法在点差分隐私约束下进行,包括以下步骤:步骤1:选取候选集T,所述候选集T由图G的多个度门限值θ组成;步骤2:计算在隐私预算ε2下候选集T中每个θ的质量函数其中|{v|v∈V,deg(v)>θ}|为图G中度大于θ的节点数量;步骤3:通过指数机制选择节点的度门限值θ*,在隐私预算ε1下,通过指数机制选择最优的θi,其中Δq=2Θ+2;步骤4:采用基于度排序的边移除投影方法SER,通过节点的度门限值θ*对图G的度进行限制,得到投影后的图步骤5:通过拉普拉斯机制对图的累积度直方图加噪,在隐私预算ε2下,其中ch为图的噪声累积度直方图,为图的累积度直方图,Δcumhist=θ+1为拉普拉斯机制下累积度直方图的全局敏感度;步骤6:把累积度直方图转化为度直方图H={h1,h2,...,hθ};步骤7:对度直方图H={h1,h2,...,hθ}进行尾部处理;步骤8:发布点差分隐私保护下的图的度直方图。2.根据权利要求1所述的点差分隐私下图的度直方图发布方法,其特征在于,在所述步骤1之前,还包括:参量初始化。3.根据权利要求1所述的点差分隐私下图的度直方图发布方法,其特征在于,所述θ∈Θ,Θ的大小为100,即所述θ依次取[0,100]中的整数值。4.根据权利要求1所述的点差分隐私下图的度直方图发布方法,其特征在于,所述步骤4包括:步骤4.1:计算图G中所有节点的度deg(i),对[i,deg(i)]按deg(i)从大到小的顺序排列得到列表sorted_l;步骤4.2:对度最大的节点i,如果存在deg...

【专利技术属性】
技术研发人员:魏江宏张宇轩胡学先刘文芬李霁
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1