当前位置: 首页 > 专利查询>苏州大学专利>正文

满足节点差分隐私的度分布直方图发布方法技术

技术编号:21892664 阅读:16 留言:0更新日期:2019-08-17 14:48
本发明专利技术公开了一种满足节点差分隐私的度分布直方图发布方法。本发明专利技术一种满足节点差分隐私的度分布直方图发布方法,包括:通过采用加边的顺序进行图映射。基于以上观察,提出基于边所对应节点的度数进行优先级排序,节点度数之和越小,则优先级越高。本发明专利技术的有益效果:本发明专利技术中的图映射优化方法可以保留更多的边信息,降低节点度的变化。同时提出一种新的直方图中桶划分策略以降低在直方图发布过程中添加的随机噪声对原始数据分布的影响。

Degree Distribution Histogram Publishing Method Satisfying Differential Privacy of Nodes

【技术实现步骤摘要】
满足节点差分隐私的度分布直方图发布方法
本专利技术涉及一种满足节点差分隐私的度分布直方图发布方法。
技术介绍
图作为一种信息表现形式,能够直观地描述事物之间的联系,比如社交网络等。为了充分挖掘数据的潜在应用价值,需要发布图数据以供分析。并且在此过程中,需要确保数据中的敏感信息不被泄漏。而作为一种严格的并且可理论证明的隐私保护技术,差分隐私能够在保护信息安全的同时,尽可能提高数据的可用性。因此,近年来许多国内外学者对满足差分隐私的图数据发布进行了广泛的研究。直方图是差分隐私保护下图数据发布的一种重要形式,同时节点度数也是图的重要统计特征之一,因此基于直方图的度分布发布问题得到了很多关注,并取得了很大的进展。在现有的度分布查询研究中,采用图映射方法可以有效地降低查询问题的全局敏感度,但是会丢失图中大量拓扑信息。因此研究基于节点差分隐私保护的度分布直方图发布问题,在满足节点差分隐私保护的同时提升发布度分布直方图的准确度。传统技术存在以下技术问题:在对度分布查询问题的研究中,由于查询问题的敏感度过大,所以有方法采用截断操作来进行图映射。也就是说,直接移除所有度大于θ的节点上的边,并分两步分析了截断后发布节点度直方图的敏感度。第一步是计算度数因截断而发生改变的节点个数的平滑上界ST,为了使ST的值较小,临界阈值θ是随机设置的。在第二步中,θ上界图中一个节点的度改变将导致直方图的改变量最大为2θ。总敏感度是二者的乘积2θST,所以注入的噪声量级与参数有关。πθ方法事先给定图中的边一个稳定序号,并通过该序号遍历每条边。如果在当前时刻的边所对应的两个节点度数都小于θ,则保留该条边,从而完成图映射。在直方图发布过程中,通过采用集合级数的桶聚合策略来合并频数值相近的相邻桶。现有的图投影技术无法较好地保留图形拓扑结构,并且其度分布直方图的发布精度较差。
技术实现思路
本专利技术要解决的技术问题是提供一种满足节点差分隐私的度分布直方图发布方法,本专利技术中的图映射优化方法可以保留更多的边信息,降低节点度的变化。同时提出一种新的直方图中桶划分策略以降低在直方图发布过程中添加的随机噪声对原始数据分布的影响。为了解决上述技术问题,本专利技术提供了一种满足节点差分隐私的度分布直方图发布方法,包括:通过采用加边的顺序进行图映射。基于以上观察,提出基于边所对应节点的度数进行优先级排序,节点度数之和越小,则优先级越高。顺序加边映射方法Pθ。为了保证所提出的Pθ算法满足差分隐私条件,需要确保图映射操作的全局敏感度有确定上界。假设图G′和图G相比只增加一个节点v+,也就是说从图G′中移除v+及其相邻的边会得到图G,如果deg(v+)>θ,那么两个图G′和G截断之后是一样的。如果deg(v+)≤θ,那么图G′和G中除了v+之外,在截断之前和之后至多有θ个节点的度不同,导致G′θ和Gθ用中生成的度分布直方图之间的L1距离不大于2θ+1。可以证明对图进行Pθ映射操作的全局敏感度上界为2θ+1。直方图是数据库系统中常用的数据统计汇总的有效方式,通过采用一组不等高度的桶来有效显示统计信息,其中每个桶表示相应查询范围内的统计情况。对给定直方图进行范围查询时,为了保证数据的隐私不被泄漏,采用注入满足拉普拉斯机制的噪声来扰动这些计数查询的输出结果;直接发布经过添加拉普拉斯噪声的直方图会使得发布结果与原始分布之间具有比较大的误差。假设原始直方图为H={h1,h2,...hn},其中直方图的桶的频数hi是度为i的节点个数。划分策略B={B1,B2,...,Bk}中包含k个子集,该划分策略将原始直方图划分互斥的子集,每个子集Bi={li,ri,ci},其中li和ri表示子的左右边界,ci是直方图区间内所有频数值的平均值。当所有划分的子集完全覆盖了域[1,n]且不重复时,直方图的划分是有效的。也就是说,对于所有的1≤i≤k,都有l1=1,rk=n且ri=li+1-1。显然不同的划分策略会导致不同的值ci,所以会产生不同的近似误差。给定直方图频数序列H={h1,h2,...hn}和划分策略B={B1,B2,...,Bk},可以得到一个新的频数序列将序列H和H*H*之间的误差记做Erroe(B,H)。在这里使用平方和误差(SumofSquaredError,SSE)来衡量不同划分策略的优劣,每个划分子集Bi造成的误差为:所以划分策略B对H的误差为:进一步证明:其中Δf为全局敏感度,k为当前划分的子集个数,n为原始直方图中桶的个数。在这里,本方法直接采用误差函数,即:划分之后的直方图能够比较准确地响应范围计数查询,但是用均值代替原始频数值不可避免会产生近似误差。从发布直方图的总体误差来看,划分策略的优劣直接影响着近似误差和拉普拉斯误差之间的平衡。满足差分隐私的直方图的发布精度在很大程度上取决于直方图的结构,范围查询较大的查询结果的精度可能会比较小的范围查询结果的精度更高,因为前者降低了满足差分隐私所需的噪声量级。在其中一个实施例中,“通过采用加边的顺序进行图映射。”具有包括:首先构建一个只包含图G中所有节点而没有任何连接边的图Gθ,然后在保证图Gθ中所有节点的度都不大于θ的前提下按照一定的顺序依次在图Gθ中加入图G的边。在进行图映射之前,需要构造一个相对稳定的边集,用Γ(G)来表示。给定两个仅有一个节点不同,其他结构都相同的相邻图G=(V,E)和G′=(V′,E′)。如果同时出现在G=(V,E)和G′=(V′,E′)中的两条边ei和ej,它们在边集Γ(G)和Γ(G′)中的相对顺序是一致的,即如果在边集Γ(G)中,边ei在ej之前,那么在边集Γ(G′)中,边ei也在ej之前,则称图的边集顺序Γ(G)是稳定的。在其中一个实施例中,“顺序加边映射方法Pθ。”包括:首先根据图G中每条边对应节点度的升序进行排序,得到稳定的边集序列Γ(G)。然后构造一个包含图G中所有节点但不包含任何连接边的图Gθ,因而在初始阶段图Gθ中所有节点的度都为0。再依次遍历边集Γ(G)中的每条边e=(u,v),如果在图Gθ中加入边e后节点u和v的度数都不会超过θ,则将边e加入图Gθ中,否则舍弃边e。顺序加边映射算法通过对边排序后依次加边的方式进行图映射操作,给定原始图G=(V,E)。在其中一个实施例中,在注入随机噪声后确定柱状图结构,分两步进行:第一步,首先遵循差分隐私的标准解,向直方图的每个桶注入满足拉普拉斯机制的噪声,得到加噪直方图,使得度分布直方图满足差分隐私。第二步,寻找划分策略B={B1,B2,...,Bk},使得加噪直方图的误差最小,其中1≤k≤n。开始阶段将所有桶合并为一个大桶,即k=1,然后从直方图两端依次选择当前误差最小的划分点,并形成新的子集集合。从算法中可以看出,在每个阶段有五种划分方式,分别为:当前点不划分并继续查找,当前直方图左端桶划入Bl集合中,左端桶划入Bl的最右端子集中,右端桶划入Br集合中,右端桶划入Br最左端集合中。当遍历完直方图中的所有桶时,即表明划分结束。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤本文档来自技高网
...

【技术保护点】
1.一种满足节点差分隐私的度分布直方图发布方法,其特征在于,包括:通过采用加边的顺序进行图映射。基于以上观察,提出基于边所对应节点的度数进行优先级排序,节点度数之和越小,则优先级越高。顺序加边映射方法Pθ。为了保证所提出的Pθ算法满足差分隐私条件,需要确保图映射操作的全局敏感度有确定上界。假设图G′和图G相比只增加一个节点v

【技术特征摘要】
1.一种满足节点差分隐私的度分布直方图发布方法,其特征在于,包括:通过采用加边的顺序进行图映射。基于以上观察,提出基于边所对应节点的度数进行优先级排序,节点度数之和越小,则优先级越高。顺序加边映射方法Pθ。为了保证所提出的Pθ算法满足差分隐私条件,需要确保图映射操作的全局敏感度有确定上界。假设图G′和图G相比只增加一个节点v+,也就是说从图G′中移除v+及其相邻的边会得到图G,如果deg(v+)>θ,那么两个图G′和G截断之后是一样的。如果deg(v+)≤θ,那么图G′和G中除了v+之外,在截断之前和之后至多有θ个节点的度不同,导致G′θ和Gθ用中生成的度分布直方图之间的L1距离不大于2θ+1。可以证明对图进行Pθ映射操作的全局敏感度上界为2θ+1。直方图是数据库系统中常用的数据统计汇总的有效方式,通过采用一组不等高度的桶来有效显示统计信息,其中每个桶表示相应查询范围内的统计情况。对给定直方图进行范围查询时,为了保证数据的隐私不被泄漏,采用注入满足拉普拉斯机制的噪声来扰动这些计数查询的输出结果;直接发布经过添加拉普拉斯噪声的直方图会使得发布结果与原始分布之间具有比较大的误差。假设原始直方图为H={h1,h2,...hn},其中直方图的桶的频数hi是度为i的节点个数。划分策略B={B1,B2,...,Bk}中包含k个子集,该划分策略将原始直方图划分互斥的子集,每个子集Bi={li,ri,ci},其中li和ri表示子的左右边界,ci是直方图区间内所有频数值的平均值。当所有划分的子集完全覆盖了域[1,n]且不重复时,直方图的划分是有效的。也就是说,对于所有的1≤i≤k,都有l1=1,rk=n且ri=li+1-1。显然不同的划分策略会导致不同的值ci,所以会产生不同的近似误差。给定直方图频数序列H={h1,h2,...hn}和划分策略B={B1,B2,...,Bk},可以得到一个新的频数序列将序列H和H*H*之间的误差记做Erroe(B,H)。在这里使用平方和误差(SumofSquaredError,SSE)来衡量不同划分策略的优劣,每个划分子集Bi造成的误差为:所以划分策略B对H的误差为:进一步证明:其中Δf为全局敏感度,k为当前划分的子集个数,n为原始直方图中桶的个数。在这里,本方法直接采用误差函数,即:划分之后的直方图能够比较准确地响应范围计数查询,但是用均值代替原始频数值不可避免会产生近似误差。从发布直方图的总体误差来看,划分策略的优劣直接影响着近似误差和拉普拉斯误差之间的平衡。满足差分隐私的直方图的发布精度在很大程度上取决于直方图的结构,范围查询较大的查询结果的精度可能会比较小的范围查询结果的精度更高,因为前者降低了满...

【专利技术属性】
技术研发人员:钱晴赵雷
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1