满足节点差分隐私的度分布直方图发布方法技术

技术编号：21892664 阅读：16 留言：0更新日期：2019-08-17 14:48

本发明专利技术公开了一种满足节点差分隐私的度分布直方图发布方法。本发明专利技术一种满足节点差分隐私的度分布直方图发布方法，包括：通过采用加边的顺序进行图映射。基于以上观察，提出基于边所对应节点的度数进行优先级排序，节点度数之和越小，则优先级越高。本发明专利技术的有益效果：本发明专利技术中的图映射优化方法可以保留更多的边信息，降低节点度的变化。同时提出一种新的直方图中桶划分策略以降低在直方图发布过程中添加的随机噪声对原始数据分布的影响。

Degree Distribution Histogram Publishing Method Satisfying Differential Privacy of Nodes

全部详细技术资料下载

【技术实现步骤摘要】
满足节点差分隐私的度分布直方图发布方法
本专利技术涉及一种满足节点差分隐私的度分布直方图发布方法。
技术介绍
图作为一种信息表现形式，能够直观地描述事物之间的联系，比如社交网络等。为了充分挖掘数据的潜在应用价值，需要发布图数据以供分析。并且在此过程中，需要确保数据中的敏感信息不被泄漏。而作为一种严格的并且可理论证明的隐私保护技术，差分隐私能够在保护信息安全的同时，尽可能提高数据的可用性。因此，近年来许多国内外学者对满足差分隐私的图数据发布进行了广泛的研究。直方图是差分隐私保护下图数据发布的一种重要形式，同时节点度数也是图的重要统计特征之一，因此基于直方图的度分布发布问题得到了很多关注，并取得了很大的进展。在现有的度分布查询研究中，采用图映射方法可以有效地降低查询问题的全局敏感度，但是会丢失图中大量拓扑信息。因此研究基于节点差分隐私保护的度分布直方图发布问题，在满足节点差分隐私保护的同时提升发布度分布直方图的准确度。传统技术存在以下技术问题：在对度分布查询问题的研究中，由于查询问题的敏感度过大，所以有方法采用截断操作来进行图映射。也就是说，直接移除所有度大于θ的节点上的边，并分两步分析了截断后发布节点度直方图的敏感度。第一步是计算度数因截断而发生改变的节点个数的平滑上界ST，为了使ST的值较小，临界阈值θ是随机设置的。在第二步中，θ上界图中一个节点的度改变将导致直方图的改变量最大为2θ。总敏感度是二者的乘积2θST，所以注入的噪声量级与参数有关。πθ方法事先给定图中的边一个稳定序号，并通过该序号遍历每条边。如果在当前时刻的边所对应的两个节点度数都小于θ，则保...

【技术保护点】
1.一种满足节点差分隐私的度分布直方图发布方法，其特征在于，包括：通过采用加边的顺序进行图映射。基于以上观察，提出基于边所对应节点的度数进行优先级排序，节点度数之和越小，则优先级越高。顺序加边映射方法Pθ。为了保证所提出的Pθ算法满足差分隐私条件，需要确保图映射操作的全局敏感度有确定上界。假设图G′和图G相比只增加一个节点v

【技术特征摘要】
1.一种满足节点差分隐私的度分布直方图发布方法，其特征在于，包括：通过采用加边的顺序进行图映射。基于以上观察，提出基于边所对应节点的度数进行优先级排序，节点度数之和越小，则优先级越高。顺序加边映射方法Pθ。为了保证所提出的Pθ算法满足差分隐私条件，需要确保图映射操作的全局敏感度有确定上界。假设图G′和图G相比只增加一个节点v+，也就是说从图G′中移除v+及其相邻的边会得到图G，如果deg(v+)＞θ，那么两个图G′和G截断之后是一样的。如果deg(v+)≤θ，那么图G′和G中除了v+之外，在截断之前和之后至多有θ个节点的度不同，导致G′θ和Gθ用中生成的度分布直方图之间的L1距离不大于2θ+1。可以证明对图进行Pθ映射操作的全局敏感度上界为2θ+1。直方图是数据库系统中常用的数据统计汇总的有效方式，通过采用一组不等高度的桶来有效显示统计信息，其中每个桶表示相应查询范围内的统计情况。对给定直方图进行范围查询时，为了保证数据的隐私不被泄漏，采用注入满足拉普拉斯机制的噪声来扰动这些计数查询的输出结果；直接发布经过添加拉普拉斯噪声的直方图会使得发布结果与原始分布之间具有比较大的误差。假设原始直方图为H＝{h1,h2,...hn}，其中直方图的桶的频数hi是度为i的节点个数。划分策略B＝{B1,B2,...,Bk}中包含k个子集，该划分策略将原始直方图划分互斥的子集，每个子集Bi＝{li,ri,ci},其中li和ri表示子的左右边界，ci是直方图区间内所有频数值的平均值。当所有划分的子集完全覆盖了域[1,n]且不重复时，直方图的划分是有效的。也就是说，对于所有的1≤i≤k，都有l1＝1,rk＝n且ri＝li+1-1。显然不同的划分策略会导致不同的值ci，所以会产生不同的近似误差。给定直方图频数序列H＝{h1,h2,...hn}和划分策略B＝{B1,B2,...,Bk}，可以得到一个新的频数序列将序列H和H*H*之间的误差记做Erroe(B,H)。在这里使用平方和误差(SumofSquaredError,SSE)来衡量不同划分策略的优劣，每个划分子集Bi造成的误差为：所以划分策略B对H的误差为：进一步证明：其中Δf为全局敏感度，k为当前划分的子集个数，n为原始直方图中桶的个数。在这里，本方法直接采用误差函数，即：划分之后的直方图能够比较准确地响应范围计数查询，但是用均值代替原始频数值不可避免会产生近似误差。从发布直方图的总体误差来看，划分策略的优劣直接影响着近似误差和拉普拉斯误差之间的平衡。满足差分隐私的直方图的发布精度在很大程度上取决于直方图的结构，范围查询较大的查询结果的精度可能会比较小的范围查询结果的精度更高，因为前者降低了满...

【专利技术属性】
技术研发人员：钱晴，赵雷，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人