基于桶结构划分的差分隐私非等距直方图发布方法和装置制造方法及图纸

技术编号:30902943 阅读:14 留言:0更新日期:2021-11-22 23:47
本申请公开了基于桶结构划分的差分隐私非等距直方图发布方法和装置,利用两种方法对数据库生成直方图H1和H2以及各自的加噪声的直方图,并比较两种添加噪声的直方图在重叠分组区间内与真实值的差距大小以及重新划分前后非等距直方图H1

【技术实现步骤摘要】
基于桶结构划分的差分隐私非等距直方图发布方法和装置


[0001]本专利技术涉及数据隐私保护
,具体涉及一种基于桶结构划分的差分隐私非等距直方图发布方法和装置。

技术介绍

[0002]随着大数据时代的到来,每天都有海量的信息数据产生,信息技术的深入和普及使得各种机构能够轻松收集大量信息数据,以多种形式发布统计结果,并对信息数据进行数据分析研究。虽然数据分析能从发布数据中获得有价值的信息,但同时也会带来个人隐私泄露的问题。
[0003]直方图技术是一种近似估计数据分布的常用技术,该技术将数据按照某种属性划分成不相交的桶,每个桶由频数或计数表示其特征。如果在进行数据发布的过程中直接发布原始直方图数据而不进行隐私保护,攻击者可以结合背景知识推断出个人的敏感信息,导致个人信息泄露。
[0004]现有的基于差分隐私的直方图发布技术大多都是对直方图进行加噪和重构,一般通过对临近位置的桶进行合并取均值,以此降低直方图的全局敏感度,产生的直方图多是等距直方图,在一定程度上隐藏了数据的一些重要信息,即未能考虑到数据的稀疏性,因此考虑非等距直方图的隐私保护十分必要。
[0005]专利号201910961197.8的专利申请“一种基于差分隐私的非等距直方图发布方法”,该申请案中利用数据的稀疏性,使用不均匀的经验分布函数构建非等距直方图,向非等距直方图任一分组的组高添加拉普拉斯噪声,最后发布基于差分隐私的非等距直方图。但该方法通过经验公式获取分组数,在数据越稀疏的区域会生成组距更大的直方图,根据该方法为各个分组加噪时的隐私预算公式,组距越大的分组将被添加更大的噪声,在一定长度的查询内噪声累积过快,使得直方图的准确度下降,可用度降低。

技术实现思路

[0006]本申请实施例提供了基于桶结构划分的差分隐私非等距直方图发布方法,以至少解决现有的技术中发布的非等距直方图的噪声过大所带来的准确度下降的技术问题。
[0007]根据本申请的一个方面,提供了一种基于桶结构划分的差分隐私非等距直方图发布方法,
[0008]将待处理的数据库表进行数据预处理,包括以键值对<key,value>的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;按照key值从小到大的顺序将n个不同key值的键值对排序并获得对应的原始直方图H;
[0009]将上述预处理后排序的键值对生成原始非等距直方图H1和非等距直方图H1

,所述非等距直方图H1

由原始非等距直方图H1添加噪声后获得;
[0010]将上述预处理后排序的键值对利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案,计算分组方案中各个分组对应的真实值,获得直方图H2和基于该分组方案得到的直方图H2

,所述基于分组方案得到的直方图H2

由直方图H2添加噪声后获得;
[0011]遍历非等距直方图H1

和基于分组的直方图H2

所有重叠的分组区间D,对于每一个重叠的分组区间D,判断非等距直方图H1

和基于分组的直方图H2

分别与该区间D的真实值之间的差距,若基于分组的直方图H2

与所述真实值之间的差距更小,利用该重叠的分组区间D对应的基于分组的直方图H2

的区间端点将对应的非等距直方图H1

的区间重新划分,并对重新划分后的区间赋予对应的区间真实值添加噪声后的值,若重新划分后的区间所产生的全局误差小于重新划分前的非等距直方图H1

在该区间所产生的全局误差,则将该区间D对应的原始非等距直方图H1替换为重新划分并赋予对应的区间真实值后的形式;如此遍历所有上述重叠的分组区间,将原始非等距直方图H1替换形成非等距直方图H3;
[0012]将非等距直方图H3添加噪声后发布。
[0013]进一步的,在本专利技术中,所述利用贪心聚类算法生成原始基于分组的直方图H2的方法如下:
[0014]将贪心聚类算法的误差评价函数设为全局误差
[0015]其中:
[0016]C
i
为分组,其中表示该组的频数均值,|C
i
|表示该组中桶个数,ε为总体隐私预算,为重构误差,为噪音误差。
[0017]进一步的,在本专利技术中,所述利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案的方法如下:
[0018]从左至右贪婪划分原始直方图H,针对每个当前处理的桶H
j

[0019]计算直方图中桶H
j
并入组C
i
时分组H
j
∪C
i
产生的误差产生的误差
[0020]计算直方图中桶H
j
不并入组C
i
时产生的误差其中AE(C
i
)为组C
i
的重构误差;
[0021]若桶H
j
并入组C
i
时产生的误差比不并入组C
i
时产生的误差更低,将桶H
j
并入组C
i
,否则桶H
j
生成新的分组;
[0022]上述组C
i
为原始直方图H中桶的集合。
[0023]进一步的,在本专利技术中,所述原始非等距直方图H1添加噪声和原始基于分组的直方图H2添加噪声的全局敏感度Δf相同。
[0024]进一步的,在本专利技术中,所述全局敏感度Δf的计算公式为:
[0025][0026]其中N为原始直方图H中各组频数之和,n
i
为当前组频数,ΔB
i
为组距,i为组的序
号。
[0027]进一步的,在本专利技术中,所述添加噪声的方法为按照差分隐私定义对待添加噪声的直方图中的每一分组C
i
的真实值均添加拉普拉斯噪声,所述真实值为所述添加拉普拉斯噪声为其中,H
j
为分组C
i
中的直方图,H
i
为整体直方图结构中所有的桶,n为桶的数量,ΔB
i
为分组C
i
的组距,ε
g
为隐私预算参数。
[0028]本专利技术的第二个方面,提供一种基于桶结构划分的差分隐私非等距直方图发布装置,包括
[0029]预处理模块,用于将待处理的数据库表进行数据预处理,包括以键值对<key,value>的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于桶结构划分的差分隐私非等距直方图发布方法,其特征在于,将待处理的数据库表进行数据预处理,包括以键值对<key,value>的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;按照key值从小到大的顺序将n个不同key值的键值对排序并获得对应的原始直方图H;将上述预处理后排序的键值对生成原始非等距直方图H1和非等距直方图H1

,所述非等距直方图H1

由原始非等距直方图H1添加噪声后获得;将上述预处理后排序的键值对利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案,计算分组方案中各个分组对应的真实值,获得直方图H2和基于该分组方案得到的直方图H2

,所述基于分组方案得到的直方图H2

由直方图H2添加噪声后获得;遍历非等距直方图H1

和基于分组的直方图H2

所有重叠的分组区间D,对于每一个重叠的分组区间D,判断非等距直方图H1

和基于分组的直方图H2

分别与该区间D的真实值之间的差距,若基于分组的直方图H2

与所述真实值之间的差距更小,利用该重叠的分组区间D对应的基于分组的直方图H2

的区间端点将对应的非等距直方图H1

的区间重新划分,并对重新划分后的区间赋予对应的区间真实值添加噪声后的值,若重新划分后的区间所产生的全局误差小于重新划分前的非等距直方图H1

在该区间所产生的全局误差,则将该区间D对应的原始非等距直方图H1替换为重新划分并赋予对应的区间真实值后的形式;如此遍历所有上述重叠的分组区间,将原始非等距直方图H1替换形成非等距直方图H3;将非等距直方图H3添加噪声后发布。2.根据权利要求1所述的方法,其特征在于:所述利用贪心聚类算法生成原始基于分组的直方图H2的方法如下:将贪心聚类算法的误差评价函数设为全局误差其中:C
i
为分组,其中表示该组的频数均值,|C
i
|表示该组中桶个数,ε为总体隐私预算,为重构误差,为噪音误差。3.根据权利要求2所述的方法,其特征在于:所述利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案的方法如下:从左至右贪婪划分原始直方图H,针对每个当前处理的桶H
j
:计算直方图中桶H
j
并入组C
i
时分组H
j
∪C
i
产生的误差产生的误差计算直方图中桶H
j
不并入组C
i
时产生的误差其中AE(C
i
)为组C
i
的重构误差;若桶H
j
并入组C
i
时产生的误差比不并入组C
i
时产生的误差更低,将桶H
j
并入组C
i
,否则
桶H
j
生成新的分组;上述组C
i
...

【专利技术属性】
技术研发人员:郑啸汪志伟刘欢王权鑫
申请(专利权)人:安徽工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1