一种基于差分隐私的非等距直方图发布方法技术

技术编号:23343978 阅读:26 留言:0更新日期:2020-02-15 04:05
本发明专利技术提供的一种基于差分隐私的非等距直方图发布方法,涉及数据隐私保护技术领域,包括两个主要步骤:1)针对以往关于在差分隐私下直方图发布方法未考虑到数据分布的稀疏程度而划分的等距直方图不能充分反映样本数据的分布特征,以及可能出现“零桶”等问题,通过平均划分纵坐标来确定横坐标每组分界点的方法生成非等距直方图;2)在非等距直方图上对每个分组按照组距大小合理分配隐私预算,并对每组分别添加服从拉普拉斯分布的随机噪声以提高非等距直方图中数据的隐私性,并保证部分长范围查询的查询结果精度。本发明专利技术既合理保证数据的隐私性和可用性,又有效保证了数据的分布特征。

A non isometric histogram publishing method based on differential privacy

【技术实现步骤摘要】
一种基于差分隐私的非等距直方图发布方法
本专利技术涉及数据隐私保护
,具体涉及一种基于差分隐私的非等距直方图发布方法。
技术介绍
随着大数据时代的到来,各机构收集各种信息产生了海量数据,会以多种形式发布统计结果,其中包括生成能反映数据分布特征的直方图。直方图是一种能直观估计出数据分布特征的技术,直方图的关键在于组距和分组数,大多数的直方图发布技术都是从如何选择分组数出发去划分直方图,所产生的直方图多是等宽直方图,而一个良好的直方图需要考虑组距和分组数两个方面,因此,不仅不需要合理划分分组数,也需要根据数据的稀疏程度合理划分直方图的组距。以医院为例,大多采用电子病历系统,由此产生了大量的医疗数据。为了反映社会人员的健康状况,医疗机构会以各种形式发布医疗健康数据的统计结果,例如发布每个年龄区间的患病人数。而医疗机构所拥有的这些数据包含许多敏感信息,需要对其进行隐私保护,目前,数据的隐私保护技术有很多,2006年CynthiaDwork提出的差分隐私(Differentialprivacy)是一种能够抵御具有任意背景知识攻击并且在保护数据库中单条记录的同时发布较为准确的统计数据的隐私保护技术。虽然在现有差分隐私保护技术中针对直方图数据发布已有相关研究,但是大多生成的直方图都为等宽直方图,在一定程度上隐藏了数据的分布特征,因而考虑非等距直方图的隐私保护十分必要。结合非等距直方图和差分隐私技术能够实现在差分隐私条件下直方图发布技术的进一步优化,所发布的直方图既能更好地反映数据分布的特征,也能满足隐私保护的要求。
技术实现思路
本专利技术目的在于提供一种基于差分隐私的非等距直方图发布方法,目的是将差分隐私保护技术与非等距直方图相结合,并结合数据分布的稀疏程度合理设置隐私预算,保证数据的隐私性,并最大限度保留数据的分布特征,且能在一定程度上保证长范围查询的精度。为达成上述目的,本专利技术提出如下技术方案:一种基于差分隐私的非等距直方图发布方法,包括如下步骤:1)选择原始数据库表,所述原始数据库表中至少包含一列需要进行隐私保护的敏感属性列,设定待发布的非等距直方图的总隐私预算ε;2)以键值对<key,value>的形式读取原始数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;3)对N个键值对数据处理:将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;4)按照key值从小到大的顺序将n个不同key值的键值对排序,记为<key(1),value(1)>,<key(2),value(2)>,…,<key(n),value(n)>,其中key(1)<key(2)<…<key(n);5)以key值作为非等距直方图的横坐标,设定key值的上界值记为Max、下界值为Min,根据key值的取值范围[Min,Max]划分为k组;6)采用经验分布函数及其广义逆函数确定横坐标上分界点的集合,记录横坐标k个分组中任一分组的左右分界点及对应的组距;7)依次统计key值落入各横坐标分组内的频数和,并计算各分组的频率和组高,构建非等距直方图h;8)根据差分隐私中对全局敏感度及隐私预算的定义,对非等距直方图h中任一分组的组高添加拉普拉斯噪声,发布基于差分隐私的非等距直方图h′。进一步的,所述步骤6)中经验分布函数记为Fn(x),值域为[0,1],定义为:其中,1≤m≤n-1,j=0,1,…,n,key(m)、key(m+1)分别表示键值对排序的第m条、第m+1条顺序记录;将Fn(x)的值域[0,1]均分为k组,则分组组距为任一分组区间为所述经验分布函数Fn(x)的广义逆函数记表示满足条件Fn(y)≥x的最大的下界,key(1)≤y≤key(n);定义所述非等距直方图的横坐标上所有分界点的集合为Bq:对横坐标上的任一个分组bg,其左边界记为BgL,右边界记为BgR,则:BgL=Bg-1,BgR=Bg分组bg的组距记为ΔBg,得:ΔBg=Bg-Bg-1,g=1,2,…,k。进一步的,所述步骤8)中对非等距直方图h中分组bg的组高hg添加拉普拉斯噪声的计算公式为:其中,h′g表示添拉普拉斯噪声的组高,εg表示分组bg的隐私预算,Δf为敏感度;εg的计算公式为:进一步的,所述分组bg的隐私预算εg≤ε。进一步的,所述value值为1和0,表示敏感属性值是否满足统计查询函数的条件;当敏感属性值符合统计查询函数的条件,value取值为1;当敏感属性值不符合统计查询函数的条件,value取值为0。由以上技术方案可知,本专利技术的技术方案提供的基于差分隐私的非等距直方图发布方法,获得了如下有益效果:本专利技术公开的基于差分隐私的非等距直方图发布方法,包括两个主要步骤:一是,针对以往关于在差分隐私下直方图发布方法未考虑到数据分布的稀疏程度而划分的等距直方图不能充分反映样本数据的分布特征,以及可能出现“零桶”等问题,通过平均划分纵坐标来确定横坐标每组分界点的方法生成非等距直方图;二是,在非等距直方图上对每个分组按照组距大小合理分配隐私预算εg,并对每组分别添加服从拉普拉斯分布的随机噪声以提高非等距直方图中数据的隐私性,并保证部分长范围查询的查询结果精度。本专利技术既在合理保证数据的隐私性和可用性,又有效保证了数据的分布特征。在差分隐私下直方图发布时充分考虑数据分布的稀疏性,保证了所发布直方图对于反映数据分布特征的准确性;应用差分隐私技术对每组添加拉普拉斯噪声,实现了数据发布过程中的隐私保护;根据组距为每组设置合理的隐私预算,一定程度上保证了长范围查询的准确性。应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的专利技术主题的一部分。结合附图从下面的描述中可以更加全面地理解本专利技术教导的前述和其他方面、实施例和特征。本专利技术的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本专利技术教导的具体实施方式的实践中得知。附图说明附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本专利技术的各个方面的实施例,其中:图1为本专利技术基于差分隐私的非等距直方图发布方法的基本流程图;图2为实施例根据本专利技术的方法绘制的非等距的添加噪声前的直方图;图3为实施例根据传统方法绘制的等距直方图;图4为实施例根据本专利技术方法使用不同隐私预算添加噪声绘制的非等距噪声直方图;图5为实施例使用相同隐私预算添加噪声绘制的非等距噪声直方图。具体实施方式本文档来自技高网
...

【技术保护点】
1.一种基于差分隐私的非等距直方图发布方法,其特征在于,包括如下步骤:/n1)选择原始数据库表,所述原始数据库表中至少包含一列需要进行隐私保护的敏感属性列,设定待发布的非等距直方图的总隐私预算ε;/n2)以键值对<key,value>的形式读取原始数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;/n3)对N个键值进行数据处理:将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;/n4)按照key值从小到大的顺序将n个不同key值的键值对排序,记为<key

【技术特征摘要】
1.一种基于差分隐私的非等距直方图发布方法,其特征在于,包括如下步骤:
1)选择原始数据库表,所述原始数据库表中至少包含一列需要进行隐私保护的敏感属性列,设定待发布的非等距直方图的总隐私预算ε;
2)以键值对<key,value>的形式读取原始数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;
3)对N个键值进行数据处理:将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;
4)按照key值从小到大的顺序将n个不同key值的键值对排序,记为<key(1),value(1)>,<key(2),value(2)>,…,<key(n),value(n)>,其中key(1)<key(2)<…<key(n);
5)以key值作为非等距直方图的横坐标,设定key值的上界值记为Max、下界值为Min,根据key值的取值范围[Min,Max]划分为k组;
6)采用经验分布函数及其广义逆函数确定横坐标上分界点的集合,记录横坐标k个分组中任一分组的左右分界点及对应的组距;
7)依次统计key值落入各横坐标分组内的频数和,并计算各分组的频率和组高,构建非等距直方图h;
8)根据差分隐私中对全局敏感度及隐私预算的定义,对非等距直方图h中任一分组的组高添加拉普拉斯噪声,发布基于差分隐私的非等距直方图h′。


2.根据权利要求1所述的基于差分隐私的非等距直方图发布方法,其特征在于,所述步骤6)中经验分布函数记为Fn(x),值域为[0,1],定义为:...

【专利技术属性】
技术研发人员:郑啸杨磊陈启航梁越永童琨
申请(专利权)人:安徽工业大学马鞍山市卫生健康信息中心安徽祥云科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1