一种满足个性化隐私预算分配的差分隐私数据发布方法技术

技术编号:33468264 阅读:24 留言:0更新日期:2022-05-19 00:46
本发明专利技术公开了一种满足个性化隐私预算分配的差分隐私数据发布方法,包括:步骤一、根据数据集中属性的敏感级别,通过互信息与属性对敏感属性进行分级;步骤二、构造隐私预算划分二部图,对不同级别的敏感属性匹配相应的隐私预算;步骤三、对原始数据集进行聚类,通过敏感属性分配的隐私预算,对聚类中心值进行差分隐私保护,生成满足差分隐私的待发布数据集。通过对数据集中属性的敏感级别进行分级,第不同级别敏感属性进行隐私预算分配,再通过改进的k

【技术实现步骤摘要】
一种满足个性化隐私预算分配的差分隐私数据发布方法


[0001]本专利技术涉及一种差分隐私数据发布方法,特别是一种满足个性化隐私预算分配的差分隐私数据发布方法。

技术介绍

[0002]数字信息化时代的到来,使得数据的发布和利用显得尤为重要。政府和相关部门利用数据资源能够提供科学决策规划、预测市场趋势。但待发布数据中通常包含着大量敏感信息,直接发布这样的数据势必造成用户隐私信息的泄露。如何在保证用户敏感信息不被泄露的同时,使得数据可用性达到最大化,是研究数据发布问题的关键。近年来,研究人员针对数据发布中隐私保护问题,提出了一些方法,主要包括基于数据的匿名发布方法和基于数据的失真发布方法。
[0003]k

anonymity是数据匿名发布方法的典型代表,其通过对待发布数据的准标识符属性进行分组、泛化等操作,使每条记录与至少k

1条其他记录无法区分,从而保护数据隐私。针对k

anonymity模型中存在的缺陷,后续l

diversity和t

closeness方法被提出,虽然匿名方法能在一定程度上保护数据中的隐私信息,但该类方法是在假设攻击者不具有任何背景知识的前提下才能有效,无法抵御背景知识攻击和组合攻击。差分隐私作为基于数据失真的发布方法,被广泛研究及应用,因其不对攻击者所具备的背景知识做任何假设,对待发布的数据添加一定的可用噪声进行扰动,从而提供强大的隐私保证。比如医学研究人员可以通过对医学大数据进行聚类分析获得疾病的一般分布和临床表现,从而更好地诊治疾病并且研究疾病的发病原因,但是经聚类后的数据往往包含着病患大量的个人隐私,如果处理不得当容易被攻击者恶意分析从而造成病患隐私信息的泄露。

技术实现思路

[0004]本专利技术设计开发了一种满足个性化隐私预算分配的差分隐私数据发布方法,通过对数据集中属性的敏感级别进行分级,第不同级别敏感属性进行隐私预算分配,再通过改进的k

prototype算法对原始数据集进行聚类,对每个簇中聚类中心进行差分隐私保护,生成满足差分隐私的待发布数据集,满足多种查询要求。本方法能够在健康机构中对病患数据进行保护和发布,在满足数据可用性最大的前提下,既能保护用户隐私又能供研究人员分析和使用。
[0005]本专利技术提供的技术方案为:
[0006]一种满足个性化隐私预算分配的差分隐私数据发布方法,包括:
[0007]步骤一、根据数据集中属性的敏感级别,通过互信息与属性对敏感属性进行分级;
[0008]步骤二、构造隐私预算划分二部图,对不同级别的敏感属性匹配相应的隐私预算;
[0009]步骤三、对原始数据集进行聚类,通过敏感属性分配的隐私预算,对聚类中心值进行差分隐私保护,生成满足差分隐私的待发布数据集。
[0010]优选的是,所述步骤一中,根据数据集中属性之间互信息的关联程度,将其分为:
高敏感属性组、中敏感属性组和低敏感属性组。
[0011]优选的是,所述步骤二包括:
[0012]设定每个原始敏感属性的隐私损失P
i
为0,计算每个隐私预算对应的隐私消耗C
ij
和每个敏感属性的信息损失值l
S

[0013]C
ij
=ε
j
×
S
i

[0014]l
S
=C
ij

P
i

[0015]其中,高敏感属性组、中敏感属性组和低敏感属性组之间的隐私保护强度比为5:3:2;
[0016]通过损失函数,构造隐私预算划分图;
[0017]当隐私预算划分图中存在与敏感属性最优匹配的隐私预算时,输出敏感属性与隐私预算的关系图;
[0018]当隐私预算划分图中不存在敏感属性最优匹配的隐私预算时,将增加一个敏感属性的隐私损失,继续构图匹配,知道获得最优匹配结果。
[0019]优选的是,所述步骤三包括:
[0020]在数据集O中,聚类个数为k,隐私预算为{ε1,ε2......ε
m
}
[0021]对初始中心进行选择,计算各个元祖记录O
i
的局部密度ρ
i
[0022][0023]计算局部密度高于元祖记录O
i
且距离元祖记录最近的记录O
j
之间的距离δ
i

[0024][0025]聚类中心的ρ
i
和δ
i
需满足公式:
[0026]Z
p
=(o
i

i
>μ(δ),ρ
i
>μ(ρ),1≤i≤n}
[0027]其中,μ(δ)和μ(ρ)代表所有元组记录ρ
i
和δ
i
的均值;
[0028]通过公式(13)计算z
p
中每个元组记录的一个综合ρ
i
和δ
i
的参数α
i

[0029]该值(具体是哪个参数的数值)越大,则该元组记录的属性值越接近成为聚类中心;
[0030]将所有元组记录的α
i
从大到小排序,α
i
最大的元组记录为聚类中心;
[0031]对于其它预选中心点,按照顺序计算在它之前的元组记录的距离,
[0032]当距离大于2d
l
,则该元组记录可作为初始聚类中心,选取前k条元组记录作为初始聚类中心,
[0033][0034]针对数值属性,为簇中每个属性均值添加Laplace噪声:
[0035][0036]生成差分隐私数据集o


[0037]优选的是,所述步骤三还包括:
[0038]当聚类损失函数改变,1≤i≤n,计算d(o
i
,o
j
);
[0039]损失函数为:
[0040][0041]将o
i
划入相异度最小的簇中
[0042]重新计算簇内中心点,计算每个属性中心值
[0043]计算E
i
的值,直到E
i
的值不再发生变化,得到聚类结果。
[0044]本专利技术所述的有益效果:
[0045]1、针对数据集中属性的敏感级别不同,利用互信息与属性之间关联关系提出一种敏感度分级方法,使用户对敏感属性重视程度得以量化,为不同的级别的属性匹配对应的隐私保护程度;
[0046]2、结合最优匹配理论,构建隐私预算划分二部图,实现对不同级别敏感属性进行隐私预算的分配,较好的解决了平均分配隐私预算导致的数据可用性不高和敏感属性保护不足问题。
[0047]3、通过对相异度度量方法和初始中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种满足个性化隐私预算分配的差分隐私数据发布方法,其特征在于,包括:步骤一、根据数据集中属性的敏感级别不同,通过互信息与属性之间关联关系对敏感属性进行分级;步骤二、结合最优匹配理论,构建隐私预算划分二部图,对不同级别的敏感属性匹配相应的隐私预算;步骤三、利用改进的k

prototype算法对原始数据集进行聚类,通过敏感属性分配的隐私预算,对聚类中心值进行差分隐私保护,生成满足差分隐私的待发布数据集。2.根据权利要求1所述的满足个性化隐私预算分配的差分隐私数据发布方法,其特征在于,所述步骤一中,根据数据集中属性之间互信息的关联程度,将其分为:高敏感属性组、中敏感属性组和低敏感属性组。3.根据权利要求2所述的满足个性化隐私预算分配的差分隐私数据发布方法,其特征在于,所述步骤二包括:设定每个原始敏感属性的隐私损失P
i
为0,计算每个隐私预算对应的隐私消耗C
ij
和每个敏感属性的信息损失值l
S
:C
ij
=ε
j
×
S
i
;l
S
=C
ij

P
i
;其中,高敏感属性组、中敏感属性组和低敏感属性组之间的隐私保护强度比为5:3:2;通过损失函数,构造隐私预算划分图;当隐私预算划分图中存在与敏感属性最优匹配的隐私预算时,输出敏感属性与隐私预算的关系图;当隐私预算划分图中不存在敏感属性最优匹配的隐私预算时,将增加一个敏感属性的隐私损失,继续构图匹配,直到获得最优匹配结果。4.根据权利要求3所述的满足个性化隐私预算分配的差分隐私数据发布方法,其特征在于,所述步骤三包括:在数据集O中,聚类个数为k,隐私预算为{ε1,ε2......ε
m
},对初始中心进行选择,计算各个元祖记录O
i
和O
j
的局部密度ρ
i
其中,d(o
i
,o
j

【专利技术属性】
技术研发人员:史伟张星褚治广张兴
申请(专利权)人:辽宁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1