一种效用增强的条件特征选择差分隐私数据发布方法技术

技术编号:37717115 阅读:30 留言:0更新日期:2023-06-02 00:13
本发明专利技术公开了一种效用增强的条件特征选择差分隐私数据发布方法,该方法首先对原始数据集进行预处理,然后利用条件互信息对预处理后的数据集进行关联特征选择;再归一化数据,对满足阈值条件的特征对应的数据值进行微聚集处理,得到若干个规模大小为k的聚类,并使用轮廓系数计算得到局部最优的k值;接着,根据重新定义的特征依赖敏感度,对每个聚类添加满足条件的噪声,重新分配隐私预算实现差分隐私;最后,对于扰动后的数据进行发布,发布的数据可进行计数查询和分类等任务分析。本发明专利技术可以抵御拥有强大背景知识的敌手的个体数据隐私攻击,在个体敏感数据得到隐私保证的前提下,提高数据发布的可用性。提高数据发布的可用性。提高数据发布的可用性。

【技术实现步骤摘要】
一种效用增强的条件特征选择差分隐私数据发布方法


[0001]本专利技术涉及信息安全隐私
,尤其涉及一种效用增强的条件特征选择差分隐私数据发布方法。

技术介绍

[0002]信息共享和知识交流的迅速发展,使得产生的数据呈爆炸式增长,这些数据(个人薪资、医疗记录、消费习惯、偏好等)通常包含大量敏感信息。服务提供者为了提供更精准的服务更热衷于收集和分析个体数据,从而造成个体或组织的隐私威胁。实际上,数据发布的隐私保护对象是用户敏感数据与个体身份之间的对应关系,在对已发布数据进行查询和分析等任务中只需要阻断个体敏感信息与身份之间的标识。
[0003]为保护用户隐私,k

匿名及其扩展等传统隐私模型陆续被研究使用。然而,由于无法确定攻击者所掌握的背景知识,一些新型攻击的出现使得传统隐私保护模型出现漏洞,已经一致被证实了保护敏感信息的限制。并且,数据或特征之间总存在各种各样的关联性,这些关联性可以通过多表连接等重识别手段造成严重的隐私泄露。针对层出不穷的攻击方法和现有隐私保护机制的缺陷,微软研究院的Dwork团队提出了差分隐私本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种效用增强的条件特征选择差分隐私数据发布方法,其特征在于:包括以下步骤:S1、对原始数据集进行预处理,包括对于异常值的删除和缺失值的增补;S2、分开处理数值数据和类别数据,对连续数值数据进行离散化,对类别数据依据词向量进行映射和编码,从WordNet 2.1中提取分类数据的特征域;S3、根据数据集的特征敏感程度划分成敏感特征集S和准标识符特征集Q;且计算准标识符特征集Q与敏感特征集S之间的条件互信息,并计算互信息阈值I
θ
;S4、选出符合阈值I
θ
要求的特征集合,归一化处理数据值,并根据特征集合对应的数据进行微聚集,且不同类型数据微聚集时选择不同的度量距离;S5、微聚集得到若干个规模大小为k的簇{C1,

,C
n/k
},使用轮廓系数度量局部最优的k值;S6、对n/k个簇聚类添加扰动,重新进行隐私预算分配实现差分隐私,得出待发布数据集,可用于查询和分类任务。2.根据权利要求1所述的效用增强的条件特征选择差分隐私数据发布方法,其特征在于:步骤S2中,提取类别数据的特征域后将特征中的特征取值映射到本体知识中(WordNet2.1),映射得出一个最小层级结构H
w
;对于特征域的提取,包括对于每个分类特征,通过本体来捕获和建模的特征域,用于衡量两个概念之间的语义相似性;每个特征域的本体包括从现有的知识来源中提取出来,也包括通过对特征域中的概念进行泛化和分类结构化来创建本体。3.根据权利要求1所述的效用增强的条件特征选择差分隐私数据发布方法,其特征在于:在步骤(S3)中,准标识符特征与敏感特征之间的条件互信息计算公式和阈值设置条件包括如下步骤:S31、假设在给定数据集D中特征A
y
(y∈{1,

,d})的值时,由其他准标识符特征A
m
(m∈{1,

,d}\{y})的知识而引起的关于敏感特征A
s
(s∈{1,

,d}\{y}\{m})的不确定度的缩减量,则任意特征A
m
(m∈{1,

,d}\{y})和A
s
在给定特征A
y
(y∈{1,

,d})时的条件互信息如下:S32、求得任意准标识符特征与敏感特征的条件互信息之后,所有的特征对需要进行特征选择,主要过程是将特征对的条件互信息与阈值进行比较,阈值的计算公式为:I
θ
=min
m,s
(|Dom(A
m
)|

1,|Dom(A
s
)|

1),其中γ(0≤γ≤1)是决定期望相关程度的灵活的参数,设置γ=0.25;Dom(A
m
)表示准标识符特征A
m
的域,Dom(A
s
)表示敏感特征A
s
的域。4.根据权利要求1所述的效用增强的条件特征选择差分隐私数据发布方法,其特征在于:在步骤(S4)中,选出符合阈值I
θ
要求的特征集合,归一化处理数据值,将数值标准化到[0,1],并根据特征集合对应的数据进行微聚集包括如下步骤:S41、根据每次计算所得的条件互信息阈值I
θ
,条件互信息越大,特征之间的依赖关系越强,选出大于阈值的所有特征集A
x
(x∈{1,

,d}\{y});S42、归一化每个特征的数据值,计算公式为:
其中,a
i
表示某个特征第i个值数据,特征的域范围为[a
min
,a
max
],a
norm
表示归一化后的值数据,通过标准化公式,将所有特征值标准化为[0,1];S43、微聚集是通过迭代地创建至少k个元素的簇C
i
(i=2,

,n/k),每个簇内的元素尽可能的相似,不同簇之间的元素尽可能不同,每个簇都可以选择一个代表性的记录来表示质心,并使用质心来替换簇内的其他值。5.根据权利要求1所述的效用增强的条件特征选择差分...

【专利技术属性】
技术研发人员:叶欣欣邓海朱友文
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1