基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法技术

技术编号:26845864 阅读:24 留言:0更新日期:2020-12-25 13:08
本发明专利技术涉及基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法,与现有技术相比解决了高维隐私数据加噪发布误差大、可用性差、效率低的缺陷。本发明专利技术包括以下步骤:高维数据的获取;属性子集的聚类划分;构建加噪贝叶斯网络;生成加噪条件分布;合成数据集的发布。高维大数据环境下,本发明专利技术可在确保数据隐私安全与可用性的同时,缩短数据发布算法的运行时间,实现高维大数据环境下隐私数据的有效发布。

【技术实现步骤摘要】
基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法
本专利技术涉及高维数据隐私处理
,具体来说是基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法。
技术介绍
随着信息技术的不断发展和应用,各行各业的信息系统中都积累了丰富的数据资源,这些数据往往蕴含着巨大的研究价值。然而,由于原始数据里通常包含着许多个人的隐私信息,直接将其进行发布将导致敏感信息泄露。因此,在发布数据之前,需要使用特殊的隐私防护技术对数据进行处理。传统的隐私保护技术(如k-匿名、l-多样性和t-保密等)能够在一定程度上保护个人隐私,但都很难抵御背景知识攻击,远不足以保证隐私信息的安全。差分隐私的提出为隐私发布提供了新的解决思路,其能量化对数据隐私的保护强度,为数据发布提供更为强大的隐私保护。现有研究对低维数据的发布问题做了诸多努力,但随着大数据时代的来临,高维数据在现实生活中更加普遍存在。对于高维数据,直接使用低维数据的发布方法会引入极大的噪音值,进而使得发布结果的可用性较低,其主要原因在于维度与维度值域的增加会带来“维度灾难”和“值域多样”等问题。因此,如何解决高维数据发布的隐私问题和数据的低效用性问题,成为新的研究焦点。解决高维数据发布问题通常使用的方法是降维。先对数据降维得到低维数据,对转换后的低维数据集添加噪声,进而生成新的数据集进行发布。Qardaji等人(见文献QardajiWH,YangWeining,LiNinghui.Priview:Practicaldifferentiallyprivatereleaseofmarginalcontingencytables[C].Procofthe2014ACMSIGMODIntConfonManagementofData.NewYork:ACM,2014:1435-1446)提出的Priview方法通过构建属性对的K-way边缘分布来估计高维数据的联合分布。Day等人(见文献DayWY,LiNingHui.DifferentiallyPrivatepublishingofhigh-dimensionaldataReleaseusingsensitivitycontrol[C].Procofthe10thACMSymponInformation,ComputerandCommunicationSecurity(ASIACCS2015).NewYork:ACM,2015,451-462)提出了一种基于阈值过滤技术的差分隐私发布方法,通过构建低敏感度质量函数,达到限制敏感度范围的目的。但以上方法没有考虑到属性之间的依赖关系,因此研究者们进一步依据属性之间的相关性来进行降维处理,如Xu等人(见文献XuC,RenJ,ZhangY,etal.DPPro:DifferentiallyPrivateHigh-DimensionalDataReleaseviaRandomProjection[J].IEEETransactionsonInformationForensicsandSecurity,2017:1-1.)设计了一种基于随机投影技术的高维数据发布算法,可以生成高维向量之间具有与原始数据集相似平方欧氏距离的合成数据集来实现差分隐私。也有研究通过构建概率图对数据维度相关性进行开采,Zhang等人(见文献ZhangJun,CormodeG,ProcopiucCM,etal.Privbayes:PrivBayesPrivateDataReleaseviaBayesianNetworks[C].Procofthe2014ACMSIGMODIntConfOnManagementofData.NewYork:ACM,2014:1423-1434.)提出的PrivBayes方法利用基于指数机制的贝叶斯网络来推理属性之间的关联性,从而得到一个能反映高维数据固有特性的低维数据集。Chen等人(见文献ChenRui,XiaoQian,ZhangYu,etal.Differentiallyprivatehigh-dimensiondatapublicationviasample-basedinference[C].Procofthe21stACMSIGMODIntConfOnKnowledgeDiscoveryandDataMining.NewYork:ACM,2015:129-138.)提出的JTree方法利用Markov网络构建联合树来处理高维数据发布问题。在依据属性间相关性构建概率图进行降维处理时,需要的关键步骤是对两两属性之间的关联性进行判别。但当属性对繁多时,意味着需要把有限的隐私预算进行多次分割,势必会造成很大的噪声,且数据维数越高,产生的网络结构越复杂,造成表达式超指数的增长,算法运行时间也大大增加。即传统的贝叶斯网络直接将所有属性构建一个贝叶斯网络,这样在构建时属性的AP对候选空间过大、隐私预算分割次数多,加入噪音会极大降低指数机制选择精度,最终导致算法可用性低,而且高维属性环境下,随着属节点增加,算法运行时间呈指数级增长。因此,如何针对高维数据实现有效可行的隐私数据发布已经成为急需解决的技术问题。
技术实现思路
本专利技术的目的是为了解决了高维隐私数据加噪发布误差大、可用性差、效率低的缺陷,提供一种基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法来解决上述问题。为了实现上述目的,本专利技术的技术方案如下:基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法,包括以下步骤:11)高维数据的获取:获取待发布的高维数据形成原始数据集D,对高维数据进行属性归纳,形成高维数据属性集;12)属性子集的聚类划分:通过计算高维数据属性之间的相关性,利用属性聚类方法将高维属性集划分成c个属性子集,进而根据属性子集将原始数据集D划分成c个数据子集Di(i=1,..,c);13)构建加噪贝叶斯网络:使用贪婪贝叶斯方法对得到的数据子集Di(i=1,..,c)构建加噪贝叶斯网络Ni(i=1,..,c),其中,分配的总隐私预算为ε1,每个数据子集根据拥有的属性个数占c个属性子集簇拥有的总属性个数比例分配隐私预算使构建的每个贝叶斯网络满足ε1i的差分隐私;14)生成加噪条件分布:对于每一个贝叶斯网络Ni,计算其联合概率分布Pr[Vi,∏i]并加噪得到Pr*[Vi,∏i],据此计算加噪条件概率分布Pr*[Vi|∏i],其中,分配的总隐私预算为ε2,每个贝叶斯网络根据属性节点个数占c个贝叶斯网络拥有的总属性节点个数比例分配隐私预算使构建的每个条件概率分布满足ε2i的差分隐私;ε1与ε2之和等于给定的总隐私预算ε,即ε=ε1+ε2,使得整个数据发布过程满足ε的差分隐私;15)合成数据集的发布:对于c个数据子集,根据其贝叶斯网络Ni和加噪条件分布Pr*[Vi|∏i]以i的增加顺序依次采样每个属性,生成扰动数据集Di*(i=1,..,c),根据此生成合成数据集D*,合成数据集D*即为高维隐私数据,最终将高维隐私数据进行发布。所述属性子集的聚类划分本文档来自技高网
...

【技术保护点】
1.一种基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法,其特征在于,包括以下步骤:/n11)高维数据的获取:获取待发布的高维数据形成原始数据集D,对高维数据进行属性归纳,形成高维数据属性集;/n12)属性子集的聚类划分:通过计算高维数据属性之间的相关性,利用属性聚类方法将高维属性集划分成c个属性子集,进而根据属性子集将原始数据集D划分成c个数据子集D

【技术特征摘要】
1.一种基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法,其特征在于,包括以下步骤:
11)高维数据的获取:获取待发布的高维数据形成原始数据集D,对高维数据进行属性归纳,形成高维数据属性集;
12)属性子集的聚类划分:通过计算高维数据属性之间的相关性,利用属性聚类方法将高维属性集划分成c个属性子集,进而根据属性子集将原始数据集D划分成c个数据子集Di(i=1,..,c);
13)构建加噪贝叶斯网络:使用贪婪贝叶斯方法对得到的数据子集Di(i=1,..,c)构建加噪贝叶斯网络Ni(i=1,..,c),其中,分配的总隐私预算为ε1,每个数据子集根据拥有的属性个数占c个属性子集簇拥有的总属性个数比例分配隐私预算使构建的每个贝叶斯网络满足ε1i的差分隐私;
14)生成加噪条件分布:对于每一个贝叶斯网络Ni,计算其联合概率分布Pr[Vi,∏i]并加噪得到Pr*[Vi,∏i],据此计算加噪条件概率分布Pr*[Vi|∏i],其中,分配的总隐私预算为ε2,每个贝叶斯网络根据属性节点个数占c个贝叶斯网络拥有的总属性节点个数比例分配隐私预算使构建的每个条件概率分布满足ε2i的差分隐私;ε1与ε2之和等于给定的总隐私预算ε,即ε=ε1+ε2,使得整个数据发布过程满足ε的差分隐私;
15)合成数据集的发布:对于c个数据子集,根据其贝叶斯网络Ni和加噪条件分布Pr*[Vi|∏i]以i的增加顺序依次采样每个属性,生成扰动数据集根据此生成合成数据集D*,合成数据集D*即为高维隐私数据,最终将高维隐私数据进行发布。


2.根据权利要求1所述的基于贝叶斯网络属性聚类分析技术的高维隐私数据发布方法,其特征在于,所述属性子集的聚类划分包括以下步骤:
21)针对高维数据集,计算高维数据属性之间的相关性,其计算方法如下:
给定任意两个属性Vi和Vj,属性之间相对依赖关系表示为



其中,I代表两个属性之间的互信息,H代表两个属性之间的联合熵值;对于任意一个属性Vi,它到其他属性的关系和表示为
22)随机选择c个属性作为中心属性,其中c是属性子集的个数;
23)对于计算Vi与各中心属性之间的相对依赖关系,并将其分配给依赖值最大的中心属性Cr所在子集簇,重复此步骤直至分配完所有属性;
24)更新中心属性,对于每一个属性子集,如果有属性Vi到...

【专利技术属性】
技术研发人员:陈恒恒刘胜军谢飞倪志伟陈千李海松卜繁耀朱旭辉
申请(专利权)人:合肥城市云数据中心股份有限公司合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1