一种基于身份替代的隐私保护方法及系统技术方案

技术编号:15691382 阅读:154 留言:0更新日期:2017-06-24 04:32
本发明专利技术公开了一种基于身份替代的隐私保护方法及系统,所述隐私保护方法包括:根据数据范化参数对高敏感数据的身份属性集进行范化处理,生成虚拟身份集;根据所述身份属性集和虚拟身份集,确定处理后的身份偏移量和处理后的特征偏移量;分别判断所述处理后的身份偏移量是否满足身份偏移量阈值的要求以及处理后的特征偏移量是否满足特征偏移量阈值的要求,如果满足,则将处理后的虚拟身份集替换发布数据集中对应的高敏感数据,以进行发布;否则,根据判断结果调整所述数据范化参数,可提高处理后处理的隐私性和可用性。

Privacy protection method and system based on identity substitution

The invention discloses a method and a system for identity privacy protection based on the alternative, including the privacy protection method: according to the identity attribute normalization parameter data for high sensitive data set of standardized treatment, the virtual identity set; according to the ID attribute set and virtual identity set, determine the characteristics of offset offset status and after the treatment respectively; judging whether the treatment status meets the offset offset offset is characteristic of identity threshold requirements and the characteristics of the offset meet the threshold requirements, if met, will be set to replace the virtual identity after release of high sensitive data corresponding to the data set. Release; otherwise, according to the judgment result of adjustment of the data normalization parameters, privacy and availability can improve the treatment of the postprocessing.

【技术实现步骤摘要】
一种基于身份替代的隐私保护方法及系统
本专利技术涉及数据处理
,特别是涉及一种基于身份替代的隐私保护方法及系统。
技术介绍
隐私(privacy):指个人、组织等实体不愿意被外部获取的信息。泄露(disclosure):不希望发布的数据或信息,被明确的发布出来或通过发布的数据可能间接推断出准确度较高的信息,当发生以上情况时称发生了泄露。标识符(Identifier):一张数据记录表中能唯一标识一条记录的属性。例如原始数据表T0(如表1所示)中的病例编号,通过该编号,可以唯一的从所有病例中查找到该条记录,所以病例编号为标识符。数据表的标识符并不唯一,例如表中的身份证号码,也是该记录的标识符。表1原始数据表T0准标识符QI(Quasi-Identifier):准标识符是一个数据实体集的属性集合中的一组属性,通过该组属性,可以将一条记录从数据表中查询出来。表1中性别、年龄、身高组成了准标识符,通过三个属性的组合可以从表中查找出一条记录。例如:select*fromT0where性别=‘男’and年龄=‘25’and身高=‘175’,就可以查询到病例编号为4533747的整条记录获取该条记录的敏感属性(疾病)为骨折。抑制与泛化:抑制是指针对标识符做不发布处理,因为标识符和某些属性有很强的查询能力,所以针对这些属性做抑制处理是比较恰当的选择。泛化指降低数据的精度,针对数值数据如年龄35可以泛化为30-40,使得原始数据包含在泛化后的结果中;针对字符串数据,可采用上位词来对数据进行泛化。去除标识符后的匿名数据表T1(如表2所示),设一外部链接表T2(如表3所示)。表2去除标识符的匿名数据表T1表3外部链接数据表T2链接攻击(Link-Attack):通过准标识符QI将两张或多张数据表链接,提高数据表维度,挖掘数据表中的隐私信息的攻击方式称之为链接攻击。通过对表T1和T2的准标识符的组合(性别、年龄)进行链接操作可以得到连接数据表Tlink(如表4所示),在表中原本被匿名的记录重新被标识,完全失去的匿名效果,造成了隐私泄露。这就是链接攻击的基本原理。表4通过链接得到的数据表Tlink表5满足k=2的k匿名数据表TkK匿名(K-Anonymity):设一张数据表RT(A1,...,An)的准标识符为QIRT,当每个针对QIRT的查询包含至少K个结果时,称数据表RT满足K匿名。表Tk(如表5所示)是对T1进行k=2的匿名处理后的发布结果。表中每两条记录的准标识符完全相同。针对每组准标识符的查询都会返回至少2条记录,所以表Tk满足2匿名。背景知识(backgroundknowledge):背景知识是攻击者获取的与攻击目标有关的信息,这些信息来源于方方面面,具有多样性,复杂性,不可预知性等特点,给隐私保护带来了严峻的挑战。泄露风险(Risk):表示根据发布的数据和背景知识披露隐私造成隐私泄露的概率。记敏感数据为p,背景知识为b,则在背景知识b的帮助下隐私泄露风险Risk(p,b)可以表示为(其中P表示概率):Risk(p,b)=P(p|b)。随着科技的发展,数字化技术使得全球每时每刻都在产生大量的新数据,据统计2012年全球信息总量达到了2.7ZB,据估计2015年全球信息量将达到8ZB,网络化和物联网技术使得全球的数据能够在网络中共享,但是随之而来的隐私泄露的问题也相当严峻。随着大数据技术的飞速发展,数据收集、数据共享成为时代的主流。大数据意味着价值,但是数据分析,数据挖掘等技术给隐私保护带来了前所未有的挑战。大数据未能妥善处理会对用户的隐私造成极大的侵害。大数据隐私问题已经成为当务之急,隐私问题已经逐渐被公众所重视。多项实际案例说明。即使无害的数据被大量收集后。也会暴露个人隐私。目前已有方案分别有以下三种::第一、简单抑制与泛化具体步骤如图1所示:首先设置泛化和抑制的相关参数,设置哪些参数需要泛化哪些需要抑制;从数据源读取数据;对数据进行泛化抑制处理;把处理后的数据添加到发布数据集中供发布使用。然而去掉标识符后发布数据,方法简单,也在大数据到来之前起到了一定的隐私保护效果,但是随着大数据的到来,仅仅去掉标识符已经不能起到很好的保护作用。简单抑制与泛化方法在链接攻击下基本起不到任何隐私保护作用,隐私保护强度太差。第二、k匿名k匿名方法的核心思想就是设法切断准标识符与敏感属性之间的一对一关系来保隐私属性。在一个数据表中,一个记录的准标识符至少有(k-1)个记录的准标识符与之相同。换句话说就是,根据准标识符的查询结果至少包含K条记录,在准标识符上,任意一条与其他k-1条记录无法区分。具体步骤如图2所示:设置k匿名参数k;从数据源读取数据;对数据进行聚类操作,生成等价组;判断是否已经满足k匿名的要求;如果满足要求就将数据添加到发布数据集中等待发布;如果不满足,就对数据进行泛化和抑制操作后,重新进行聚类操作直至满足k匿名要求。k匿名最大的优点在于核心思想简单便于理解,但在具体实施过程中参数的选取以及实现算法直接决定了处理结果的好坏,隐私保护效果好并且数据可用性高的算法需要耗费大量的时间在等价组的选取中,效率高的算法不能同时保证保护程度和数据可用性。有时为了达到k匿名的要求,会对原始数据造成过度的抑制和泛化,严重影响到数据的可用性,降低了数据的价值。隐私保护强度较差,过度处理降低数据价值,无法抵御背景知识攻击。第三、差分隐私差分意思策略的核心思想是对于一个统计数据库,添加一条给数据库。数据分析者对数据库使用统计函数f(比如计数,求和等),获得f(D)。此时把新添加的记录从D中删除得到数据库D1,对D1使用统计函数f得到f(D1)。如果f(D1)和f(D)的结果非常接近,则可以断定新添加的记录并没有因为将自己的信息提供给研究机构而存在隐私泄露的风险。差分隐私保护就是确保任意一条记录被添加或者删除都不会对分析结果造成影响。具体步骤如图3所示:差分隐私的相关参数;从数据源读取数据;根据不同的噪音机制向数据集中添加噪音;把处理后的数据添加到发布数据集中,供发布使用。差分隐私最大的优点在于有严谨的理论论证,并证明了在最严格的攻击模型下,仍然能起到隐私保护的作用。但差分隐私的噪音机制使得添加的噪音与原始数据无关,虽然保证了数据某些方面的统计特性,但这有可能造成单条数据失真比较严重的情况发生。这样就无法保证在提供隐私的保护的同时维持单条数据的数据特性。单条数据处理后失真严重,很难维持数据原有特性。因此,在对数据处理时,如何保护数据的隐私性的同时确保数据的可用性是目前亟需解决的技术问题。
技术实现思路
本专利技术的目的是提供一种基于身份替代的隐私保护方法,可提高处理后处理的隐私性和可用性。为实现上述目的,本专利技术提供了如下方案:一种基于身份替代的隐私保护方法,所述隐私保护方法包括:根据数据范化参数对高敏感数据的身份属性集进行范化处理,生成虚拟身份集;根据所述身份属性集和虚拟身份集,确定处理后的身份偏移量和处理后的特征偏移量;分别判断所述处理后的身份偏移量是否满足身份偏移量阈值的要求以及处理后的特征偏移量是否满足特征偏移量阈值的要求,如果满足,则将处理后的虚拟身份集替换发布数据集中对应的高敏感数据,以进行发布;否则,根据判断结果调整所述数据范本文档来自技高网
...
一种基于身份替代的隐私保护方法及系统

【技术保护点】
一种基于身份替代的隐私保护方法,其特征在于,所述隐私保护方法包括:根据数据范化参数对高敏感数据的身份属性集进行范化处理,生成虚拟身份集;根据所述身份属性集和虚拟身份集,确定处理后的身份偏移量和处理后的特征偏移量;分别判断所述处理后的身份偏移量是否满足身份偏移量阈值的要求以及处理后的特征偏移量是否满足特征偏移量阈值的要求,如果满足,则将处理后的虚拟身份集替换发布数据集中对应的高敏感数据,以进行发布;否则,根据判断结果调整所述数据范化参数。

【技术特征摘要】
1.一种基于身份替代的隐私保护方法,其特征在于,所述隐私保护方法包括:根据数据范化参数对高敏感数据的身份属性集进行范化处理,生成虚拟身份集;根据所述身份属性集和虚拟身份集,确定处理后的身份偏移量和处理后的特征偏移量;分别判断所述处理后的身份偏移量是否满足身份偏移量阈值的要求以及处理后的特征偏移量是否满足特征偏移量阈值的要求,如果满足,则将处理后的虚拟身份集替换发布数据集中对应的高敏感数据,以进行发布;否则,根据判断结果调整所述数据范化参数。2.根据权利要求1所述的基于身份替代的隐私保护方法,其特征在于,所述隐私保护方法还包括:对收集的原始数据,进行预处理,生成高敏感数据。3.根据权利要求2所述的基于身份替代的隐私保护方法,其特征在于,所述预处理的方法包括:去除原始数据中的错误信息和缺失信息。4.根据权利要求1-3中任一项所述的基于身份替代的隐私保护方法,其特征在于,所述确定处理后的身份偏移量和处理后的特征偏移量的方法包括:根据所述身份属性集V和虚拟身份集Vid确定虚拟身份vidn对应的单属性偏移量δn:其中,V=v1,v2,...,vN,Vid=vid1,vid2,...,vidN,其中,n表示身份属性vn和虚拟身份vidn的序号,n=1,2,...,N;根据所述单属性偏移量δn确定单属性相似度λn:λn=1-δn------------公式(2);根据各所述单属性相似度确定身份相似度α:其中ξn为身份属性vn的影响因子;根据所述身份相似度α计算处理后的身份偏移量Δid:Δid=1-α------------公式(4);根据所述身份属性集V确定身份属性特征向量根据所述虚拟身份集Vid确定虚拟身份根据所述身份属性特征向量和虚拟身份确定特征相似度β:根据所述特征相似度β确定处理后的特征偏移量Δch:Δch=1-β------------公式(6)。5.根据权利要求4所述的基于身份替代的隐私保护方法,其特征在于,ξ1=ξ2=...=ξN=1。6.一种基于身份替代的...

【专利技术属性】
技术研发人员:康海燕孟祥
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1