The invention discloses a method and a system for identity privacy protection based on the alternative, including the privacy protection method: according to the identity attribute normalization parameter data for high sensitive data set of standardized treatment, the virtual identity set; according to the ID attribute set and virtual identity set, determine the characteristics of offset offset status and after the treatment respectively; judging whether the treatment status meets the offset offset offset is characteristic of identity threshold requirements and the characteristics of the offset meet the threshold requirements, if met, will be set to replace the virtual identity after release of high sensitive data corresponding to the data set. Release; otherwise, according to the judgment result of adjustment of the data normalization parameters, privacy and availability can improve the treatment of the postprocessing.
【技术实现步骤摘要】
一种基于身份替代的隐私保护方法及系统
本专利技术涉及数据处理
,特别是涉及一种基于身份替代的隐私保护方法及系统。
技术介绍
隐私(privacy):指个人、组织等实体不愿意被外部获取的信息。泄露(disclosure):不希望发布的数据或信息,被明确的发布出来或通过发布的数据可能间接推断出准确度较高的信息,当发生以上情况时称发生了泄露。标识符(Identifier):一张数据记录表中能唯一标识一条记录的属性。例如原始数据表T0(如表1所示)中的病例编号,通过该编号,可以唯一的从所有病例中查找到该条记录,所以病例编号为标识符。数据表的标识符并不唯一,例如表中的身份证号码,也是该记录的标识符。表1原始数据表T0准标识符QI(Quasi-Identifier):准标识符是一个数据实体集的属性集合中的一组属性,通过该组属性,可以将一条记录从数据表中查询出来。表1中性别、年龄、身高组成了准标识符,通过三个属性的组合可以从表中查找出一条记录。例如:select*fromT0where性别=‘男’and年龄=‘25’and身高=‘175’,就可以查询到病例编号为4533747的整条记录获取该条记录的敏感属性(疾病)为骨折。抑制与泛化:抑制是指针对标识符做不发布处理,因为标识符和某些属性有很强的查询能力,所以针对这些属性做抑制处理是比较恰当的选择。泛化指降低数据的精度,针对数值数据如年龄35可以泛化为30-40,使得原始数据包含在泛化后的结果中;针对字符串数据,可采用上位词来对数据进行泛化。去除标识符后的匿名数据表T1(如表2所示),设一外部链接表T2(如表3所示) ...
【技术保护点】
一种基于身份替代的隐私保护方法,其特征在于,所述隐私保护方法包括:根据数据范化参数对高敏感数据的身份属性集进行范化处理,生成虚拟身份集;根据所述身份属性集和虚拟身份集,确定处理后的身份偏移量和处理后的特征偏移量;分别判断所述处理后的身份偏移量是否满足身份偏移量阈值的要求以及处理后的特征偏移量是否满足特征偏移量阈值的要求,如果满足,则将处理后的虚拟身份集替换发布数据集中对应的高敏感数据,以进行发布;否则,根据判断结果调整所述数据范化参数。
【技术特征摘要】
1.一种基于身份替代的隐私保护方法,其特征在于,所述隐私保护方法包括:根据数据范化参数对高敏感数据的身份属性集进行范化处理,生成虚拟身份集;根据所述身份属性集和虚拟身份集,确定处理后的身份偏移量和处理后的特征偏移量;分别判断所述处理后的身份偏移量是否满足身份偏移量阈值的要求以及处理后的特征偏移量是否满足特征偏移量阈值的要求,如果满足,则将处理后的虚拟身份集替换发布数据集中对应的高敏感数据,以进行发布;否则,根据判断结果调整所述数据范化参数。2.根据权利要求1所述的基于身份替代的隐私保护方法,其特征在于,所述隐私保护方法还包括:对收集的原始数据,进行预处理,生成高敏感数据。3.根据权利要求2所述的基于身份替代的隐私保护方法,其特征在于,所述预处理的方法包括:去除原始数据中的错误信息和缺失信息。4.根据权利要求1-3中任一项所述的基于身份替代的隐私保护方法,其特征在于,所述确定处理后的身份偏移量和处理后的特征偏移量的方法包括:根据所述身份属性集V和虚拟身份集Vid确定虚拟身份vidn对应的单属性偏移量δn:其中,V=v1,v2,...,vN,Vid=vid1,vid2,...,vidN,其中,n表示身份属性vn和虚拟身份vidn的序号,n=1,2,...,N;根据所述单属性偏移量δn确定单属性相似度λn:λn=1-δn------------公式(2);根据各所述单属性相似度确定身份相似度α:其中ξn为身份属性vn的影响因子;根据所述身份相似度α计算处理后的身份偏移量Δid:Δid=1-α------------公式(4);根据所述身份属性集V确定身份属性特征向量根据所述虚拟身份集Vid确定虚拟身份根据所述身份属性特征向量和虚拟身份确定特征相似度β:根据所述特征相似度β确定处理后的特征偏移量Δch:Δch=1-β------------公式(6)。5.根据权利要求4所述的基于身份替代的隐私保护方法,其特征在于,ξ1=ξ2=...=ξN=1。6.一种基于身份替代的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。