一种基于敏感度分级的匿名数据发布方法及装置制造方法及图纸

技术编号:22444742 阅读:43 留言:0更新日期:2019-11-02 04:37
本发明专利技术实施例提供了一种基于敏感度分级的匿名数据发布方法及装置,通过根据各敏感属性,分别获取预先设置的各敏感属性对应的敏感度、多样性参数li及频率约束参数ci;根据各敏感度,对数据集进行分组,得到多个子集;从敏感度最大的子集中,选择第一元组;根据第一元组的多样性参数l,按照敏感度升序从其他(l‑1)个子集中各选择一个第二元组;将第一元组及第二元组组成元组集合,若元组集合中元组个数未达到预设个数k,则从数据集的剩余元组中,将多个第三元组加入元组集合,元组集合中第三元组的敏感属性出现的频率小于或等于第三元组的频率约束参数;对多个元组集合进行匿名化处理后发布匿名数据集,可以有效降低高敏感度数据被泄露的风险。

An anonymous data publishing method and device based on Sensitivity Classification

【技术实现步骤摘要】
一种基于敏感度分级的匿名数据发布方法及装置
本专利技术涉及信息安全
,特别是涉及一种基于敏感度分级的匿名数据发布方法及装置。
技术介绍
随着大数据时代的到来,数据收集者会根据不同的需求对所收集的数据进行发布。对于数据收集者所收集的数据而言,有些数据信息属于用户的个人隐私,例如收入水平、健康状况、消费记录等信息,因此,在进行数据发布时,需要对这些隐私信息进行隐匿处理。相关技术中,基于敏感度的(l,c)-多样性模型可以实现隐私保护数据发布。在该模型中,为待发布的数据表T中的各个元组包含的敏感属性设定了统一的频率约束参数c,并且,根据敏感属性对应的敏感度高低,为待发布的数据表T中的各个元组包含的敏感属性设定了不同的多样性参数l,这样,可以根据各个元组包含的敏感属性设定的多样性参数l,将满足等价类对于多样性要求的元组加入不同的等价类中,从而保证发布后的数据表中等价类的种类多样性。下面对该模型进行举例说明:假设现在有一个待发布的数据表T,T的准标识符为“年龄”、“身高”和“体重”;T的敏感属性为“癌症”、“甲亢”、“发烧”和“感冒”,其中,各敏感属性的c统一设置为1/50,敏感度为5的“本文档来自技高网...

【技术保护点】
1.一种基于敏感度分级的匿名数据发布方法,其特征在于,所述方法包括:获取待发布的数据集,其中,所述数据集中包括多个元组,各所述元组中至少包括敏感属性;根据各敏感属性,分别获取预先设置的各所述敏感属性对应的敏感度、多样性参数li及频率约束参数ci;根据各所述敏感属性对应的敏感度,对所述数据集进行分组,得到多个子集,其中,同一所述子集中的元组的敏感属性对应的敏感度属于同一敏感度范围内;从敏感度最大的所述子集中,选择第一元组,所述第一元组为所述敏感度最大的子集中的任一元组;根据所述第一元组的敏感属性对应的多样性参数l,按照敏感度升序依次从除所述敏感度最大的子集以外的其他(l‑1)个子集中各选择一个第...

【技术特征摘要】
1.一种基于敏感度分级的匿名数据发布方法,其特征在于,所述方法包括:获取待发布的数据集,其中,所述数据集中包括多个元组,各所述元组中至少包括敏感属性;根据各敏感属性,分别获取预先设置的各所述敏感属性对应的敏感度、多样性参数li及频率约束参数ci;根据各所述敏感属性对应的敏感度,对所述数据集进行分组,得到多个子集,其中,同一所述子集中的元组的敏感属性对应的敏感度属于同一敏感度范围内;从敏感度最大的所述子集中,选择第一元组,所述第一元组为所述敏感度最大的子集中的任一元组;根据所述第一元组的敏感属性对应的多样性参数l,按照敏感度升序依次从除所述敏感度最大的子集以外的其他(l-1)个子集中各选择一个第二元组;将所述第一元组及所述多个第二元组组成元组集合,并判断所述元组集合中元组个数是否达到预设个数k;若否,则从所述数据集的剩余元组中,选择多个第三元组加入所述元组集合,所述元组集合中所述第三元组的敏感属性出现的频率小于或者等于所述第三元组的敏感属性对应的频率约束参数;对得到的多个元组集合进行匿名化处理,得到匿名数据集,并发布所述匿名数据集。2.根据权利要求1所述的方法,其特征在于,在所述从所述数据集的剩余元组中,选择多个第三元组加入所述元组集合之后,所述方法还包括:判断所述数据集中剩余元组的数量是否小于所述预设个数k,或者,所述数据集中剩余元组的敏感属性的种类数目是否小于数据集中敏感度最大的剩余元组的敏感属性对应的多样性参数;若所述数据集中剩余元组的数量小于所述预设个数k,或者,所述数据集中剩余元组的敏感属性的种类数目小于数据集中敏感度最大的剩余元组的敏感属性对应的多样性参数,则计算若将所述数据集中剩余元组加入所述元组集合,所述元组集合中所述剩余元组的敏感属性出现的频率,并判断所述元组集合中所述剩余元组的敏感属性出现的频率是否小于或者等于所述剩余元组的敏感属性对应的频率约束参数,以及所述元组集合中加入所述剩余元组后的元组个数是否小于所述预设个数k的2倍;若所述元组集合中所述剩余元组的敏感属性出现的频率小于或者等于所述剩余元组的敏感属性对应的频率约束参数,且所述元组集合中加入所述剩余元组后的元组个数小于所述预设个数k的2倍,则将所述数据集中剩余元组加入所述元组集合。3.根据权利要求1所述的方法,其特征在于,在所述从所述数据集的剩余元组中,选择多个第三元组加入所述元组集合之后,所述方法还包括:判断所述数据集中剩余元组数量是否小于所述预设个数k、且所述子集的数目是否小于所述数据集中剩余元组的敏感属性对应的多样性参数;所述对得到的多个元组集合进行匿名化处理,得到匿名数据集,并发布所述匿名数据集,包括:若所述数据集中剩余元组数量小于所述预设个数k、且所述子集的数目小于所述数据集中剩余元组的敏感属性对应的多样性参数,则对得到的多个元组集合进行匿名化处理,得到匿名数据集,并发布所述匿名数据集。4.根据权利要求1所述的方法,其特征在于,所述敏感属性对应的敏感度与所述敏感属性对应的多样性参数li呈正比关系;所述敏感属性对应的敏感度与所述敏感属性对应的频率约束参数ci呈反比关系。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一元组的敏感属性对应的多样性参数l,按照敏感度升序依次从除所述敏感度最大的子集以外的其他(l-1)个子集中各选择一个第二元组,包括:根据所述元组集合中各元组,计算第一信息损失度;按照敏感度升序依次从除所述敏感度最大的子集以外的其他(l-1)个子集中的一个子集中任意选择一个第二元组,并根据所述元组集合中的各元组及选择出的第二元组,计算第二信息损失度;将使得所述第一信息损失度与所述第二信息损失度的差值的绝对值最小的第二元组加入所...

【专利技术属性】
技术研发人员:罗涛孙进考宋海娜李剑峰
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1