一种多敏感属性数据发布中的隐私保护方法技术

技术编号:16587731 阅读:41 留言:0更新日期:2017-11-18 15:23
本发明专利技术公开了一种多敏感属性数据发布中的隐私保护方法,解决了多敏感属性数据发布中准标识符数据质量较差的问题。其基本思路如下:首先对数据集执行聚类,将准标识符相近的数据集聚集在一个集合,产生若干数据集合;其次,基于敏感属性构建多维桶结构,并将数据记录按照敏感属性取值映射在多维桶结构中;然后基于多维桶进行分组:选取主敏感属性,计算主敏感属性的维容量,选取L(L>=2)个维容量最大的主敏感属性,从中各选取一条数据记录,判断是否满足多敏感属性L‑多样性,如果不满足按维容量从大到小依次遍历每个桶,直到满足多敏感属性L多样性。重复上述过程,直到桶中数据不再满足多敏感属性L‑多样性。最后,对所有分组匿名化处理。

A privacy preserving method for multi sensitive attribute data publishing

The invention discloses a privacy protection method for multi sensitive attribute data publishing, which solves the problem of poor quality of quasi identifier data in multi sensitive attribute data publishing. Its basic ideas are as follows: firstly, the data set to perform clustering, will be gathered in a collection of similar data set identifier, producing a number of data sets; secondly, constructing multidimensional sensitive attribute bucket structure based on structure and data is recorded in a multidimensional sensitive attribute values according to the bucket node map; then based on multi dimension bucket group: select the main sensitive attribute, calculate the main sensitive attribute dimension capacity, select L (L> = 2) dimensions the biggest capacity of main sensitive attributes, from selected data records, to determine whether they meet the multiple sensitive attributes L diversity, if not satisfied according to the capacity dimension from high to low in order traversal of each bucket until multiple sensitive attributes L diversity. Repeat the above process until the data bucket no longer meet L diversity multiple sensitive attributes. Finally, all packets are anonymously processed.

【技术实现步骤摘要】
一种多敏感属性数据发布中的隐私保护方法
本专利技术属于数据隐私保护领域,更具体地,涉及一种多敏感属性数据发布中的隐私保护方法。
技术介绍
大数据时代,各行各业都在利用大数据技术实现利润的最大化,例如金融、电商、医疗等行业。在金融行业,可以分析客户理财投资行为,为客户推荐个性化服务;在电商行业,购物网站可以根据客户关注商品的类型进行个性化商品推荐,提高客户体验;在医疗行业,医疗机构可以就病人就诊科室、就诊时间等方面做出分析,帮助医疗机构更加合理地安排医疗资源。除此之外,开放共享医疗数据在预测和防治流行病等方面也有积极意义,这些都涉及到数据的发布。2016国家颁布了《关于促进和规范健康医疗大数据应用发展的指导意见》,要求建立开放的医疗数据平台。建立开放的医疗数据平台也需要数据的发布共享,然而数据发布常常伴随着一个棘手问题,即隐私保护,这也是数据发布共享进展缓慢的重要障碍。目前存在有多种数据发布隐私保护方法,例如删除标识符方法、数据干扰法、K-匿名方法、L-多样性方法、T-Closeness等,这些方法不但有效地保证了数据安全性,也使数据保持较高的可用性。但是,这些方法主要是针对单敏感属性数据发布隐私保护,随着数据发布的深入研究,许多待发布数据表中往往包含多敏感信息(如医疗数据中的疾病类型、就诊医生、过往病史等极其敏感的信息等),如果将上述这些方法直接应用在具有多敏感属性的数据发布中,并不能防止敏感信息的泄露。虽然当下也有一些多敏感属性数据发布隐私保护方法,但其大都是以有损连接和L-多样性为基础,更多考虑的是防止敏感信息泄露,而较少兼顾准标识符属性数据的可用性,从而会导致数据发布的可用性大大降低。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种多敏感属性数据发布中的隐私保护方法,其目的在于,通过对数据集聚类,将数据类型相似的数据记录分在一个集合中,然后对每个相似的数据集构建基于多维桶,并基于多维桶的主敏感属性进行分组,以解决现有多敏感属性数据发布的隐私保护方法中由于较少考虑准标识符属性数据的可用性,从而导致数据发布的可用性大大降低的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种多敏感属性数据发布中的隐私保护方法,包括以下步骤:(1)接收来自用户的数据集,根据数据集中非数值属性的值域构建对应于每个非数值属性的概化树,并为概化树中的每一层分配唯一的一个权值;(2)利用聚类算法对数据集进行处理,以得到多个数据类型相似的子数据集:(3)根据步骤(2)得到的多个子数据集构建多维桶;(4)根据L-多样性原则判断多维桶中是否存在可继续分组的数据记录,如果不存在则过程结束,否则进入步骤(5);(5)从多维桶中选取主敏感属性对应的、维容量最大的L个属性值,从维容量最大的属性值对应的数据记录中随机选择一个加入新的分组,从维容量次大的属性值对应的数据记录中随机选择次敏感属性值不同于前一维容量的数据记录,并将其加入该新的分组,以此类推,从而得到新的分组;(6)判断得到的新的分组是否满足多敏感属性L-多样性,如果满足,则在多维桶中删除该分组中的数据记录并进入步骤(8),否则进入步骤(7);(7)从多维桶中剩余的主敏感属性值中选取维容量最大的一个,使用该主敏感属性值替换步骤(5)得到的新的分组中维容量最小的主敏感属性值对应的数据记录,然后返回步骤(6);(8)对分组进行K-匿名化处理,以得到匿名分组。优选地,步骤(2)中使用的聚类算法是K-means聚类算法、K-medoids方法、CLARANS方法、或BIRCH方法。优选地,在使用K-means聚类算法时,首先从数据集中选取K个数据记录作为聚心,计算各条数据记录与各个聚心的距离,将数据记录划分到与其距离最近的聚心所在的集合中;计算该聚心所在的集合中所有数据记录的平均值作为新的聚心,再重复计算各条数据记录与新的聚心之间的距离,并将数据记录划分到与其距离最近的新的聚心所在的集合中,重复上述过程,直到聚心不再发生变化为止,此时各个聚心所在集合中的所有数据记录构成子数据集,每个子数据集包括多个子数据属性和对应的子数据属性值。优选地,步骤(3)具体为,首先,从多个子数据集属性中确定敏感属性和非敏感属性,然后,将敏感属性和其对应的属性值映射到多维桶结构中,从得到的多维桶结构中确定主敏感属性和次敏感属性,该主敏感属性中每个属性值对应的数据记录的数量之和为该主敏感属性值的维容量。优选地,步骤(4)中,如果构成多维桶的主敏感属性的多个维容量中,非空维容量的总数量大于L-多样性原则中的L值,并且次敏感属性满足L-多样性原则,则说明该多维桶中存在可继续分组的数据记录,否则说明该多维桶中不存在可继续分组的数据记录。按照本专利技术的另一方面,提供了一种多敏感属性数据发布中的隐私保护系统,包括:第一模块,用于接收来自用户的数据集,根据数据集中非数值属性的值域构建对应于每个非数值属性的概化树,并为概化树中的每一层分配唯一的一个权值;第二模块,用于利用聚类算法对数据集进行处理,以得到多个数据类型相似的子数据集:第三模块,用于根据第二模块得到的多个子数据集构建多维桶;第四模块,用于根据L-多样性原则判断多维桶中是否存在可继续分组的数据记录,如果不存在则过程结束,否则进入第五模块;第五模块,用于从多维桶中选取主敏感属性对应的、维容量最大的L个属性值,从维容量最大的属性值对应的数据记录中随机选择一个加入新的分组,从维容量次大的属性值对应的数据记录中随机选择次敏感属性值不同于前一维容量的数据记录,并将其加入该新的分组,以此类推,从而得到新的分组;第六模块,用于判断得到的新的分组是否满足多敏感属性L-多样性,如果满足,则在多维桶中删除该分组中的数据记录并进入第八模块,否则进入第七模块;第七模块,用于从多维桶中剩余的主敏感属性值中选取维容量最大的一个,使用该主敏感属性值替换第五模块得到的新的分组中维容量最小的主敏感属性值对应的数据记录,然后返回第六模块;第八模块,用于对分组进行K-匿名化处理,以得到匿名分组。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:(1)本专利技术通过采用步骤(1)和步骤(2)实现了数据的聚类,其将数据类型相似的分在一个数据集,从而减少了准标识符的概化力度,并由此解决了现有多敏感属性数据发布的隐私保护方法中较少考虑准标识符属性数据的可用性而导致数据发布的可用性大大降低的技术问题。(2)本专利技术通过采用步骤(3)、(5)和步骤(7),实现了多维桶结构,并基于多维桶结构充分遍历数据记录;通过步骤(8)实现了K-匿名处理。因此,本专利技术保证了分组的安全性和充分性:(3)由于本专利技术基于多维桶结构,从整体上保证了数据记录的有效组合;并且基于主敏感属性的维容量进行分组,尽量保证了分组的多样性,保证了数据的安全性。(4)本专利技术的可扩展性较好,能适用与较多领域的数据发布隐私保护。(5)本专利技术实现简单,技术成熟。附图说明图1是本专利技术多敏感属性数据发布中的隐私保护方法的流程图。图2是本专利技术多敏感属性数据发布中的隐私保护方法中使用的概化树的示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处本文档来自技高网
...
一种多敏感属性数据发布中的隐私保护方法

【技术保护点】
一种多敏感属性数据发布中的隐私保护方法,其特征在于,包括以下步骤:(1)接收来自用户的数据集,根据数据集中非数值属性的值域构建对应于每个非数值属性的概化树,并为概化树中的每一层分配唯一的一个权值;(2)利用聚类算法对数据集进行处理,以得到多个数据类型相似的子数据集。(3)根据步骤(2)得到的多个子数据集构建多维桶;(4)根据L‑多样性原则判断多维桶中是否存在可继续分组的数据记录,如果不存在则过程结束,否则进入步骤(5);(5)从多维桶中选取主敏感属性对应的、维容量最大的L个属性值,从维容量最大的属性值对应的数据记录中随机选择一个加入新的分组,从维容量次大的属性值对应的数据记录中随机选择次敏感属性值不同于前一维容量的数据记录,并将其加入该新的分组,以此类推,从而得到新的分组;(6)判断得到的新的分组是否满足多敏感属性L‑多样性,如果满足,则在多维桶中删除该分组中的数据记录并进入步骤(8),否则进入步骤(7);(7)从多维桶中剩余的主敏感属性值中选取维容量最大的一个,使用该主敏感属性值替换步骤(5)得到的新的分组中维容量最小的主敏感属性值对应的数据记录,然后返回步骤(6)。(8)对分组进行K‑匿名化处理,以得到匿名分组。...

【技术特征摘要】
1.一种多敏感属性数据发布中的隐私保护方法,其特征在于,包括以下步骤:(1)接收来自用户的数据集,根据数据集中非数值属性的值域构建对应于每个非数值属性的概化树,并为概化树中的每一层分配唯一的一个权值;(2)利用聚类算法对数据集进行处理,以得到多个数据类型相似的子数据集。(3)根据步骤(2)得到的多个子数据集构建多维桶;(4)根据L-多样性原则判断多维桶中是否存在可继续分组的数据记录,如果不存在则过程结束,否则进入步骤(5);(5)从多维桶中选取主敏感属性对应的、维容量最大的L个属性值,从维容量最大的属性值对应的数据记录中随机选择一个加入新的分组,从维容量次大的属性值对应的数据记录中随机选择次敏感属性值不同于前一维容量的数据记录,并将其加入该新的分组,以此类推,从而得到新的分组;(6)判断得到的新的分组是否满足多敏感属性L-多样性,如果满足,则在多维桶中删除该分组中的数据记录并进入步骤(8),否则进入步骤(7);(7)从多维桶中剩余的主敏感属性值中选取维容量最大的一个,使用该主敏感属性值替换步骤(5)得到的新的分组中维容量最小的主敏感属性值对应的数据记录,然后返回步骤(6)。(8)对分组进行K-匿名化处理,以得到匿名分组。2.根据权利要求1所述的隐私保护方法,其特征在于,步骤(2)中使用的聚类算法是K-means聚类算法、K-medoids方法、CLARANS方法、或BIRCH方法等。3.根据权利要求2所述的隐私保护方法,其特征在于,在使用K-means聚类算法时,首先从数据集中选取K个数据记录作为聚心,计算各条数据记录与各个聚心的距离,将数据记录划分到与其距离最近的聚心所在的集合中;计算该聚心所在的集合中所有数据记录的平均值作为新的聚心,再重复计算各条数据记录与新的聚心之间的距离,并将数据记录划分到与其距离最近的新的聚心所在的集合中,重复上述过程,直到聚心不再发生变化为止,此时各个聚心所在集合中的所有数据记录构成子数据集,每个子数据集包括多个子数...

【专利技术属性】
技术研发人员:李春花周可李文
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1