一种多敏感属性数据发布中的隐私保护方法技术

技术编号：16587731 阅读：56 留言：0更新日期：2017-11-18 15:23

本发明专利技术公开了一种多敏感属性数据发布中的隐私保护方法，解决了多敏感属性数据发布中准标识符数据质量较差的问题。其基本思路如下：首先对数据集执行聚类，将准标识符相近的数据集聚集在一个集合，产生若干数据集合；其次，基于敏感属性构建多维桶结构，并将数据记录按照敏感属性取值映射在多维桶结构中；然后基于多维桶进行分组：选取主敏感属性，计算主敏感属性的维容量，选取L(L>＝2)个维容量最大的主敏感属性，从中各选取一条数据记录，判断是否满足多敏感属性L‑多样性，如果不满足按维容量从大到小依次遍历每个桶，直到满足多敏感属性L多样性。重复上述过程，直到桶中数据不再满足多敏感属性L‑多样性。最后，对所有分组匿名化处理。

A privacy preserving method for multi sensitive attribute data publishing

The invention discloses a privacy protection method for multi sensitive attribute data publishing, which solves the problem of poor quality of quasi identifier data in multi sensitive attribute data publishing. Its basic ideas are as follows: firstly, the data set to perform clustering, will be gathered in a collection of similar data set identifier, producing a number of data sets; secondly, constructing multidimensional sensitive attribute bucket structure based on structure and data is recorded in a multidimensional sensitive attribute values according to the bucket node map; then based on multi dimension bucket group: select the main sensitive attribute, calculate the main sensitive attribute dimension capacity, select L (L> = 2) dimensions the biggest capacity of main sensitive attributes, from selected data records, to determine whether they meet the multiple sensitive attributes L diversity, if not satisfied according to the capacity dimension from high to low in order traversal of each bucket until multiple sensitive attributes L diversity. Repeat the above process until the data bucket no longer meet L diversity multiple sensitive attributes. Finally, all packets are anonymously processed.

全部详细技术资料下载

【技术实现步骤摘要】
一种多敏感属性数据发布中的隐私保护方法
本专利技术属于数据隐私保护领域，更具体地，涉及一种多敏感属性数据发布中的隐私保护方法。
技术介绍
大数据时代，各行各业都在利用大数据技术实现利润的最大化，例如金融、电商、医疗等行业。在金融行业，可以分析客户理财投资行为，为客户推荐个性化服务；在电商行业，购物网站可以根据客户关注商品的类型进行个性化商品推荐，提高客户体验；在医疗行业，医疗机构可以就病人就诊科室、就诊时间等方面做出分析，帮助医疗机构更加合理地安排医疗资源。除此之外，开放共享医疗数据在预测和防治流行病等方面也有积极意义，这些都涉及到数据的发布。2016国家颁布了《关于促进和规范健康医疗大数据应用发展的指导意见》，要求建立开放的医疗数据平台。建立开放的医疗数据平台也需要数据的发布共享，然而数据发布常常伴随着一个棘手问题，即隐私保护，这也是数据发布共享进展缓慢的重要障碍。目前存在有多种数据发布隐私保护方法，例如删除标识符方法、数据干扰法、K-匿名方法、L-多样性方法、T-Closeness等，这些方法不但有效地保证了数据安全性，也使数据保持较高的可用性。但是，这些方法...
一种多敏感属性数据发布中的隐私保护方法

【技术保护点】
一种多敏感属性数据发布中的隐私保护方法，其特征在于，包括以下步骤：(1)接收来自用户的数据集，根据数据集中非数值属性的值域构建对应于每个非数值属性的概化树，并为概化树中的每一层分配唯一的一个权值；(2)利用聚类算法对数据集进行处理，以得到多个数据类型相似的子数据集。(3)根据步骤(2)得到的多个子数据集构建多维桶；(4)根据L‑多样性原则判断多维桶中是否存在可继续分组的数据记录，如果不存在则过程结束，否则进入步骤(5)；(5)从多维桶中选取主敏感属性对应的、维容量最大的L个属性值，从维容量最大的属性值对应的数据记录中随机选择一个加入新的分组，从维容量次大的属性值对应的数据记录中随机选择次敏感属...

【技术特征摘要】
1.一种多敏感属性数据发布中的隐私保护方法，其特征在于，包括以下步骤：(1)接收来自用户的数据集，根据数据集中非数值属性的值域构建对应于每个非数值属性的概化树，并为概化树中的每一层分配唯一的一个权值；(2)利用聚类算法对数据集进行处理，以得到多个数据类型相似的子数据集。(3)根据步骤(2)得到的多个子数据集构建多维桶；(4)根据L-多样性原则判断多维桶中是否存在可继续分组的数据记录，如果不存在则过程结束，否则进入步骤(5)；(5)从多维桶中选取主敏感属性对应的、维容量最大的L个属性值，从维容量最大的属性值对应的数据记录中随机选择一个加入新的分组，从维容量次大的属性值对应的数据记录中随机选择次敏感属性值不同于前一维容量的数据记录，并将其加入该新的分组，以此类推，从而得到新的分组；(6)判断得到的新的分组是否满足多敏感属性L-多样性，如果满足，则在多维桶中删除该分组中的数据记录并进入步骤(8)，否则进入步骤(7)；(7)从多维桶中剩余的主敏感属性值中选取维容量最大的一个，使用该主敏感属性值替换步骤(5)得到的新的分组中维容量最小的主敏感属性值对应的数据记录，然后返回步骤(6)。(8)对分组进行K-匿名化处理，以得到匿名分组。2.根据权利要求1所述的隐私保护方法，其特征在于，步骤(2)中使用的聚类算法是K-means聚类算法、K-medoids方法、CLARANS方法、或BIRCH方法等。3.根据权利要求2所述的隐私保护方法，其特征在于，在使用K-means聚类算法时，首先从数据集中选取K个数据记录作为聚心，计算各条数据记录与各个聚心的距离，将数据记录划分到与其距离最近的聚心所在的集合中；计算该聚心所在的集合中所有数据记录的平均值作为新的聚心，再重复计算各条数据记录与新的聚心之间的距离，并将数据记录划分到与其距离最近的新的聚心所在的集合中，重复上述过程，直到聚心不再发生变化为止，此时各个聚心所在集合中的所有数据记录构成子数据集，每个子数据集包括多个子数...

【专利技术属性】
技术研发人员：李春花，周可，李文，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人