The invention discloses a privacy protection method for multi sensitive attribute data publishing, which solves the problem of poor quality of quasi identifier data in multi sensitive attribute data publishing. Its basic ideas are as follows: firstly, the data set to perform clustering, will be gathered in a collection of similar data set identifier, producing a number of data sets; secondly, constructing multidimensional sensitive attribute bucket structure based on structure and data is recorded in a multidimensional sensitive attribute values according to the bucket node map; then based on multi dimension bucket group: select the main sensitive attribute, calculate the main sensitive attribute dimension capacity, select L (L> = 2) dimensions the biggest capacity of main sensitive attributes, from selected data records, to determine whether they meet the multiple sensitive attributes L diversity, if not satisfied according to the capacity dimension from high to low in order traversal of each bucket until multiple sensitive attributes L diversity. Repeat the above process until the data bucket no longer meet L diversity multiple sensitive attributes. Finally, all packets are anonymously processed.
【技术实现步骤摘要】
一种多敏感属性数据发布中的隐私保护方法
本专利技术属于数据隐私保护领域,更具体地,涉及一种多敏感属性数据发布中的隐私保护方法。
技术介绍
大数据时代,各行各业都在利用大数据技术实现利润的最大化,例如金融、电商、医疗等行业。在金融行业,可以分析客户理财投资行为,为客户推荐个性化服务;在电商行业,购物网站可以根据客户关注商品的类型进行个性化商品推荐,提高客户体验;在医疗行业,医疗机构可以就病人就诊科室、就诊时间等方面做出分析,帮助医疗机构更加合理地安排医疗资源。除此之外,开放共享医疗数据在预测和防治流行病等方面也有积极意义,这些都涉及到数据的发布。2016国家颁布了《关于促进和规范健康医疗大数据应用发展的指导意见》,要求建立开放的医疗数据平台。建立开放的医疗数据平台也需要数据的发布共享,然而数据发布常常伴随着一个棘手问题,即隐私保护,这也是数据发布共享进展缓慢的重要障碍。目前存在有多种数据发布隐私保护方法,例如删除标识符方法、数据干扰法、K-匿名方法、L-多样性方法、T-Closeness等,这些方法不但有效地保证了数据安全性,也使数据保持较高的可用性。但是,这些方法主要是针对单敏感属性数据发布隐私保护,随着数据发布的深入研究,许多待发布数据表中往往包含多敏感信息(如医疗数据中的疾病类型、就诊医生、过往病史等极其敏感的信息等),如果将上述这些方法直接应用在具有多敏感属性的数据发布中,并不能防止敏感信息的泄露。虽然当下也有一些多敏感属性数据发布隐私保护方法,但其大都是以有损连接和L-多样性为基础,更多考虑的是防止敏感信息泄露,而较少兼顾准标识符属性数据的可用性, ...
【技术保护点】
一种多敏感属性数据发布中的隐私保护方法,其特征在于,包括以下步骤:(1)接收来自用户的数据集,根据数据集中非数值属性的值域构建对应于每个非数值属性的概化树,并为概化树中的每一层分配唯一的一个权值;(2)利用聚类算法对数据集进行处理,以得到多个数据类型相似的子数据集。(3)根据步骤(2)得到的多个子数据集构建多维桶;(4)根据L‑多样性原则判断多维桶中是否存在可继续分组的数据记录,如果不存在则过程结束,否则进入步骤(5);(5)从多维桶中选取主敏感属性对应的、维容量最大的L个属性值,从维容量最大的属性值对应的数据记录中随机选择一个加入新的分组,从维容量次大的属性值对应的数据记录中随机选择次敏感属性值不同于前一维容量的数据记录,并将其加入该新的分组,以此类推,从而得到新的分组;(6)判断得到的新的分组是否满足多敏感属性L‑多样性,如果满足,则在多维桶中删除该分组中的数据记录并进入步骤(8),否则进入步骤(7);(7)从多维桶中剩余的主敏感属性值中选取维容量最大的一个,使用该主敏感属性值替换步骤(5)得到的新的分组中维容量最小的主敏感属性值对应的数据记录,然后返回步骤(6)。(8)对分组进行 ...
【技术特征摘要】
1.一种多敏感属性数据发布中的隐私保护方法,其特征在于,包括以下步骤:(1)接收来自用户的数据集,根据数据集中非数值属性的值域构建对应于每个非数值属性的概化树,并为概化树中的每一层分配唯一的一个权值;(2)利用聚类算法对数据集进行处理,以得到多个数据类型相似的子数据集。(3)根据步骤(2)得到的多个子数据集构建多维桶;(4)根据L-多样性原则判断多维桶中是否存在可继续分组的数据记录,如果不存在则过程结束,否则进入步骤(5);(5)从多维桶中选取主敏感属性对应的、维容量最大的L个属性值,从维容量最大的属性值对应的数据记录中随机选择一个加入新的分组,从维容量次大的属性值对应的数据记录中随机选择次敏感属性值不同于前一维容量的数据记录,并将其加入该新的分组,以此类推,从而得到新的分组;(6)判断得到的新的分组是否满足多敏感属性L-多样性,如果满足,则在多维桶中删除该分组中的数据记录并进入步骤(8),否则进入步骤(7);(7)从多维桶中剩余的主敏感属性值中选取维容量最大的一个,使用该主敏感属性值替换步骤(5)得到的新的分组中维容量最小的主敏感属性值对应的数据记录,然后返回步骤(6)。(8)对分组进行K-匿名化处理,以得到匿名分组。2.根据权利要求1所述的隐私保护方法,其特征在于,步骤(2)中使用的聚类算法是K-means聚类算法、K-medoids方法、CLARANS方法、或BIRCH方法等。3.根据权利要求2所述的隐私保护方法,其特征在于,在使用K-means聚类算法时,首先从数据集中选取K个数据记录作为聚心,计算各条数据记录与各个聚心的距离,将数据记录划分到与其距离最近的聚心所在的集合中;计算该聚心所在的集合中所有数据记录的平均值作为新的聚心,再重复计算各条数据记录与新的聚心之间的距离,并将数据记录划分到与其距离最近的新的聚心所在的集合中,重复上述过程,直到聚心不再发生变化为止,此时各个聚心所在集合中的所有数据记录构成子数据集,每个子数据集包括多个子数...
【专利技术属性】
技术研发人员:李春花,周可,李文,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。