一种基于准标识属性取值频次的k-匿名隐私保护方法技术

技术编号：21432970 阅读：37 留言：0更新日期：2019-06-22 12:09

本发明专利技术提供了一种既有利于数据分析又减少信息损失的基于准标识属性取值频次的k‑匿名隐私保护方法，其特殊之处在于：该方法包括：1）对于待发布数据表中的各个准标识属性，根据数据分布情况和业务情况建立各个准标识属性的泛化层次树；2）计算各个准标识属性的属性取值个数、属性取值频次和属性取值熵值；3）按照属性取值频次最小、属性取值个数最多和属性取值熵值最小的优先顺序，选择一个准标识属性进行一个层次的全域泛化；4）对步骤3）中全域泛化后的待发布数据表进行k‑匿名模型检验；若符合k‑匿名模型，则以步骤3）中全域泛化后的待发布数据表为最终发布数据表；否则，重复进行步骤2）、步骤3）和步骤4）。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于准标识属性取值频次的k-匿名隐私保护方法
本专利技术涉及数据隐私保护领域，更具体地，涉及一种基于准标识属性取值频次的k-匿名隐私保护方法。
技术介绍
随着社会信息化和网络化的发展，数据呈现爆炸式增长，大数据时代已经到来；目前，大数据已成为学术界和产业界的研究热点，正影响着人们日常生活、工作习惯及思维方式；在数据发布应用中，如何保护数据的用户隐私已成为当前面临的重大挑战；最简单的保护用户隐私的方法就是在发布原始数据时直接通过删除姓名、身份证号码等标识属性来达到防范用户隐私泄露；但是由于以这种方式发布的数据集中的某些属性值集合能够联合该数据集外的相关信息精确或较精确地重新标识某个体，称之为链接攻击。为了解决这种链接攻击，研究者们提出了k-匿名模型，它要求所发布的数据表中的每一条记录不能区分于其他k-1条记录，即在满足k-匿名模型的数据表中，任意一条记录被重新标识出的风险都不会超过1/k；k-匿名模型通常将数据表的属性划分以下为四类：（1）标识属性：这类属性能够唯一标识个体身份的属性，如用户身份证号码、姓名等；（2）准标识属性：这类属性虽然不像标识属性一样能够直...

【技术保护点】
1.一种基于准标识属性取值频次的k‑匿名隐私保护方法，其特征在于：该方法包括：1）对于待发布数据表中的各个准标识属性，根据数据分布情况和业务情况建立各个准标识属性的泛化层次树；2）对于待发布数据表中的各个准标识属性，计算各个准标识属性的属性取值个数、属性取值频次和属性取值熵值；3）对于待发布数据表中的各个准标识属性，按照属性取值频次最小、属性取值个数最多和属性取值熵值最小的优先顺序，选择一个准标识属性进行一个层次的全域泛化；4）对步骤3）中全域泛化后待发布数据表进行k‑匿名模型检验；若符合k‑匿名模型，则以步骤3）中全域泛化后待发布数据表为最终发布数据表；否则，重复进行步骤2）、步骤3）和步骤...

【技术特征摘要】
1.一种基于准标识属性取值频次的k-匿名隐私保护方法，其特征在于：该方法包括：1）对于待发布数据表中的各个准标识属性，根据数据分布情况和业务情况建立各个准标识属性的泛化层次树；2）对于待发布数据表中的各个准标识属性，计算各个准标识属性的属性取值个数、属性取值频次和属性取值熵值；3）对于待发布数据表中的各个准标识属性，按照属性取值频次最小、属性取值个数最多和属性取值熵值最小的优先顺序，选择一个准标识属性进行一个层次的全域泛化；4）对步骤3）中全域泛化后待发布数据表进行k-匿名模型检验；若符合k-匿名模型，则以步骤3）中全域泛化后待发布数据表为最终发布数据表；否则，重复进行步骤2）、步骤3）和步骤4）。2.根据权利要求1所述的基于准标识属性取值频次的k-匿名隐私保护方法，其特征在于：所述步骤1）的具体过程如下：步骤11）选取待发布数据表中的一个准标识属性，计算该准标识属性各个属性取值的频次；步骤12）根据该准标识属性各个属性取值的频次分布，以及该准标识属性的业务层次建立该准标识属性的泛化层次树，使得：该准标识属性在全域泛化下，该准标识属性泛化层次树中每个层次的属性取值频次分布比较均匀；步骤13）重复进行步骤11）和步骤1...

【专利技术属性】
技术研发人员：肖跃雷，朱志祥，
申请(专利权)人：陕西省信息化工程研究院，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人