一种基于效用矩阵实现l-diversity匿名的方法技术

技术编号:35856543 阅读:14 留言:0更新日期:2022-12-07 10:43
本发明专利技术公开一种基于效用矩阵实现l

【技术实现步骤摘要】
一种基于效用矩阵实现l

diversity匿名的方法


[0001]本专利技术涉及隐私保护和信息安全
,具体的说是一种基于效用矩阵实现l

diversity匿名的方法。

技术介绍

[0002]社会信息化和网络化的发展导致数据爆炸式增长,以大数据为基础的数据密集型应用引发了人们的广泛关注,其中数据的安全与隐私问题是人们公认的关键问题之一。当前,人们在互联网上的一言一行都掌握在互联网商家手中,包括购物习惯、好友联络情况、阅读习惯、检索习惯等等,多项实际案例说明,即使无害的数据被大量收集后,也会暴露个人隐私。
[0003]在信息化的背景下,商家既是数据的生产者,又是数据的存储、管理者和使用者,因此单纯通过常规手段限制商家对用户信息的收集,实现用户隐私保护是极其困难的。此外,当前企业常常认为经过简单隐藏关键信息后,不包含用户的标识符的信息就可以公开发布。但事实上仅通过简单隐藏关键信息并不能很好地达到隐私保护的目的,别有用心者仍然能通过信息交叉对比等方式识别出用户的关键信息。数据发布时使用技术手段进行匿名保护是实现隐私保护的核心关键技术与基本手段。

技术实现思路

[0004]本专利技术针对目前技术发展的需求和不足之处,提供一种基于效用矩阵实现l

diversity匿名的方法。
[0005]l

diversity,即L

多样性,它表示:在公开的数据中,每一个等价类里的敏感属性必须具有多样性,即L

多样性保证每一个等价类里,敏感属性至少有L个不同的取值,通过这样L

多样性使得攻击者最多只能以1/L的概率确认某个体的敏感信息,从而保证用户的隐私信息不能通过背景知识、同质知识等方法推断出来。
[0006]本专利技术的一种基于效用矩阵实现l

diversity匿名的方法,解决上述技术问题采用的技术方案如下:
[0007]一种基于效用矩阵实现l

diversity匿名的方法,包括如下步骤:
[0008]S1、获取用户属性标识,引入效用矩阵,计算效用矩阵所包含元素的取值概率;
[0009]S2、设定参数L、聚类个数N,利用基于划分的聚类算法,对用户属性标识中敏感属性的值进行聚类,并输出聚类结果;
[0010]S3、判断步骤S2输出的聚类结果中存在敏感属性值的个数是否小于参数L的设定值,若是,则执行步骤S4,若否,则直接结束,并根据聚类结果对用户属性标识中的敏感属性值进行匿名;
[0011]S4、设定聚类次数K的阈值,判断输出聚类结果时进行的聚类次数是否超过K的设定阈值,若是,则将聚类个数N减1后返回执行步骤S2,若否,则直接返回执行步骤S2。
[0012]具体的,执行步骤S1,获取的用户属性标识包括显示标识符、准标识符、敏感属性
三类,其中,显示标识符能唯一标识单一个体的属性,多个准标识符组合起来能唯一标识一个用户的多个属性,敏感属性为涉及隐私的属性;
[0013]多个用户的属性标识存储在同一个数据集内,不同用户的属性标识存储在不同的数据子集内。
[0014]更具体的,执行步骤S1,引入效用矩阵,计算效用矩阵所包含元素的取值概率,具体操作流程如下:
[0015]S1.1、引入效用矩阵,效用矩阵的定义如下:
[0016]U=(u
ij
)
m
×
n

ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(a)
[0017]其中,矩阵元素u
ij
表示准标识符中第j个属性对敏感属性中第i个属性的效用,m是敏感属性包含的属性个数,n是准标识符包含的属性个数;
[0018]S1.2、获取用户的准标识符和敏感属性,利用效用矩阵计算矩阵元素u
ij
的取值概率,计算公式如下:
[0019][0020]其中,是矩阵元素u
ij
的值,表示q
j
对s
i
的取值概率,s
i
表示敏感属性中第i个属性的值,q
j
表示准标识符中第j个属性的值。
[0021]优选的,用户的准标识符和敏感属性是数值型数据或离散型数据;
[0022]当准标识符是数值型数据时,表示:对敏感属性s
i
而言,的取值等于准标识符q
j
的取值范围与整个数据集上准标识符中q
j
的取值范围之比;
[0023]当准标识符是离散型数据,表示:对敏感属性s
i
而言,的取值等于准标识符q
j
的取值个数与整个数据集上准标识符中q
j
的取值个数之比。
[0024]优选的,针对数据集上所有用户的属性标识,参数L大于同一敏感属性取不同值的最大取值个数;
[0025]聚类个数N等于敏感属性所包含的属性个数;
[0026]聚类次数K的阈值不超过敏感属性所包含属性个数的一半。
[0027]更具体的,执行步骤S2,利用基于划分的聚类算法,对用户属性标识中敏感属性的值进行聚类,具体操作流程如下:
[0028]S2.1、将聚类次数计数器的计数值初始化为0,以敏感属性值、效用矩阵、参数L作为基于划分的聚类算法的输入;
[0029]S2.2、随机选取N个敏感属性值,作为N个聚类的初始聚类中心;
[0030]S2.3、聚类次数计数器的计数值+1;
[0031]S2.4、计算敏感属性值到每个聚类中心的距离,将敏感属性值分配到距离最近的聚类;
[0032]S2.5、所有用户的敏感属性值全部分配完成后,更新聚类中心;
[0033]S2.6、基于更新的聚类中心,重新执行步骤S2.4

步骤S2.5,直至聚类结果不再发生变化。
[0034]优选的,执行步骤S2.2时,被选取的N个敏感属性值不一定属于同一个用户,且被选取的N个敏感属性值对应N个不同的敏感属性。
[0035]进一步优选的,执行步骤S4后,聚类个数N减1后返回执行步骤S2,此时,从N个敏感属性中随机选取N

1个敏感属性值作为新的聚类中心。
[0036]本专利技术的一种基于效用矩阵实现l

diversity匿名的方法,与现有技术相比具有的有益效果是:
[0037]本专利技术使用效用矩阵获取用户属性标识中不同属性之间的取值概率,使用基于划分的聚类算法将同一个数据集中多个用户的敏感信息多样性提高到L,以实现L

diversity匿名,提高用户隐私数据的安全指数。
附图说明
[0038]附图1是本专利技术的实现流程图。
具体实施方式
[0039]为使本专利技术的技术方案、解决的技术问题和技术效果更加清楚明白,以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于效用矩阵实现l

diversity匿名的方法,其特征在于,包括如下步骤:S1、获取用户属性标识,引入效用矩阵,计算效用矩阵所包含元素的取值概率;S2、设定参数L、聚类个数N,利用基于划分的聚类算法,对用户属性标识中敏感属性的值进行聚类,并输出聚类结果;S3、判断步骤S2输出的聚类结果中存在敏感属性值的个数是否小于参数L的设定值,若是,则执行步骤S4,若否,则直接结束,并根据聚类结果对用户属性标识中的敏感属性值进行匿名;S4、设定聚类次数K的阈值,判断输出聚类结果时进行的聚类次数是否超过K的设定阈值,若是,则将聚类个数N减1后返回执行步骤S2,若否,则直接返回执行步骤S2。2.根据权利要求1所述的一种基于效用矩阵实现l

diversity匿名的方法,其特征在于,执行步骤S1,获取的用户属性标识包括显示标识符、准标识符、敏感属性三类,其中,显示标识符能唯一标识单一个体的属性,多个准标识符组合起来能唯一标识一个用户的多个属性,敏感属性为涉及隐私的属性;多个用户的属性标识存储在同一个数据集内,不同用户的属性标识存储在不同的数据子集内。3.根据权利要求2所述的一种基于效用矩阵实现l

diversity匿名的方法,其特征在于,执行步骤S1,引入效用矩阵,计算效用矩阵所包含元素的取值概率,具体操作流程如下:S1.1、引入效用矩阵,效用矩阵的定义如下:U=(u
ij
)
m
×
n

ꢀꢀꢀꢀꢀꢀꢀ
公式(a)其中,矩阵元素u
ij
表示准标识符中第j个属性对敏感属性中第i个属性的效用,m是敏感属性包含的属性个数,n是准标识符包含的属性个数;S1.2、获取用户的准标识符和敏感属性,利用效用矩阵计算矩阵元素u
ij
的取值概率,计算公式如下:其中,是矩阵元素u
ij
的值,表示q
j
对s
i
的取值概率,s
i
表示敏感属性中第i个属性的值,q
j
表示准标识符中第j个属性的值。4.根据权利要求3所述的一种基于效用矩阵实现l
‑...

【专利技术属性】
技术研发人员:侯令晨周永进李国涛
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1