【技术实现步骤摘要】
基于敏感属性值约束的匿名保护方法
[0001]本专利技术属于网络安全
,特别涉及一种基于敏感属性值约束的匿名保护方法。
技术介绍
[0002]网上活动使得个人信息存储在网络中,这些数据往往会包含个人敏感信息,如金融交易、电话通信流量、医疗保健记录等。相关机构有时需要通过数据库检索、挖掘大量的电子记录来进行数据分析,虽然数据挖掘可提高用户有用信息的检索效率,但数据的发布和共享可能会造成用户的敏感信息被泄露。因此,为了保护网络中用户数据的隐私安全,存储在网络中的数据需要在共享或者发布前进行一定的处理。
[0003]针对用户的隐私保护问题,研究者们提出了数据信息匿名化的保护模型。该模型通过将用户信息进行匿名化来掩盖具体的数据,使得攻击者无法分辨出具体用户,进而保护数据安全。传统的基于聚类的k
‑
匿名化算法随机选取聚类中心点造成聚类结果不准确,从而导致信息损失较大,此外,传统的基于聚类的k
‑
匿名算法没有考虑敏感属性值约束,容易受到同质攻击、偏斜性攻击以及相似性攻击,因此在进行用户信息匿名化处理的时候还要考虑敏感属性值对匿名技术的影响。由于匿名化技术使得原始的数据被改动,虽然隐私信息被保护,但向外界提供的数据可用性就被降低。因此,在满足用户信息安全的情况下,还要考虑如何提高数据的可用性。
技术实现思路
[0004]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于敏感属性值约束的匿名保护方法,以期解决现有基于聚类的匿名化技术造成的数据信息损失问题,在 ...
【技术保护点】
【技术特征摘要】
1.一种基于敏感属性值约束的匿名保护方法,其特征在于,包括如下步骤:步骤1,对待发布的网络用户原始数据集D={X1,X2,X3,...,X
N
}进行聚类,获取m个初始聚类中心点U={μ1,μ2,...,μ
m
},根据语义相似程度划分敏感属性类别,并计算每个敏感属性类别的α约束阈值初始化原始数据集D的簇集合E={C1,C2,...,C
m
}为其中N为原始数据集D的数据个数,m为原始数据集D的簇个数;步骤2,从U依次选取一个聚类中心μ
i
;如果执行步骤3;如果执行步骤5;步骤3,从数据集D中找到离μ
i
最近的数据X
i
;如果μ
i
的敏感属性值和X
i
的敏感属性值不同,并且簇C
i
中的敏感属性值种类数小于l,则将X
i
归入簇C
i
中,并从原始数据集D中删除X
i
,更新C
i
和D得到C
i
′
和D
′
:C
i
′←
C
i
∪{X
i
},D
′←
D
‑
{X
i
},
←
表示更新符号;l是约束的同一个簇中敏感属性值的种类个数;如果μ
i
的敏感属性值和X
i
的敏感属性值相同,执行步骤4;步骤4,如果簇C
i
′
的敏感属性值种类小于l,且未遍历完D,则执行步骤3;否则,更新U得到U
′
:U
′←
U
‑
{μ
i
},执行步骤2;步骤5,初始化集合步骤6,从D
′
剩余数据中选取一个数据X
j
,计算X
j
到每个簇的距离,找到离X
j
最近的簇C
j
:如果X
j
满足如下条件a或b,则将X
j
归入簇C
j
中,并从D
′
中删除X
j
;如果X
j
不满足条件a或b,则继续寻找离X
j
最近的下一个簇C
t
,判断是否满足条件a或b,直至找到一个满足条件a或b的簇,将数据X
j
放入该簇中;如果遍历完所有簇均不满足条件a或b,则将X
j
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。