基于敏感属性值约束的匿名保护方法技术

技术编号:34369302 阅读:32 留言:0更新日期:2022-07-31 10:21
本发明专利技术提供了一种基于敏感属性值约束的匿名保护方法,以期解决现有基于聚类的匿名化技术造成的数据信息损失问题,在有效保护用户隐私安全的情况下降低发布数据的信息损失。利用本发明专利技术的匿名保护方法得到匿名数据集之后,再通过网络发布匿名数据集,具有更好的用户隐私保护效果。在实际应用中,可利用数据采集模块,获取原始数据集;并将原始数据集存储于数据存储模块一,以数据处理模块运行本发明专利技术的匿名保护方法得到匿名数据集,并将其存储于数据存储模块二,利用网络传输模块向网络上传匿名数据集。原始数据集保存于本地的数据存储模块一,并不对外公开。并不对外公开。并不对外公开。

Anonymous protection method based on sensitive attribute value constraints

【技术实现步骤摘要】
基于敏感属性值约束的匿名保护方法


[0001]本专利技术属于网络安全
,特别涉及一种基于敏感属性值约束的匿名保护方法。

技术介绍

[0002]网上活动使得个人信息存储在网络中,这些数据往往会包含个人敏感信息,如金融交易、电话通信流量、医疗保健记录等。相关机构有时需要通过数据库检索、挖掘大量的电子记录来进行数据分析,虽然数据挖掘可提高用户有用信息的检索效率,但数据的发布和共享可能会造成用户的敏感信息被泄露。因此,为了保护网络中用户数据的隐私安全,存储在网络中的数据需要在共享或者发布前进行一定的处理。
[0003]针对用户的隐私保护问题,研究者们提出了数据信息匿名化的保护模型。该模型通过将用户信息进行匿名化来掩盖具体的数据,使得攻击者无法分辨出具体用户,进而保护数据安全。传统的基于聚类的k

匿名化算法随机选取聚类中心点造成聚类结果不准确,从而导致信息损失较大,此外,传统的基于聚类的k

匿名算法没有考虑敏感属性值约束,容易受到同质攻击、偏斜性攻击以及相似性攻击,因此在进行用户信息匿名化处理的时候还要考虑敏感属性值对匿名技术的影响。由于匿名化技术使得原始的数据被改动,虽然隐私信息被保护,但向外界提供的数据可用性就被降低。因此,在满足用户信息安全的情况下,还要考虑如何提高数据的可用性。

技术实现思路

[0004]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于敏感属性值约束的匿名保护方法,以期解决现有基于聚类的匿名化技术造成的数据信息损失问题,在有效保护用户隐私安全的情况下降低发布数据的信息损失。
[0005]为了实现上述目的,本专利技术采用的技术方案是:
[0006]一种基于敏感属性值约束的匿名保护方法,包括如下步骤:
[0007]步骤1,对待发布的网络用户原始数据集D={X1,X2,X3,...,X
N
}进行聚类,获取m个初始聚类中心点U={μ1,μ2,...,μ
m
},根据语义相似程度划分敏感属性类别,并计算每个敏感属性类别的α约束阈值初始化原始数据集D的簇集合E={C1,C2,...,C
m
}为其中N为原始数据集D的数据个数,m为原始数据集D的簇个数;
[0008]步骤2,从U依次选取一个聚类中心μ
i

[0009]如果执行步骤3;
[0010]如果执行步骤5;
[0011]步骤3,从数据集D中找到离μ
i
最近的数据X
i

[0012]如果μ
i
的敏感属性值和X
i
的敏感属性值不同,并且簇C
i
中的敏感属性值种类数小于l,则将X
i
归入簇C
i
中,并从原始数据集D中删除X
i
,更新C
i
和D得到C
i

和D

:C
i
′←
C
i
∪{X
i
},D
′←
D

{X
i
},

表示更新符号;l是约束的同一个簇中敏感属性值的种类个数;
[0013]如果μ
i
的敏感属性值和X
i
的敏感属性值相同,执行步骤4;
[0014]步骤4,如果簇C
i

的敏感属性值种类小于l,且未遍历完D,则执行步骤3;否则,更新U得到U

:U
′←
U


i
},执行步骤2;
[0015]步骤5,初始化集合
[0016]步骤6,从D

剩余数据中选取一个数据X
j
,计算X
j
到每个簇的距离,找到离X
j
最近的簇C
j

[0017]如果X
j
满足如下条件a或b,则将X
j
归入簇C
j
中,并从D

中删除X
j

[0018]如果X
j
不满足条件a或b,则继续寻找离X
j
最近的下一个簇C
t
,判断是否满足条件a或b,直至找到一个满足条件a或b的簇,将数据X
j
放入该簇中;如果遍历完所有簇均不满足条件a或b,则将X
j
加入集合R中,执行步骤7;
[0019]条件a:C
j
中的所有敏感属性值均与X
j
的敏感属性值不同,且|C
j
|<k;
[0020]条件b:C
j
中的某一敏感属性值与X
j
的敏感属性值相同,且|C
j
|<k和
[0021]其中,k是约束的每个簇中的数据个数,|C
j
|表示簇C
j
中现有的数据个数;
[0022]步骤7,判断D

是否为
[0023]如果为执行步骤8;
[0024]如果不为执行步骤6;
[0025]步骤8,判断集合R中是否含有数据:
[0026]如果有,将剩余数据按信息损失最小加入到数据个数小于k的簇中,并将该数据从集合R中删去,继续执行步骤8;如果没有,执行步骤9;
[0027]步骤9,判断形成的簇是否满足(k,l,α)约束,调整簇大小;
[0028]步骤10,对每个簇中的数据进行局部泛化处理,形成匿名数据集D
*

[0029]进一步地,所述步骤1中,采用基于M

近邻的聚类中心选取算法选取出m个初始聚类中心点{μ1,μ2,...,μ
m
},过程如下:
[0030]步骤1.1,根据原始数据集D={X1,X2,X3,...,X
N
},计算出需要的聚类中心个数
[0031]步骤1.2,基于M

近邻思想确定出每个数据的M

近邻距离,计算截断距离d
c
值;
[0032]步骤1.3,计算每个数据的相对距离值δ
i
和局部密度值ρ
i

[0033]步骤1.4,选择局部密度值最大的数据作为第一个聚类中心点;
[0034]步骤1.5,循环执行步骤1.6;
[0035]步骤1.6,计算每个数据对象决策因子值,选择决策因子值最大的数据作为下一个聚类中心点;
[0036]步骤1.7,直至选取出m个聚类中心点。
[0037]示例地,所述原始数据集D中,数据信息为用户医疗数据,数据的属性信息包含用户身份信息以及所患疾病本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于敏感属性值约束的匿名保护方法,其特征在于,包括如下步骤:步骤1,对待发布的网络用户原始数据集D={X1,X2,X3,...,X
N
}进行聚类,获取m个初始聚类中心点U={μ1,μ2,...,μ
m
},根据语义相似程度划分敏感属性类别,并计算每个敏感属性类别的α约束阈值初始化原始数据集D的簇集合E={C1,C2,...,C
m
}为其中N为原始数据集D的数据个数,m为原始数据集D的簇个数;步骤2,从U依次选取一个聚类中心μ
i
;如果执行步骤3;如果执行步骤5;步骤3,从数据集D中找到离μ
i
最近的数据X
i
;如果μ
i
的敏感属性值和X
i
的敏感属性值不同,并且簇C
i
中的敏感属性值种类数小于l,则将X
i
归入簇C
i
中,并从原始数据集D中删除X
i
,更新C
i
和D得到C
i

和D

:C
i
′←
C
i
∪{X
i
},D
′←
D

{X
i
},

表示更新符号;l是约束的同一个簇中敏感属性值的种类个数;如果μ
i
的敏感属性值和X
i
的敏感属性值相同,执行步骤4;步骤4,如果簇C
i

的敏感属性值种类小于l,且未遍历完D,则执行步骤3;否则,更新U得到U

:U
′←
U


i
},执行步骤2;步骤5,初始化集合步骤6,从D

剩余数据中选取一个数据X
j
,计算X
j
到每个簇的距离,找到离X
j
最近的簇C
j
:如果X
j
满足如下条件a或b,则将X
j
归入簇C
j
中,并从D

中删除X
j
;如果X
j
不满足条件a或b,则继续寻找离X
j
最近的下一个簇C
t
,判断是否满足条件a或b,直至找到一个满足条件a或b的簇,将数据X
j
放入该簇中;如果遍历完所有簇均不满足条件a或b,则将X
j

【专利技术属性】
技术研发人员:栾英姿荣林通
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1