一种K匿名聚类隐私保护方法、系统、计算机设备、终端技术方案

技术编号:31172512 阅读:25 留言:0更新日期:2021-12-04 13:37
本发明专利技术属于信息安全技术领域,公开了一种K匿名聚类隐私保护方法、系统、计算机设备、终端,K匿名聚类隐私保护方法包括:使用主成分分析方法完成数据的降维且确定敏感属性、准标识符属性和标识属性;对降维后的数据使用灰度关联分析方法计算敏感属性与准标识符属性的关联度;根据敏感属性与准标识符关联度确定准标识符的泛化层次结构;使用手肘法确定数据集适合的聚类簇数量;根据阈值a判断对数据直接进行聚类操作还是将该数据集与其他数据值合并进行聚类;对数据集进行聚类处理;根据准标识属性的泛化结构对聚类的数据进行K匿名处理。本发明专利技术能够降低医疗数据的维度,避免聚类过程中陷入局部最优值,降低K匿名过程中的信息损失率,保护隐私数据的安全。保护隐私数据的安全。保护隐私数据的安全。

【技术实现步骤摘要】
一种K匿名聚类隐私保护方法、系统、计算机设备、终端


[0001]本专利技术属于信息安全
,尤其涉及一种K匿名聚类隐私保护方法、系统、计算机设备、终端。

技术介绍

[0002]目前,随着医疗技术的发展,医疗数据共享越来越普遍,导致医疗数据泄露问题愈发严重。隐私保护问题是信息安全领域的重要方向,如何保证信息的安全性,是实现保护个人隐私的关键。
[0003]早期数据隐私保护方式主要是在数据库中设置不同权限,根据权限的不同,保护个人的隐私安全,但是存在某些高权限的人,为了获取利益,将个人信息出卖给其他人,造成个人信息的泄露。随着隐私保护的观念逐渐成形,人们对于隐私保护的更加重视,需要隐私保护技术提高对于隐私信息的保护。
[0004]K匿名(K

Anonymity)隐私保护模型是用于数据发布过程中的信息保护,不同于基于访问控制等隐私保护方式不同,K匿名对原始数据进行预处理,然后将匿名化后的数据集发布,保护个人的隐私数据,K匿名技术可以运用于医疗,求职等领域,这些领域需要将明显的个人信息隐藏,信息攻击者也不能够通过本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种K匿名聚类隐私保护方法,其特征在于,所述K匿名聚类隐私保护方法包括:使用主成分分析方法完成数据的降维且确定敏感属性、准标识符属性和标识属性;对降维后的数据使用灰度关联分析方法计算敏感属性与准标识符属性的关联度;根据敏感属性与准标识符关联度确定准标识符的泛化层次结构;使用手肘法确定数据集适合的聚类簇数量;根据阈值a判断对数据直接进行聚类操作还是将该数据集与其他数据值合并进行聚类;对数据集进行聚类处理;根据准标识属性的泛化结构对聚类的数据进行K匿名处理。2.如权利要求1所述的K匿名聚类隐私保护方法,其特征在于,所述K匿名聚类隐私保护方法包括以下步骤:步骤一,根据主成分分析方法对医疗数据集T进行降维;步骤二,使用灰度关联分析方法确定准标识符与敏感属性的关联度;步骤三,根据准标识符与敏感属性的关联度确定准标识符属性的泛化层次;步骤四,根据所选择的标识符、准标识符和敏感属性,根据手肘法来确定数据的最佳簇的数量;步骤五,根据最佳簇数量L,将L作为聚类簇数量进行数据集的聚类;步骤六,给的a的大小,作为阈值进行K匿名,将数据集中已经符合K匿名的记录,列入K匿名表中,统计T
m
表中记录的个数。3.如权利要求2所述的K匿名聚类隐私保护方法,其特征在于,步骤一中,所述根据主成分分析方法对医疗数据集T进行降维,包括:(1)可能存在的主成分标识表示为:其中,p标识每组记录中属性的维度,c表示每组记录中属性的权重,Z表示主成分,q表示可能存在的主成分个数,每个主成分之间相互独立;Z1,Z2,

,Z
n
由不同的x1,x2,

,x
p
准标识符组成;(2)根据负载值C
ij
在主成分集合中的大小,选择属性维度最小的主成分,在维度最小的主成分中选择合适的QI属性,确定标识符、准标识符和敏感属性。4.如权利要求2所述的K匿名聚类隐私保护方法,其特征在于,步骤二中,所述使用灰度关联分析方法确定准标识符与敏感属性的关联度,包括:(1)将敏感属性作为参考数列,表示为:Y=Y(k)|1,2,...,n;其中,Y为具体的敏感属性;(2)确定与敏感属性关联度的作为比较数据,表示为:X
i
=X
i
(k)|k=1,2,...,n,i=1,2,...,m;其中,X
i
(k)表示第i个比较数列中的第k个值,m表示QI属性的个数;(3)不同数据的计量单位不同,用以下公式对数据进行归一化处理:
(4)归一化处理后计算准标识符属性与敏感属性的灰度关联系数,用以下公式确定灰度关联系数:其中,|y(k)

x
i
(k)|是参考数列与第i个比较数列中对应的第k个数据之间的距离,max表示最大距离,min表示最小距离;ρ称为分辨系数,ρ的取值区间为(0,1);当ρ≤0.5463时,分辨力较高,取ρ=0.5;(5)根据各个时刻的关联系数,确定关联度,用以下公式确定关联度:其中,r
i
表示为关联度,当关联度越接近1,表明准标识符属性与敏感属性的关联越高,联系越强;步骤三中,所述关联度越高数据的关联性越强,准标识符的泛化层次结构应该更加细致,对于关联度不高的准标识符,泛化层次结构相对模糊,即可确定准标识符泛化层次结构。5.如权利要求2所述的K匿名聚类隐私保护方法,其特征在于,步骤四中,所述根据所选择的标识符、准标识符和敏感属性,根据手肘法来确定数据的最佳簇的数量,包括:(1)给定数据集T的簇数量范围m,根据给的的簇数量范围m,对数据集进行局部划分,从...

【专利技术属性】
技术研发人员:吴珺朱嘉辉王春枝董佳明周显敬刘虎李天意朱天亮
申请(专利权)人:武汉卓尔信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1