基于敏感分级信息熵的匿名方法技术

技术编号:33704026 阅读:18 留言:0更新日期:2022-06-06 08:22
本发明专利技术涉及数据匿名技术领域,具体涉及一种基于敏感分级信息熵的匿名方法,包括获取发布数据集;基于发布数据集建立匿名模型;基于发布数据集的信息熵建立信息损失衡量标准模型;基于信息损失衡量标准模型对发布数据集进行遍历,得到隐私安全指数最大的最大元组,将最大元组加入匿名模型中对应的等价组;使用等价组的准标识属性中心替代最大元组的值,得到匿名数据集,通过引入信息熵建立的信息损失衡量标准模型与匿名模型对发布数据集进行处理,得到的所述匿名数据的信息熵最高,即数据可用性最高,解决了现有的匿名方法对数据匿名后的数据可用性较低的问题。数据可用性较低的问题。数据可用性较低的问题。

【技术实现步骤摘要】
基于敏感分级信息熵的匿名方法


[0001]本专利技术涉及数据匿名
,尤其涉及一种基于敏感分级信息熵的匿名方法。

技术介绍

[0002]在大数据时代背景下,大量的个人数据被收集和发布,例如消费数据,住院数据等。对这些数据进行挖掘与分析,可以促进科学和商业的发展,但数据中包含了大量的个人隐私,会有隐私信息泄露的风险。数据匿名技术可以有效降低个人隐私信息泄露的风险,同时保证数据的可用性。由于共享数据往往经过数据分析后被用来参与决策,数据发布者在考虑隐私保护的同时,还应尽可能保持数据表结构的稳定性以及数据真实性,从而提高数据的可用性,因此数据发布者需要更优的隐私保护算法对数据进行处理再发布。
[0003]现有的匿名方法可解决因数据等价类中存在高敏感级别的属性值偏多和敏感属性值分布不均的而导致的个体隐私泄露问题,但不能很好的平衡数据匿名后的隐私程度以及数据匿名后的数据可用性。

技术实现思路

[0004]本专利技术的目的在于提供一种基于敏感分级信息熵的匿名方法,旨在解决现有的匿名方法对数据匿名后的数据可用性较低的问题。
[0005]为实现上述目的,本专利技术提供了一种基于敏感分级信息熵的匿名方法,包括以下步骤:
[0006]获取发布数据集;
[0007]基于所述发布数据集建立匿名模型;
[0008]基于所述发布数据集的信息熵建立信息损失衡量标准模型;
[0009]基于所述信息损失衡量标准模型对所述发布数据集进行遍历,得到隐私安全指数最大的最大元组,将所述最大元组加入所述匿名模型中对应的等价组;
[0010]使用所述等价组的准标识属性中心替代所述最大元组的值,得到匿名数据集。
[0011]其中,所述获取发布数据集的具体方式为:
[0012]获取原始数据集;
[0013]对所述原始数据集进行分类,得到标识属性、准标识属性和敏感属性;
[0014]将所述标识属性对应的数据从所述历史数据中移除,得到发布数据集。
[0015]其中,所述基于所述发布数据集建立匿名模型的具体方式为:
[0016]设置所述发布数据集的等价组内相同的所述准标识属性的个数、所述敏感属性的元组个数和所述敏感属性的敏感级别的个数,得到匿名模型。
[0017]其中,所述基于所述发布数据集的信息熵建立信息损失衡量标准模型的具体方式为:
[0018]获取所述敏感级别的任意元组的信息熵,得到元组信息熵;
[0019]基于所述元组信息熵求取所述任意元组对应的等价类的信息熵,得到等价类信息
熵;
[0020]获取所述匿名模型对所述任意元组进行数据匿名化产生的信息损失,得到元组信息损失;
[0021]基于所述元组信息损失求取所述任意元组对应的等价类的信息损失,得到等价类信息损失;
[0022]基于所述等价类信息熵和所述等价类信息损失定义隐私安全指数,得到信息损失衡量标准模型。
[0023]其中,所述基于所述信息损失衡量标准模型对所述发布数据集进行遍历,得到隐私安全指数最大的最大元组,将所述最大元组加入所述匿名模型中对应的等价组的具体方式为:
[0024]使用贪心法和聚类技术对所述发布数据集进行遍历,得到隐私安全指数最大的最大元组;
[0025]将所述元组加入所述匿名模型中对应的等价组,并将所述元组从所述发布数据集中剔除。
[0026]其中,所述准标识属性中心包括连续型属性中心、等级型属性中心、分类型属性中心和布尔型属性中心。
[0027]本专利技术的一种基于敏感分级信息熵的匿名方法,包括获取发布数据集;基于所述发布数据集建立匿名模型;基于所述发布数据集的信息熵建立信息损失衡量标准模型;基于所述信息损失衡量标准模型对所述发布数据集进行遍历,得到隐私安全指数最大的最大元组,将所述最大元组加入所述匿名模型中对应的等价组;使用所述等价组的准标识属性中心替代所述最大元组的值,得到匿名数据集,通过引入信息熵建立的所述信息损失衡量标准模型与所述匿名模型对所述发布数据集进行处理,得到的所述匿名数据的信息熵最高,即数据可用性最高,解决了现有的匿名方法对数据匿名后的数据可用性较低的问题。
附图说明
[0028]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1是本专利技术提供的一种基于敏感分级信息熵的匿名方法的流程图。
[0030]图2是获取发布数据集的流程图。
[0031]图3是基于所述发布数据集的信息熵建立信息损失衡量标准模型的流程图。
[0032]图4是基于所述信息损失衡量标准模型对所述发布数据集进行遍历,得到隐私安全指数最大的最大元组,将所述最大元组加入所述匿名模型中对应的等价组的流程图。
具体实施方式
[0033]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0034]请参阅图1至图4,本专利技术提供一种基于敏感分级信息熵的匿名方法,包括以下步骤:
[0035]S1获取发布数据集;
[0036]具体方式为:S11获取原始数据集;
[0037]具体的,例如获取某医院病人信息记录表原始数据集。
[0038]S12对所述发布数据集进行分类,得到标识属性、准标识属性和敏感属性。
[0039]具体的,所述发布数据集为:
[0040]IDAgeZipCodeDiseaset121114235HIVt226114751HIVt325115032Flut448124151Diabetest532115012Cancert645115451Fevert735115313Hepatitist850113726Flu
[0041]S13将所述标识属性对应的数据从所述历史数据中移除,得到发布数据集。
[0042]具体的,标识属性:可以通过该类别属性直接识出别个体,例如,姓名,身份证号等,在表中被移除。准标识属性:可以通过该类别属性与其他渠道获取的信息或者背景知识进行连接,从而识别出个体的属性,记为QI,QI=(QI1,QI2,...,QI
d
),例如表1中的Age和ZipCode。敏感属性:数据发布者和个体不愿透露的属性,记为SA。例如表1中的Disease。等价类E C
(Equivalence

Class)为数据集中若干个元组的集合,且每个元组在准标识属性上的取值相同。
[0043]S2基于所述发布数据集建立匿名模型;
[0044]具体的,设置所述发布数据集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于敏感分级信息熵的匿名方法,其特征在于,包括以下步骤:获取发布数据集;基于所述发布数据集建立匿名模型;基于所述发布数据集的信息熵建立信息损失衡量标准模型;基于所述信息损失衡量标准模型对所述发布数据集进行遍历,得到隐私安全指数最大的最大元组,将所述最大元组加入所述匿名模型中对应的等价组;使用所述等价组的准标识属性中心替代所述最大元组的值,得到匿名数据集。2.如权利要求1所述的基于敏感分级信息熵的匿名方法,其特征在于,所述获取发布数据集的具体方式为:获取原始数据集;对所述原始数据集进行分类,得到标识属性、准标识属性和敏感属性;将所述标识属性对应的数据从所述历史数据中移除,得到发布数据集。3.如权利要求2所述的基于敏感分级信息熵的匿名方法,其特征在于,所述基于所述发布数据集建立匿名模型的具体方式为:设置所述发布数据集的等价组内相同的所述准标识属性的个数、所述敏感属性的元组个数和所述敏感属性的敏感级别的个数,得到匿名模型。4.如权利要求3所述的基于敏感分级信息熵的匿名方法,其特征在于,所述基于所述发布数据集的信息熵建立...

【专利技术属性】
技术研发人员:张攀峰石昆正张文勇杜慧董明刚程小辉
申请(专利权)人:桂林理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1