基于敏感分级信息熵的匿名方法技术

技术编号：33704026 阅读：18 留言：0更新日期：2022-06-06 08:22

本发明专利技术涉及数据匿名技术领域，具体涉及一种基于敏感分级信息熵的匿名方法，包括获取发布数据集；基于发布数据集建立匿名模型；基于发布数据集的信息熵建立信息损失衡量标准模型；基于信息损失衡量标准模型对发布数据集进行遍历，得到隐私安全指数最大的最大元组，将最大元组加入匿名模型中对应的等价组；使用等价组的准标识属性中心替代最大元组的值，得到匿名数据集，通过引入信息熵建立的信息损失衡量标准模型与匿名模型对发布数据集进行处理，得到的所述匿名数据的信息熵最高，即数据可用性最高，解决了现有的匿名方法对数据匿名后的数据可用性较低的问题。数据可用性较低的问题。数据可用性较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于敏感分级信息熵的匿名方法

[0001]本专利技术涉及数据匿名
，尤其涉及一种基于敏感分级信息熵的匿名方法。

技术介绍

[0002]在大数据时代背景下，大量的个人数据被收集和发布，例如消费数据，住院数据等。对这些数据进行挖掘与分析，可以促进科学和商业的发展，但数据中包含了大量的个人隐私，会有隐私信息泄露的风险。数据匿名技术可以有效降低个人隐私信息泄露的风险，同时保证数据的可用性。由于共享数据往往经过数据分析后被用来参与决策，数据发布者在考虑隐私保护的同时，还应尽可能保持数据表结构的稳定性以及数据真实性，从而提高数据的可用性，因此数据发布者需要更优的隐私保护算法对数据进行处理再发布。
[0003]现有的匿名方法可解决因数据等价类中存在高敏感级别的属性值偏多和敏感属性值分布不均的而导致的个体隐私泄露问题，但不能很好的平衡数据匿名后的隐私程度以及数据匿名后的数据可用性。

技术实现思路

[0004]本专利技术的目的在于提供一种基于敏感分级信息熵的匿名方法，旨在解决现有的匿名方法对数据匿名后的数据可用性较低的问题。
[0005]为实现上述目的，本专利技术提供了一种基于敏感分级信息熵的匿名方法，包括以下步骤：
[0006]获取发布数据集；
[0007]基于所述发布数据集建立匿名模型；
[0008]基于所述发布数据集的信息熵建立信息损失衡量标准模型；
[0009]基于所述信息损失衡量标准模型对所述发布数据集进行遍历，得到隐私安全指数最大的最大元组，将所述最大元...

【技术保护点】

【技术特征摘要】
1.一种基于敏感分级信息熵的匿名方法，其特征在于，包括以下步骤：获取发布数据集；基于所述发布数据集建立匿名模型；基于所述发布数据集的信息熵建立信息损失衡量标准模型；基于所述信息损失衡量标准模型对所述发布数据集进行遍历，得到隐私安全指数最大的最大元组，将所述最大元组加入所述匿名模型中对应的等价组；使用所述等价组的准标识属性中心替代所述最大元组的值，得到匿名数据集。2.如权利要求1所述的基于敏感分级信息熵的匿名方法，其特征在于，所述获取发布数据集的具体方式为：获取原始数据集；对所述原始数据集进行分类，得到标识属性、准标识属性和敏感属性；将所述标识属性对应的数据从所述历史数据中移除，得到发布数据集。3.如权利要求2所述的基于敏感分级信息熵的匿名方法，其特征在于，所述基于所述发布数据集建立匿名模型的具体方式为：设置所述发布数据集的等价组内相同的所述准标识属性的个数、所述敏感属性的元组个数和所述敏感属性的敏感级别的个数，得到匿名模型。4.如权利要求3所述的基于敏感分级信息熵的匿名方法，其特征在于，所述基于所述发布数据集的信息熵建立...

【专利技术属性】
技术研发人员：张攀峰，石昆正，张文勇，杜慧，董明刚，程小辉，
申请(专利权)人：桂林理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人