一种结构化数据敏感属性的识别与分类分级方法技术

技术编号：21891752 阅读：24 留言：0更新日期：2019-08-17 14:27

本发明专利技术公开了结构化数据敏感属性的识别与分类分级方法，该方法包括步骤，首先根据用户需求输入待处理的结构化数据表；然后利用信息熵及最大熵计算属性的隐私敏感度；利用k‑means聚类算法对属性的敏感度进行聚类，将属性初始划分为敏感属性集和疑似敏感属性集两个簇；进一步利用Apriori算法挖掘疑似敏感属性集与敏感属性集间关联关系，将任意结构化数据的敏感属性进最终识别为敏感属性集与非敏感属性集；最后，仅仅针对敏感属性集来操作，通过对敏感属性集中属性间的互信息相关性和关联规则分析，对敏感属性进行分类，并对各敏感属性组的平均敏感度量化，实现敏感属性的分类分级。该方法面向隐私保护能同时达到敏感属性的识别与分级效果，不需要预知结构化数据集的属性特征、敏感特征字典，兼顾了属性间的相关性和关联关系。

A Method for Recognition and Classification of Sensitive Attributes in Structured Data

全部详细技术资料下载

【技术实现步骤摘要】
一种结构化数据敏感属性的识别与分类分级方法
本专利技术涉及一种结构化数据敏感属性的识别与分类分级方法，属于信息安全领域。
技术介绍
在数据分析预处理阶段，面向结构化数据表，数据集中包含未标记的属性样本及其相对应的属性值，未标记的属性样本中包括敏感属性和非敏感属性，数据预处理的目的是准确地完成未标记的属性样本的分类，并且一定程度上减少人工分类的成本消耗。其中敏感属性是用户不愿意公布的重要信息，与个人隐私相关，为了避免隐私披露，此类属性需要在数据预处理阶段筛选出来进行标识，并使用相应地隐私保护手段进行处理后才可发布。医疗、人社和社交网络等各类数据平台和信息系统中汇聚越来越多与个人隐私信息相关的敏感数据，个人隐私面临巨大风险。面临海量且持续增长的数据，应用差分、匿名等算法保护隐私已成为共识，但数据间的关系愈发复杂，对数据集中的敏感属性进行识别、分类分级变得愈困难，不能精确地对敏感数据进行恰当的隐私保护，故出现了链接攻击、背景知识攻击、聚合攻击等隐私攻击，致使隐私保护难以达到预期效果。如何对海量数据集中的敏感数据进行自动化识别，标识出数据集中和个人隐私相关的属性后进行分类分级，成为隐私保护领域亟待解决的问题。针对上述问题，该领域的研究者们根据数据属性间先验概念相似信息提出了一种数据分类方法，初步考虑属性对数据分类的作用，其分类效果并不明显，继而有人基于不一致率的特征选择方法，提出了一种快速特征选择的数据分类方法，其分类精度依旧不高，近年来有人提出了一种基于敏感数据字典和正则表达式匹配的数据库敏感数据识别方法，虽然其分类效果比之前的方法分类效果好一些，但是不适用于大...

【技术保护点】
1.一种结构化数据的敏感属性识别与分类分级方法，其特征在于：包括以下步骤：步骤1：首先用户通过数据输入模块导入结构化数据表；步骤2：接收到用户请求识别的结构化数据表后，针对结构化数据集，采用熵的相关定义来量化各个属性的敏感度，利用聚类分析实现属性的初始识别，将属性识别为敏感属性集和疑似敏感属性集两个簇；步骤3：进一步利用数据挖掘中的关联规则挖掘算法挖掘数据集中疑似敏感属性与敏感属性之间的关联规则，通过比较两者之间能够建立关联规则的数目，以此作为准确划分疑似敏感属性的依据，最终将数据集的属性识别为敏感属性集和非敏感属性集；步骤4：输出识别模块中的敏感属性集，导入敏感属性分类分级模块，通过对敏感属性集中属性间的相关性和关联规则分析，对敏感属性进行分类，并对各敏感属性类的平均敏感度进行量化来定义各属性类的敏感级别，从而实现敏感属性的分类分级；步骤5：输出敏感属性的分类分级结果。

【技术特征摘要】
1.一种结构化数据的敏感属性识别与分类分级方法，其特征在于：包括以下步骤：步骤1：首先用户通过数据输入模块导入结构化数据表；步骤2：接收到用户请求识别的结构化数据表后，针对结构化数据集，采用熵的相关定义来量化各个属性的敏感度，利用聚类分析实现属性的初始识别，将属性识别为敏感属性集和疑似敏感属性集两个簇；步骤3：进一步利用数据挖掘中的关联规则挖掘算法挖掘数据集中疑似敏感属性与敏感属性之间的关联规则，通过比较两者之间能够建立关联规则的数目，以此作为准确划分疑似敏感属性的依据，最终将数据集的属性识别为敏感属性集和非敏感属性集；步骤4：输出识别模块中的敏感属性集，导入敏感属性分类分级模块，通过对敏感属性集中属性间的相关性和关联规则分析，对敏感属性进行分类，并对各敏感属性类的平均敏感度进行量化来定义各属性类的敏感...

【专利技术属性】
技术研发人员：彭长根，何文竹，王毛妮，丁兴，樊玫玫，丁红发，
申请(专利权)人：贵州大学，
类型：发明
国别省市：贵州,52

全部详细技术资料下载我是这个专利的主人