一种数据挖掘隐私保护方法及系统技术方案

技术编号:15691372 阅读:59 留言:0更新日期:2017-06-24 04:31
本申请公开了一种数据挖掘隐私保护方法及系统,该方法包括:获取原始数据集;对原始数据集中的连续属性进行离散化,得到第一处理后数据集;对第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用目标决策树,对数据挖掘过程展开隐私保护。本申请可以避免在创建决策树的过程中消耗过多的隐私预算,并且能够消除冗余属性对分类准确度的影响,从而提高了最终的隐私保护效果。

Data mining privacy protection method and system

The invention discloses a privacy preserving data mining method and system, the method includes: obtaining the original data set; discretization of continuous attributes of the original data set, the data obtained after treatment of the first set; attribute data of the first treatment after the reduction treatment, second after treatment on second data sets; attribute processing after the data set of complete generalization processing, get the corresponding subdivision scheme set; decision tree construction started the corresponding operations on the subdivision scheme to obtain the target set, the corresponding decision tree; using decision tree, data mining process of privacy protection. The application can avoid excessive consumption of privacy budget during the creation of a decision tree, and can eliminate the influence of redundant attributes on classification accuracy, thereby improving the ultimate privacy protection effect.

【技术实现步骤摘要】
一种数据挖掘隐私保护方法及系统
本专利技术涉及数据挖掘
,特别涉及一种数据挖掘隐私保护方法及系统。
技术介绍
当前,随着大数据时代的到来,数据挖掘技术得到了快速的发展,应用范围也越来越广。而数据挖掘技术本身就像是一把双刃剑,在企业和个人合理使用数据挖掘技术的情况下,能够为日常的商业活动以及工作生活带来积极作用。然而,如果用户将挖掘目标瞄准个人隐私或商业机密的情况下,则很可能会导致隐私信息遭受泄露。为了避免在数据挖掘过程中隐私信息遭到泄露,人们提出了基于决策树来对数据挖掘展开隐私保护,然而,现有用于对数据挖掘进行隐私保护的决策树在创建过程中需要消耗较多的隐私预算,并且容易导致最终的隐私保护效果较差。综上所述可以看出,如何在创建决策树的过程中避免消耗过多的隐私预算并提高最终的隐私保护效果是目前有待解决的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种数据挖掘隐私保护方法及系统,能够在创建决策树的过程中避免消耗过多的隐私预算并提高了最终的隐私保护效果。其具体方案如下:一种数据挖掘隐私保护方法,包括:获取原始数据集;对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用所述目标决策树,对数据挖掘过程展开隐私保护。可选的,所述对所述原始数据集中的连续属性进行离散化的过程,包括:利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一处理后数据集。可选的,所述对所述第一处理后数据集中的属性进行约简处理的过程,包括:创建与所述第一处理后数据集对应的可辨识矩阵;基于所述可辨识矩阵,对所述第一处理后数据集中的属性展开约简处理,得到所述第二处理后数据集。可选的,所述对所述第二处理后数据集中的属性进行完全泛化处理的过程,包括:对所述第二处理后数据集中数值型的离散属性进行直接泛化,并对所述第二处理后数据集中非数值型的离散属性进行逐级泛化,得到所述细分方案集。可选的,所述对所述细分方案集展开相应的决策树构建操作的过程,包括:利用差分隐私的指数机制,对所述细分方案集展开相应的决策树构建操作,得到所述目标决策树。本专利技术还公开了一种数据挖掘隐私保护系统,包括:数据集获取模块,用于获取原始数据集;属性离散化模块,用于对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;属性约简模块,用于对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;属性泛化模块,用于对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;决策树构建模块,用于对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;隐私保护模块,用于利用所述目标决策树,对数据挖掘过程展开隐私保护。可选的,所述属性离散化模块,具体用于利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一处理后数据集。可选的,所述属性约简模块,具体用于创建与所述第一处理后数据集对应的可辨识矩阵,然后基于所述可辨识矩阵,对所述第一处理后数据集中的属性展开约简处理,得到所述第二处理后数据集。可选的,所述属性泛化模块,具体用于对所述第二处理后数据集中数值型的离散属性进行直接泛化,并对所述第二处理后数据集中非数值型的离散属性进行逐级泛化,得到所述细分方案集。可选的,所述决策树构建模块,具体用于利用差分隐私的指数机制,对所述细分方案集展开相应的决策树构建操作,得到所述目标决策树。本专利技术中,数据挖掘隐私保护方法,包括:获取原始数据集;对原始数据集中的连续属性进行离散化,得到第一处理后数据集;对第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用目标决策树,对数据挖掘过程展开隐私保护。可见,本专利技术获取到原始数据集之后,先对原始数据集中的连续属性进行离散化处理,从而为后续对数据集中的属性进行约简提供基础,在对数据集中的属性进行约简之后,将可以去除数据集中的冗余属性,这样可以避免在创建决策树的过程中消耗过多的隐私预算,并且能够消除冗余属性对分类准确度的影响,从而提高了最终的隐私保护效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例公开的一种数据挖掘隐私保护方法流程图;图2为本专利技术实施例公开的一种具体的数据挖掘隐私保护方法流程图;图3为本专利技术实施例公开的一种数据挖掘隐私保护系统结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例公开了一种数据挖掘隐私保护方法,参见图1所示,该方法包括:步骤S11:获取原始数据集。步骤S12:对原始数据集中的连续属性进行离散化,得到第一处理后数据集。步骤S13:对第一处理后数据集中的属性进行约简处理,得到第二处理后数据集。步骤S14:对第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集。步骤S15:对细分方案集展开相应的决策树构建操作,得到相应的目标决策树。步骤S16:利用目标决策树,对数据挖掘过程展开隐私保护。可见,本专利技术实施例获取到原始数据集之后,先对原始数据集中的连续属性进行离散化处理,从而为后续对数据集中的属性进行约简提供基础,在对数据集中的属性进行约简之后,将可以去除数据集中的冗余属性,这样可以避免在创建决策树的过程中消耗过多的隐私预算,并且能够消除冗余属性对分类准确度的影响,从而提高了最终的隐私保护效果。参见图2所示,本专利技术实施例公开了一种具体的数据挖掘隐私保护方法,包括如下步骤:步骤S21:获取原始数据集。步骤S22:利用断点法,对原始数据集中的连续属性进行离散化处理,得到第一处理后数据集。其中,利用断点法对连续属性进行离散化的过程具体包括:将连续属性的属性值按照从小到大的顺序进行排序,接着取相邻值的均值作为候选断点来划分等价子集,然后计算各等价子集的信息熵,选取熵最小的断点作为分裂点,重复选取,直到等价子集的实例的决策属性相同,此时分裂点与原属性值的区间即为离散后的属性值。步骤S23:创建与第一处理后数据集对应的可辨识矩阵;步骤S24:基于可辨识矩阵,对第一处理后数据集中的属性展开约简处理,得到第二处理后数据集。步骤S25:对第二处理后数据集中数值型的离散属性进行直接泛化,并对第二处理后数据集中非数值型的离散属性进行逐级泛化,得到细分方案集。需要说明的是,本实施例中,第二处理后数据集经过泛化处理之后,此时的每个属性值便构成一个方案。步骤S26:利用差分隐私的指本文档来自技高网...
一种数据挖掘隐私保护方法及系统

【技术保护点】
一种数据挖掘隐私保护方法,其特征在于,包括:获取原始数据集;对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用所述目标决策树,对数据挖掘过程展开隐私保护。

【技术特征摘要】
1.一种数据挖掘隐私保护方法,其特征在于,包括:获取原始数据集;对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用所述目标决策树,对数据挖掘过程展开隐私保护。2.根据权利要求1所述的数据挖掘隐私保护方法,其特征在于,所述对所述原始数据集中的连续属性进行离散化的过程,包括:利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一处理后数据集。3.根据权利要求2所述的数据挖掘隐私保护方法,其特征在于,所述对所述第一处理后数据集中的属性进行约简处理的过程,包括:创建与所述第一处理后数据集对应的可辨识矩阵;基于所述可辨识矩阵,对所述第一处理后数据集中的属性展开约简处理,得到所述第二处理后数据集。4.根据权利要求3所述的数据挖掘隐私保护方法,其特征在于,所述对所述第二处理后数据集中的属性进行完全泛化处理的过程,包括:对所述第二处理后数据集中数值型的离散属性进行直接泛化,并对所述第二处理后数据集中非数值型的离散属性进行逐级泛化,得到所述细分方案集。5.根据权利要求4所述的数据挖掘隐私保护方法,其特征在于,所述对所述细分方案集展开相应的决策树构建操作的过程,包括:利用差分隐私的指数机制,对所述细分方案集展开相应的决策树构建操作,得到所述目标决...

【专利技术属性】
技术研发人员:凌捷马波龚怡柳毅顾国生
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1