The invention discloses a privacy preserving data mining method and system, the method includes: obtaining the original data set; discretization of continuous attributes of the original data set, the data obtained after treatment of the first set; attribute data of the first treatment after the reduction treatment, second after treatment on second data sets; attribute processing after the data set of complete generalization processing, get the corresponding subdivision scheme set; decision tree construction started the corresponding operations on the subdivision scheme to obtain the target set, the corresponding decision tree; using decision tree, data mining process of privacy protection. The application can avoid excessive consumption of privacy budget during the creation of a decision tree, and can eliminate the influence of redundant attributes on classification accuracy, thereby improving the ultimate privacy protection effect.
【技术实现步骤摘要】
一种数据挖掘隐私保护方法及系统
本专利技术涉及数据挖掘
,特别涉及一种数据挖掘隐私保护方法及系统。
技术介绍
当前,随着大数据时代的到来,数据挖掘技术得到了快速的发展,应用范围也越来越广。而数据挖掘技术本身就像是一把双刃剑,在企业和个人合理使用数据挖掘技术的情况下,能够为日常的商业活动以及工作生活带来积极作用。然而,如果用户将挖掘目标瞄准个人隐私或商业机密的情况下,则很可能会导致隐私信息遭受泄露。为了避免在数据挖掘过程中隐私信息遭到泄露,人们提出了基于决策树来对数据挖掘展开隐私保护,然而,现有用于对数据挖掘进行隐私保护的决策树在创建过程中需要消耗较多的隐私预算,并且容易导致最终的隐私保护效果较差。综上所述可以看出,如何在创建决策树的过程中避免消耗过多的隐私预算并提高最终的隐私保护效果是目前有待解决的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种数据挖掘隐私保护方法及系统,能够在创建决策树的过程中避免消耗过多的隐私预算并提高了最终的隐私保护效果。其具体方案如下:一种数据挖掘隐私保护方法,包括:获取原始数据集;对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用所述目标决策树,对数据挖掘过程展开隐私保护。可选的,所述对所述原始数据集中的连续属性进行离散化的过程,包括:利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一 ...
【技术保护点】
一种数据挖掘隐私保护方法,其特征在于,包括:获取原始数据集;对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用所述目标决策树,对数据挖掘过程展开隐私保护。
【技术特征摘要】
1.一种数据挖掘隐私保护方法,其特征在于,包括:获取原始数据集;对所述原始数据集中的连续属性进行离散化,得到第一处理后数据集;对所述第一处理后数据集中的属性进行约简处理,得到第二处理后数据集;对所述第二处理后数据集中的属性进行完全泛化处理,得到相应的细分方案集;对所述细分方案集展开相应的决策树构建操作,得到相应的目标决策树;利用所述目标决策树,对数据挖掘过程展开隐私保护。2.根据权利要求1所述的数据挖掘隐私保护方法,其特征在于,所述对所述原始数据集中的连续属性进行离散化的过程,包括:利用断点法,对所述原始数据集中的连续属性进行离散化处理,得到所述第一处理后数据集。3.根据权利要求2所述的数据挖掘隐私保护方法,其特征在于,所述对所述第一处理后数据集中的属性进行约简处理的过程,包括:创建与所述第一处理后数据集对应的可辨识矩阵;基于所述可辨识矩阵,对所述第一处理后数据集中的属性展开约简处理,得到所述第二处理后数据集。4.根据权利要求3所述的数据挖掘隐私保护方法,其特征在于,所述对所述第二处理后数据集中的属性进行完全泛化处理的过程,包括:对所述第二处理后数据集中数值型的离散属性进行直接泛化,并对所述第二处理后数据集中非数值型的离散属性进行逐级泛化,得到所述细分方案集。5.根据权利要求4所述的数据挖掘隐私保护方法,其特征在于,所述对所述细分方案集展开相应的决策树构建操作的过程,包括:利用差分隐私的指数机制,对所述细分方案集展开相应的决策树构建操作,得到所述目标决...
【专利技术属性】
技术研发人员:凌捷,马波,龚怡,柳毅,顾国生,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。