基于F_Max属性度量的差分隐私决策树构建方法技术

技术编号:29586944 阅读:39 留言:0更新日期:2021-08-06 19:46
本发明专利技术公开了一种基于F_Max属性度量的差分隐私决策树构建方法,具体按照以下步骤实施:步骤1:数据处理;步骤2:隐私预算权重分配;步骤3:隐私预算分配;步骤4:差分隐私决策树构建;步骤5:差分隐私决策树分裂属性选取;步骤6:最后根据步骤4和步骤5构建的差分隐私决策树对测试数据集进行分类预测,输出预测结果。本发明专利技术基于新的F_Max属性度量,在决策树分类问题中既保护用户隐私,同时提供较高的算法准确率。

【技术实现步骤摘要】
基于F_Max属性度量的差分隐私决策树构建方法
本专利技术属于信息安全
,具体涉及一种基于F_Max属性度量的差分隐私决策树构建方法。
技术介绍
数据挖掘(DataMining)是基于数据库的知识发现中的关键步骤,通常将其中的知识学习阶段称为数据挖掘。数据挖掘(DataMining)技术可以从这些海量的数据中发现并提取能被人理解的模式或者知识。分类和预测是数据挖掘的主要方法之一,用于描述重要数据类的模型或预测未来的数据趋势。决策树方法是一种应用广泛的分类方法,决策树是对样本进行训练并预测的一种分类器。最佳分裂属性的属性度量方法有信息增益、增益率、基尼指数以及基于距离的划分等,该算法可以达到较高的分类精度。决策树算法在处理节点信息的时候,每个节点都可能导致隐私泄露。差分隐私是2006年Dwork等人提出的隐私保护模型,在差分隐私中,要求攻击者无法根据发布后的结果推测出哪一条结果对应于哪一个数据集。该模型通过加入随机噪声的方法来确保公开的输出结果不会因为一个个体是否在数据集中而产生明显的变化,并对隐私泄露程度给出了定量化的模型。决策树算法通过与差分隐私保护结合,能有效地保护数据集的个体隐私。基于差分隐私保护的决策树构建方法具有重要的实际应用意义。
技术实现思路
本专利技术的目的是提供一种基于F_Max属性度量的差分隐私决策树构建方法,基于新的F_Max属性度量,在决策树分类问题中既保护用户隐私,同时提供较高的算法准确率。本专利技术所采用的技术方案是,基于F_Max属性度量的差分隐私决策树构建方法,具体按照以下步骤实施:步骤1:数据处理;步骤2:隐私预算权重分配;步骤3:隐私预算分配;步骤4:差分隐私决策树构建;步骤5:差分隐私决策树分裂属性选取;步骤6:最后根据步骤4和步骤5构建的差分隐私决策树对测试数据集进行分类预测,输出预测结果。本专利技术的特点还在于,步骤1具体如下:从数据集D中有放回的随机抽样大小为R的数据集D′,从属性集F={A1,…Ax}随机抽取f个不同属性,A1~Ax为属性集F的属性,x为属性集F中属性个数。假设f个不同属性包括n个连续属性和f-n个离散属性,组成分裂属性集A=(A1…Af)∈F,A1~Af为分裂属性集A的属性,f为分裂属性集A中属性的个数。分裂属性集A中n个连续属性组成连续属性集Ar,n=0时,属性集Ar为空;n>0,Ar(r=1,2,...,n)∈A,A1~An为连续属性集Ar的属性。假设决策树总隐私预算为e,决策树的层数为i,i=1,2…d,决策树的最大层数为dm,其中d≤dm。步骤2具体如下:根据步骤1所给的决策树的层数i和决策树的最大层数dm,采用平衡信噪比的方法,为决策树各层分配隐私预算权重,确定各层隐私预算分配的比例,具体为:假设决策树总隐私预算权重为w,决策树每层分为计数查询和属性查询,最后一层只有计数查询,因此,分配给决策树第1层的隐私预算权重为w1=2/dm,随着决策树层数的增加,隐私预算权重依次分配给每个后续层,第2层的隐私预算权重为w2=2/(dm-1),依次类推,w3=2/(dm-2),…,wi=2/(dm-i+1),第d-1层的隐私预算权重为wd-1=2/(dm-d+2),最后一层d层只有计数查询,隐私预算权重为wd=1/(dm-d+1),综上,总隐私预算权重为w=w1+w2+w3+…wd-1+wd。步骤3具体如下:根据步骤1给出的决策树总隐私预算e、决策树的层数i、决策树的最大层数dm以及步骤2给出的决策树总隐私预算权重w和各层的隐私预算权重wi,w1~wd为第1层到第d层的隐私预算权重,对决策树各层和各层节点进行隐私预算分配,具体实现步骤如下:步骤3.1、首先是对各层隐私预算分配:根据步骤3给出的决策树总隐私预算e和总隐私预算权重w,计算单位隐私预算为每层隐私预算为ei=wi*eu=(2/(dm-i+1)),i=1,2…d,e1到ed为决策树各层分配的隐私预算,由于决策树的样本是有放回随机选择的,会有一定的交叉,根据差分隐私序列组合性,消耗的隐私预算为决策树消耗隐私预算的叠加;步骤3.2、根据步骤3.1给出的决策树各层隐私预算ei,再对每层节点进行隐私预算分配,对于决策树每层节点隐私预算分配:每层节点分为计数查询和属性查询,节点中计数查询所分配的隐私预算ei,1,节点中属性查询所分配的隐私预算为ei,2,决策树第1层到第d-1层节点中的计数查询和属性查询平均分配各层隐私预算:ej,1=ej,2=ej/2,1≤j≤d-1,j∈i,e1,1~ed-1,1是从第1层到d-1层决策树每层节点中计数查询分配的隐私预算,e1,2~ed-1,2是从第1层到d-1层决策树每层节点中属性查询分配的隐私预算,最后一层d层只有计数查询ei,1=ed,ei,2=0,ei,1为决策树d层计数查询分配的隐私预算。步骤4具体如下:首先判断决策树是否达到终止条件,节点内所有样本分类结果相同,当前分裂属性集A为空,达到决策树的最大层数dm,若未达到终止条件开始进行决策树构建,根据步骤3给出的决策树各层节点分配的属性查询隐私预算ei,2进行分裂属性选择。然后判断是否有连续属性,若步骤1给出的连续属性数量n=0,直接进行步骤5。若步骤1给出的连续属性数量n>0,先对步骤1中的连续属性集Ar中的n个连续属性进行离散化处理,e'=ei,2/n,e'为连续属性离散化过程中属性需要消耗的隐私预算,连续属性离散化具体实现步骤如下:步骤4.1、连续属性集Ar中,A1∈Ar,A1是连续属性,对A1通过指数机制,使用CART算法从其分裂点Vsplit选择最佳分裂点V进行离散化处理,Pr为算法GI作用于数据集D′输出的概率,Vsplit为属性A1中的分裂点,V为属性A1的最佳分裂点,GI(D',V)为算法GI作用于最佳分裂点V的可用性函数,GI(D',Vsplit)为算法GI作用于分裂点Vsplit的可用性函数,ΔGI为函数GI(D',Vsplit)的敏感度,将完成离散化的属性A1划入分裂属性集A中;步骤4.2、依次对连续属性集Ar中的A2,A3,…An通过步骤4.1进行离散化处理,离散化后的属性划入分裂属性集A中,直到所有连续属性完成离散化为止。步骤5具体如下:根据步骤3给出的各层节点计数查询分配的隐私预算ei,1,当对分裂属性集A中所有连续属性使用步骤4中方法离散化处理后,开始进行分裂属性的选取,通过F_Max属性度量对分裂属性集A中各个属性进行打分去选择最佳分裂属性,Ah=scoreA,返回最佳分裂属性Ah,1≤h≤f,达到终止条件,不再分裂,差分隐私决策树构建完成,否则返回步骤4。步骤5中的F_Max属性度量具体定义如下:假设数据集N={N1,…,Ns},s代表实例的数量,属性集T={L1,…,Lk},k代表属性的数量,类标签集C,c∈C,c=1,2,…,q,q代表数据集中类别的数量,随机从属性集T抽取p个不同属性,组成分裂属性集U=本文档来自技高网...

【技术保护点】
1.基于F_Max属性度量的差分隐私决策树构建方法,其特征在于,具体按照以下步骤实施:/n步骤1:数据处理;/n步骤2:隐私预算权重分配;/n步骤3:隐私预算分配;/n步骤4:差分隐私决策树构建;/n步骤5:差分隐私决策树分裂属性选取;/n步骤6:最后根据步骤4和步骤5构建的差分隐私决策树对测试数据集进行分类预测,输出预测结果。/n

【技术特征摘要】
1.基于F_Max属性度量的差分隐私决策树构建方法,其特征在于,具体按照以下步骤实施:
步骤1:数据处理;
步骤2:隐私预算权重分配;
步骤3:隐私预算分配;
步骤4:差分隐私决策树构建;
步骤5:差分隐私决策树分裂属性选取;
步骤6:最后根据步骤4和步骤5构建的差分隐私决策树对测试数据集进行分类预测,输出预测结果。


2.根据权利要求1所述的基于F_Max属性度量的差分隐私决策树构建方法,其特征在于,所述步骤1具体如下:
从数据集D中有放回的随机抽样大小为R的数据集D′,从属性集F={A1,…Ax}随机抽取f个不同属性,A1~Ax为属性集F的属性,x为属性集F中属性个数,假设f个不同属性包括n个连续属性和f-n个离散属性,组成分裂属性集A=(A1…Af)∈F,A1~Af为分裂属性集A的属性,f为分裂属性集A中属性的个数,分裂属性集A中n个连续属性组成连续属性集Ar,n=0时,属性集Ar为空;n>0,Ar(r=1,2,...,n)∈A,A1~An为连续属性集Ar的属性,假设决策树总隐私预算为e,决策树的层数为i,i=1,2…d,决策树的最大层数为dm,其中d≤dm。


3.根据权利要求2所述的基于F_Max属性度量的差分隐私决策树构建方法,其特征在于,所述步骤2具体如下:
根据步骤1所给的决策树的层数i和决策树的最大层数dm,采用平衡信噪比的方法,为决策树各层分配隐私预算权重,确定各层隐私预算分配的比例,具体为:假设决策树总隐私预算权重为w,决策树每层分为计数查询和属性查询,最后一层只有计数查询,因此,分配给决策树第1层的隐私预算权重为w1=2/dm,随着决策树层数的增加,隐私预算权重依次分配给每个后续层,第2层的隐私预算权重为w2=2/(dm-1),依次类推,w3=2/(dm-2),…,wi=2/(dm-i+1),第d-1层的隐私预算权重为wd-1=2/(dm-d+2),最后一层d层只有计数查询,隐私预算权重为wd=1/(dm-d+1),综上,总隐私预算权重为w=w1+w2+w3+…wd-1+wd。


4.根据权利要求3所述的基于F_Max属性度量的差分隐私决策树构建方法,其特征在于,所述步骤3具体如下:
根据步骤1给出的决策树总隐私预算e、决策树的层数i、决策树的最大层数dm以及步骤2给出的决策树总隐私预算权重w和各层的隐私预算权重wi,w1~wd为第1层到第d层的隐私预算权重,对决策树各层和各层节点进行隐私预算分配,具体实现步骤如下:
步骤3.1、首先是对各层隐私预算分配:根据步骤3给出的决策树总隐私预算e和总隐私预算权重w,计算单位隐私预算为每层隐私预算为ei=wi*eu=(2/(dm-i+1)),i=1,2…d,e1到ed为决策树各层分配的隐私预算,由于决策树的样本是有放回随机选择的,会有一定的交叉,根据差分隐私序列组合性,消耗的隐私预算为决策树消耗隐私预算的叠加;
步骤3.2、根据步骤3.1给出的决策树各层隐私预算ei,再对每层节点进行隐私预算分配,对于决策树每层节点隐私预算分配:每层节点分为计数查询和属性查询,节点中计数查询所分配的隐私预算ei,1,节点中属性查询所分配的隐私预算为ei,2,决策树第1层到第d-1层节点中的计数查询和属性查询平均分配各层隐私预算:ej,1=ej,2=ej/2,1≤j≤d-1,j∈i,e1,1~ed-1,1是从第1层到d-1层决策树每层节点中计数查询分配的隐私预算,e1,2~ed-1,2是从第1层到d-1层决策树每层节点中属性查询分配的隐私预算,最后一层d层只有计数查询ei,1=ed,ei,2=0,ei,1为决策树d层计数查询分配的隐私预算。


5.根据权利要求4所述的基于F_Max属性度量的差分隐私决策树构建方法,其特征在于,所述步骤4具体如下:
首先判断决策树是否达到终止条件,节点内所有样本分类结果相同,当前分裂属性集A为空,达到决策树的最大层数dm,若未达到终止条件开始进行决策树构建,根据步骤3给出的决策树各层节点分配的属性查询隐私预算ei,2进行分裂属性选择,然后判断是否有连续属性,若步骤1给出的连续属性数量n=0,直接进行步骤5,若步骤1给出的连续属性数量n>0,先对步骤1中的连续属性集Ar中的n个连续属性进行离散化处理,e'=ei,2/n,e'为连续属性离散化过程中属性需要消耗的隐私预算,连续属性离散化具体实现步骤如下:
步骤4.1、连续属性集Ar中,A1∈Ar,A1是连续属性,对A1通过...

【专利技术属性】
技术研发人员:张亚玲冯鹏飞
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1