【技术实现步骤摘要】
一种基于差分隐私的决策树集成训练方法及装置
[0001]本专利技术涉及材料数据安全
,特别是涉及一种基于差分隐私的决策树集成训练方法及装置。
技术介绍
[0002]互联网技术的发展造成了数据指数级地增长,这给机器学习带来了极大的便利。但是除了那些数据丰富的公司,大多数机构都没有充足的数据来服务于他们的学术研究或商业项目。除此之外,在材料方面不同机构的私有数据集往往包含一些敏感信息且具有较高的价值,所以无法在多方进行共享,于是就造成了严重的“数据孤岛”问题。因此,多方参与的能够安全联合训练的联邦学习正是解决这一问题的有效手段。尽管多方参与者不再需要将数据传输到服务器,解决了数据安全的问题,但是现有的隐私保护方法和机器学习的结合,仅仅通过每个参与方基于本地训练进行分别训练,将训练参数传输给服务器进行综合,得到最终的模型,如果针对某一参与方的训练后的模型进行合理的推导是可以获得用于训练该模型的参数的,在这种情况下容易造成隐私数据的泄露。
技术实现思路
[0003]有鉴于此,本专利技术提供了一种基于差分隐私的决 ...
【技术保护点】
【技术特征摘要】
1.一种基于差分隐私的决策树集成训练方法,其特征在于,所述方法应用于分布式集成系统,所述分布式集群系统包括服务器和与服务器连接的多个客户端,每个所述客户端拥有不同的隐私数据集合,所述隐私数据集合用于所述决策树模型的训练,所述隐私数据集合中的隐私数据为材料的加工参数数据和性能参数数据,所述方法包括如下步骤:获取服务器发送的客户端的隐私预算和另一客户端训练完成后得到的全局决策树模型;从本地训练数据集合中选取需要隐私保护的训练数据,构建重要特征集合;所述本地训练数据集合为所述隐私数据集合中的子集;根据客户端的隐私预算,利用指数机制对训练数据中需要隐私保护的特征进行保护处理,获得处理后的训练数据;利用所述处理后的训练数据对所述全局决策树模型进行训练,获得训练后的本地决策树模型;根据客户端的隐私预算,利用拉普拉斯机制对训练后的本地决策树模型中的叶子节点进行保护处理,获得处理后的本地决策树模型,并将处理后的本地决策树模型发送给服务器。2.根据权利要求1所述的基于差分隐私的决策树集成训练方法,其特征在于,所述本地训练数据集合采用如下方式获取:采用随机抽样的方式从所述隐私数据集合中获取多个隐私数据;将多个所述隐私数据作为训练数据,构建本地训练数据集合。3.根据权利要求1所述的基于差分隐私的决策树集成训练方法,其特征在于,所述从本地训练数据集合中选取需要隐私保护的训练数据,构建重要特征集合,具体包括:利用如下公式构建第一特征集合;feature∈IP,if|V
f
|≤n
·
ζ;其中,feature为训练数据中的特征,IP为第一特征集合,V
f
为所有训练数据中的特征feature的特征值的集合;n为本地训练数据集合中训练数据的个数,ζ为训练数据的不完全隐私指数;根据专家经验构建第二特征集合;获取所述第一特征集合和所述第二特征集合的并集作为所述重要特征集合。4.根据权利要求1所述的基于差分隐私的决策树集成训练方法,其特征在于,所述根据客户端的隐私预算,利用指数机制对训练数据中需要隐私保护的特征进行保护处理,获得处理后的训练数据,具体包括:根据客户端的隐私预算,利用如下公式计算内部节点的隐私预算;其中,ε
nonleaf
为内部节点的隐私预算,MaxDepth为决策树模型训练的最大深度值,为第k个训练周期中第m个客户端的隐私预算;根据内部节点的隐私预算,利用如下公式计算需要隐私保护的特征的概率指数值作为需要隐私保护的特征的处理后的特征值;
其中,P
bvalue
为需要隐私保护的特征的概率指数值,bvalue为需要隐私保护的特征的特征值,Δ表示需要隐私保护的特征的特征值增量,G
bvalue
为需要隐私保护的特征的增益。5.根据权利要求1所述的基于差分隐私的决策树集成训练方法,其特征在于,所述根据客户端的隐私预算,利用拉普拉斯机制对训练后的本地决策树模型中的叶子节点进行保护处理,获得处理后的本地决策树模型,具体包括:根据客户端的隐私预算,利用如下公式计算叶子节点的隐私预算;其中,ε
leaf
为叶子节点的隐私预算,为第k个训练周期中第m个客户端的隐私预算;根据叶子节点的隐私预算,利用拉普拉斯机制,采用如下公式对训练后的本地决策树模型中的叶子节点进行保护处理;其中,w'
j
为处理后的第j个叶子节点的权重,I
j
为用于训练第j个叶子节点的处理后的训练数据的集合,g
i
和h
i
分别为第i个处理后的训练数据对应的损失函数值的一阶和二阶梯度统计量,ε
leaf
为叶子节点的隐私预算,λ为已知参数。6.一种基于差分隐私的决策树集成训...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。