纵向联邦决策树训练方法及装置制造方法及图纸

技术编号:34433492 阅读:25 留言:0更新日期:2022-08-06 16:13
本公开提供一种纵向联邦决策树训练方法及装置。所述方法包括:对训练发起方的第一特征及训练参与方的第二特征进行等宽分箱,获得第一离散特征和第二离散特征;对决策树的当前节点,训练发起方获得第一基尼系数,并将标签加密传输至训练参与方;训练参与方获得训练样本的第一分类结果并加密发送至训练发起方;根据标签和第一分类结果获得第二基尼系数和第三基尼系数;根据第一基尼系数、第二基尼系数和第三基尼系数,确定切分点;根据切分点,获得训练后的决策树。通过本公开,能够以更高的训练精度训练决策树,使得决策树可同时被训练发起方和训练参与方使用,且互相之间数据不共享,在提升训练精度的同时,保证了数据的安全性。性。性。

【技术实现步骤摘要】
纵向联邦决策树训练方法及装置


[0001]本公开涉及计算机
,尤其涉及一种纵向联邦决策树训练方法及装置。

技术介绍

[0002]隐私计算为在不泄漏自身数据的前提下实现数据分析、数据计算等等的技术集合,以达到对数据“可用但不可见”的目的。在此场景下,数据的拥有者常常为两方或者多方,且纵向联邦学习场景下的参与者往往都含有一份数据的部分特征,任意一方在不想泄漏自己的任何数据以达到使用其他方的部分特征数据共同训练一棵决策树,就需要将隐私计算技术与决策树相结合。对于训练决策树过程中产生的通信数据,进行一定的处理,让处理后的临时数据摆脱与原有数据的关系或者处于加密且能进行运算的状态,从而达到了利用对方数据共同训练决策树,也达到了保护本方数据让对方不可见的高安全效果。
[0003]然而,现有决策树算法的应用场景大多数都为单机版本,很少出现纵向联邦学习版本。即便是联邦学习版本,其通信无法保证双方、多方数据“可用不可见”,存在泄漏数据的风险,无法满足“高安全”的要求。
[0004]公开于本申请
技术介绍
部分的信息仅仅旨在加深对本申请的一般背景本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种纵向联邦决策树训练方法,其特征在于,包括:对训练发起方的具有的训练样本的第一特征及训练参与方具有的训练样本的第二特征进行等宽分箱,获得训练发起方的第一离散特征和训练参与方的第二离散特征,其中,所述训练发起方具有所述训练样本的标签;对决策树的当前节点,所述训练发起方根据所述训练样本的标签及所述第一离散特征,获得第一基尼系数;所述训练发起方将所述标签加密传输至所述训练参与方;所述训练参与方根据所述等宽分箱的分箱节点,获得所述训练样本的第一分类结果,并加密发送至训练发起方;根据加密状态的标签和加密状态的第一分类结果,由训练发起方获得第二基尼系数,并由训练参与方获得第三基尼系数;根据所述第一基尼系数、所述第二基尼系数和所述第三基尼系数,确定决策树的当前节点的切分点;根据所述决策树的各节点的切分点,对决策树进行训练,获得训练后的决策树。2.根据权利要求1所述的方法,其特征在于,根据加密状态的标签和加密状态的第一分类结果,所述由训练发起方获得第二基尼系数,包括:根据加密状态的标签和加密状态的第一分类结果,确定训练发起方的各第一离散特征的特征值的第二基尼系数。3.根据权利要求2所述的方法,其特征在于,确定训练发起方的各第一离散特征的特征值的第二基尼系数,包括:根据公式确定以第一离散特征的特征值作为分类的切分点的第二基尼系数,其中,,为第i个训练样本,,为加密状态的标签,为加密状态的第一分类结果,表示根据第一分类结果确定的训练样本的第一个类别,表示第一个类别的样本数量,表示根据第一分类结果确定的训练样本的第二个类别,,表示第二个类别的样本数量,表示训练样本集合。4.根据权利要求1所述的方法,其特征在于,根据加密状态的标签和加密状态的第一分类结果,由训练参与方获得第三基尼系数,包括:根据加密状态的标签和加密状态的第一分类结果,确定训练参与方的各第二离散特征的特征值的第三基尼系数。5.根据权利要求1所述的方法,其特征在于,根据所述第一基尼系数、所述第二基尼系数和所述第三基尼系数,确定决策树的当前...

【专利技术属性】
技术研发人员:李陆沁裴阳
申请(专利权)人:蓝象智联杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1