联邦随机森林模型的构建方法及装置制造方法及图纸

技术编号:33634086 阅读:7 留言:0更新日期:2022-06-02 01:43
本申请实施例提供一种联邦随机森林模型的构建方法及装置,该方法包括:将业务方设备中的数据特征与数据方设备中的数据特征进行加密样本对齐,确定对齐后的整体数据集;根据整体数据集,确定联邦随机森林模型的第一树的训练集;在第一树的第一分裂点分裂时,对样本集进行随机抽取,构建备选分裂特征集;根据备选分裂特征集中的特征所属的设备,在加密保护中获取第一分裂点的标签聚合信息;根据第一分裂点的标签聚合信息,进行第一分裂点的分裂。通过该方式,在保证数据安全性的同时提升了联邦随机森林模型的可解释性。邦随机森林模型的可解释性。邦随机森林模型的可解释性。

【技术实现步骤摘要】
联邦随机森林模型的构建方法及装置


[0001]本专利技术涉及信息
,尤其涉及一种联邦随机森林模型的构建方法及装置。

技术介绍

[0002]随着计算机软硬件技术的充分发展,大数据时代深入到各行各业之中,以数据为核心的人工智能产业得到了“爆炸式”的发展和壮大,在金融、医疗、教育、广告等各个领域之中得到了充分的应用和实践。为了保护数据安全采取的措施,客观上阻碍了数据的使用,形成了“数据孤岛”现象。为解决“数据孤岛”的现象,联邦学习应运而生。
[0003]树模型具体较高的可解释性,在纵向联邦学习框架下,为了避免单棵决策树在模型性能上较弱,提出了联邦随机森林模型。联邦随机森林模型在继承随机森林高性能的基础上,也充分考虑了数据的安全性要求。现有的联邦随机森林模型的构建方法中,若数据方未向业务方匿名其特征的含义,业务方基于基尼系数选择本次分裂特征及分裂点时,若选择的分裂特征为数据方所有且该特征为二值类时,业务方将获知数据方的特征。
[0004]然而,当数据方向业务方匿名其特征的含义后,联邦随机森林模型对于业务方而言缺乏可解释性,阻碍了联邦随机森林的进一步应用。

技术实现思路

[0005]本申请实施例提供一种联邦随机森林模型的构建方法及装置,以解决现有技术中联邦随机森林模型的可解释性差的问题。
[0006]第一方面,本申请实施例提供一种联邦随机森林模型的构建方法,应用于业务方设备,所述方法包括:
[0007]将所述业务方设备中的数据特征与数据方设备中的数据特征进行加密样本对齐,确定对齐后的整体数据集;
[0008]根据所述整体数据集,确定所述联邦随机森林模型的第一树的训练集;
[0009]在所述第一树的第一分裂点分裂时,对所述样本集进行随机抽取,构建备选分裂特征集;
[0010]根据所述备选分裂特征集中的特征所属的设备,在加密保护中获取所述第一分裂点的标签聚合信息;
[0011]根据所述第一分裂点的标签聚合信息,进行所述第一分裂点的分裂。
[0012]一种可选的实施方式中,所述根据所述备选分裂特征集中的特征所属的设备,在加密保护中获取所述第一分裂点的标签聚合信息,包括:
[0013]若所述备选分裂特征集中的特征属于所述业务方设备,则接收所述数据方设备发送的所述第一分裂点的加密后的样本编码信息;
[0014]根据所述加密后的样本编码信息,计算所述第一分裂点的加密后的标签聚合信息;
[0015]将所述第一分裂点的加密后的标签聚合信息发送给所述数据方设备;
[0016]接收所述数据方设备发送的解密后的标签聚合信息。
[0017]一种可选的实施方式中,所述根据所述备选分裂特征集中的特征所属的设备,在加密保护中获取所述第一分裂点的标签聚合信息,包括:
[0018]若所述备选分裂特征集中的特征属于所述数据方设备,则接收所述数据方设备发送的所述第一分裂点的加密后的标签聚合信息;
[0019]对所述加密后的标签聚合信息进行解密,获取解密后的标签聚合信息。
[0020]一种可选的实施方式中,所述加密保护包括加法同态加密。
[0021]一种可选的实施方式中,在所述在加密保护中获取所述第一分裂点的标签聚合信息之前,所述方法还包括:
[0022]向所述数据方设备发送第一公钥,所述第一公钥为所述业务方设备进行加法同态加密所使用的第一公私秘钥对中的公钥;
[0023]接收所述数据方设备发送的第二公钥,所述第二公钥为所述数据方设备进行加法同态加密所使用的第二公私秘钥对中的公钥。
[0024]一种可选的实施方式中,在所述确定对齐后的整体数据集后,所述方法还包括:
[0025]对所述整体数据集中的数据特征进行分箱处理,生成待分裂的阈值候选集合;
[0026]将所述待分裂的阈值候选集合发送给所述数据方设备。
[0027]一种可选的实施方式中,所述根据所述整体数据集,确定所述联邦随机森林模型的第一树的训练集,包括:
[0028]对所述整体数据集进行有放回抽样,确定所述联邦随机森林模型的第一树的训练集。
[0029]一种可选的实施方式中,在所述确定所述联邦随机森林模型的第一树的训练集之后,所述方法还包括:
[0030]将所述第一树的训练集的预测值进行加密;
[0031]将加密后的所述第一树的训练集的预测值发送给所述数据方设备。
[0032]一种可选的实施方式中,所述根据所述第一分裂点的标签聚合信息,进行所述第一分裂点的分裂,包括:
[0033]根据所述第一分裂点的标签聚合信息,计算所述第一分裂点的基尼系数;
[0034]若所述第一分裂点的基尼系数的最大值大于等于所述基尼系数的阈值,则所述第一分裂点进行分裂;
[0035]将所述第一分裂点的分裂规则发送给所述数据方设备。
[0036]一种可选的实施方式中,在所述计算所述第一分裂点的基尼系数之后,所述方法还包括:
[0037]若所述第一分裂点的基尼系数的最大值小于所述基尼系数的阈值,则所述第一分裂点不进行分裂。
[0038]一种可选的实施方式中,在所述第一分裂点进行分裂后,所述方法还包括:
[0039]若所述备选分裂特征集中的特征属于所述业务方设备,则属于所述业务方设备的特征对应的全样本空间分裂后的左子节点样本编码信息发送给所述数据方设备。
[0040]一种可选的实施方式中,在所述进行所述第一分裂点的分裂后,所述方法还包括:
[0041]当所述第一树的分裂点无法分裂或所述第一树的深度达到预设的深度阈值,则停
止所述第一树的分裂点的分裂。
[0042]第二方面,本申请实施例提供一种联邦随机森林模型的构建方法,应用于数据方设备,所述方法包括:
[0043]在所述联邦随机森林模型的第一树的第一分裂点分裂时,根据备选分裂特征集中的特征所属的设备,辅助业务方设备在加密保护中获取所述第一分裂点的标签聚合信息。
[0044]一种可选的实施方式中,所述辅助业务方设备在加密保护中获取所述第一分裂点的标签聚合信息,包括:
[0045]若所述备选分裂特征集中的特征属于所述业务方设备,则对所述第一分裂点进行样本信息编码,生成所述第一分裂点的样本编码信息;
[0046]将所述第一分裂点的样本编码信息进行加密;
[0047]将所述第一分裂点的加密后的样本编码信息发送给所述业务方设备;
[0048]接收所述业务方设备发送的所述第一分裂点的加密后的标签聚合信息;
[0049]对所述第一分裂点的加密后的标签聚合信息进行解密;
[0050]向所述业务方设备发送解密后的标签聚合信息。
[0051]一种可选的实施方式中,所述方法还包括:
[0052]接收所述业务方设备发送的待分裂的阈值候选集合;
[0053]接收所述业务方设备发送的加密后的所述第一树的训练集的预测值;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联邦随机森林模型的构建方法,其特征在于,应用于业务方设备,所述方法包括:将所述业务方设备中的数据特征与数据方设备中的数据特征进行加密样本对齐,确定对齐后的整体数据集;根据所述整体数据集,确定所述联邦随机森林模型的第一树的训练集;在所述第一树的第一分裂点分裂时,对所述样本集进行随机抽取,构建备选分裂特征集;根据所述备选分裂特征集中的特征所属的设备,在加密保护中获取所述第一分裂点的标签聚合信息;根据所述第一分裂点的标签聚合信息,进行所述第一分裂点的分裂。2.根据权利要求1所述的方法,其特征在于,所述根据所述备选分裂特征集中的特征所属的设备,在加密保护中获取所述第一分裂点的标签聚合信息,包括:若所述备选分裂特征集中的特征属于所述业务方设备,则接收所述数据方设备发送的所述第一分裂点的加密后的样本编码信息;根据所述加密后的样本编码信息,计算所述第一分裂点的加密后的标签聚合信息;将所述第一分裂点的加密后的标签聚合信息发送给所述数据方设备;接收所述数据方设备发送的解密后的标签聚合信息。3.根据权利要求1所述的方法,其特征在于,所述根据所述备选分裂特征集中的特征所属的设备,在加密保护中获取所述第一分裂点的标签聚合信息,包括:若所述备选分裂特征集中的特征属于所述数据方设备,则接收所述数据方设备发送的所述第一分裂点的加密后的标签聚合信息;对所述加密后的标签聚合信息进行解密,获取解密后的标签聚合信息。4.根据权利要求1所述的方法,其特征在于,所述加密保护包括加法同态加密。5.根据权利要求4所述的方法,其特征在于,在所述在加密保护中获取所述第一分裂点的标签聚合信息之前,所述方法还包括:向所述数据方设备发送第一公钥,所述第一公钥为所述业务方设备进行加法同态加密所使用的第一公私秘钥对中的公钥;接收所述数据方设备发送的第二公钥,所述第二公钥为所述数据方设备进行加法同态加密所使用的第二公私秘钥对中的公钥。6.根据权利要求1所述的方法,其特征在于,在所述确定对齐后的整体数据集后,所述方法还包括:对所述整体数据集中的数据特征进行分箱处理,生成待分裂的阈值候选集合;将所述待分裂的阈值候选集合发送给所述数据方设备。7.根据权利要求1所述的方法,其特征在于,所述根据所述整体数据集,确定所述联邦随机森林模型的第一树的训练集,包括:对所述整体数据集进行有放回抽样,确定所述联邦随机森林模型的第一树的训练集。8.根据权利要求1所述的方法,其特征在于,在所述确定所述联邦随机森林模型的第一树的训练集之后,所述方法还包括:将所述第一树的训练集的预测值进行加密;
将加密后的所述第一树的训练集的预测值发送给所述数据方设备。9.根据权利要求1所述的方法,其特征在于,所述根据所述第一分裂点的标签聚合信息,进行所述第一分裂点的分裂,包括:根据所述第一分裂点的标签聚合信息,计算所述第一分裂点的基尼系数;若所述第一分裂点的基尼系数的最大值大于等于所述基尼系数的阈值,则所述第一分裂点进行分裂;将所述第一分裂点的分裂规则发送给所述数据方设备。10.根据权利要求9所述的方法,其特征在于,在所述计算所述第一分裂点的基尼系数之后,所述方法还包括:若所述第一分裂点的基尼系数的最大值小于所述基尼系数的阈值,则所述第一分裂点不进行分裂。11.根据权利要求9所述的方法,其特征在于,在所述第一分裂点进行分裂后,所述方法还包括:若所述备选分裂特征集中的特征属于所述业务方设备,则属于所述业务方...

【专利技术属性】
技术研发人员:冯泽瑾杨恺王虎黄志翔彭南博
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1