数据预测模型的创建与预测方法、设备及存储介质技术

技术编号:34265827 阅读:27 留言:0更新日期:2022-07-24 14:53
本申请提供一种数据预测模型的创建与预测方法、设备及存储介质。在模型创建过程中,将模型叶子节点权重、参与方特征划分对应的聚合值保存在参与方本地,对发起方保密,从而保证发起方在已知模型节点特征的基础上无法推测出样本对应的参与方特征属性,实现可靠的可解释模型。在基于数据预测模型进行数据预测时,发起方将本地预测结果加密传输给参与方,经各参与方数据预测后,将最终的预测结果返回发起方,该过程不会泄露叶子节点对应的参与方特征分布,同时保护发起方样本标签不被参与方获知。知。知。

Creation of data prediction model, prediction method, equipment and storage medium

【技术实现步骤摘要】
数据预测模型的创建与预测方法、设备及存储介质


[0001]本申请涉及联邦学习
,尤其涉及一种数据预测模型的创建与预测方法、设备及存储介质。

技术介绍

[0002]联邦机器学习又称为联邦学习,能有效帮助多个机构在满足用户隐私保护、数据安全的前提下,进行数据使用和机器学习建模。根据数据和任务特点的不同可以分为纵向联邦学习、横向联邦学习以及联邦迁移学习。
[0003]纵向联邦学习是在两个数据集的用户重叠较多而用户特征重叠较少的情况下,把数据集按照纵向即特征维度切分,取出双方用户相同而用户特征不完全相同的那部分数据进行模型训练。以信贷风控领域为例,基于不同机构,如银行、电商等机构的用户数据样本,可建立对用户偿还贷款能力的预测模型,其中银行机构为Guest方,即业务发起方或模型使用方,电商机构为Host方,即业务参与方或用户数据特征补充方。
[0004]Guest方基于现有模型创建方法构建的预测模型,存在泄漏Host方数据特征的风险,主要是Guest方可结合叶子节点的权重推断样本属于哪个叶子节点,进而从叶子节点推断出所有样本分布,得到每个节点样本集合的信息。当样本特征分布不均衡时,例如大多数样本“不存在违约行为”的不均衡分布,极容易推测出样本特征,不符合保护Host方数据隐私的要求。因此,亟需对预测模型的创建方法进行优化。

技术实现思路

[0005]本申请实施例提供一种数据预测模型的创建与预测方法、设备及存储介质,在保护参与方数据隐私的情况下,实现模型的可解释性。
[0006]本申请实施例的第一方面提供一种数据预测模型的创建方法,应用于参与方设备,所述方法包括:接收来自发起方设备的加密模型迭代参数以及第一加密聚合值;所述加密模型迭代参数用于指示第i颗模型的样本标签预测值与真实值的差值的加密导数,所述第i颗模型是经过i次模型迭代的数据预测模型,所述i为正整数;所述第一加密聚合值用于指示采用样本的发起方特征划分当前节点的样本集合的划分情况;
[0007]根据所述加密模型迭代参数、所述样本集合以及发起方公钥生成第二加密聚合值,所述第二加密聚合值用于指示采用样本的参与方特征划分当前节点的样本集合的划分情况;
[0008]根据解密后的所述第一加密聚合值确定所述发起方特征划分所述样本集合的第一信息增益集合;根据解密后的所述第二加密聚合值确定所述参与方特征划分所述样本集合的第二信息增益集合;所述第一信息增益集合和所述第二信息增益集合均包括至少一个信息增益;
[0009]若所述第一信息增益集合和所述第二信息增益集合中的最大信息增益小于或等于预设阈值,确定所述当前节点的子节点为第i+1次模型迭代的数据预测模型的叶子节点,
在确定所述当前节点的权重信息后,将所述权重信息存储在所述参与方设备;所述权重信息用于指示在i+1次模型训练后所述当前节点样本的标签预测值。
[0010]在本申请第一方面的一个可选实施例中,所述根据所述加密模型迭代参数、所述样本集合以及发起方公钥生成第二加密聚合值,包括:
[0011]根据所述加密模型迭代参数、所述样本集合以及所述发起方公钥,生成第三加密聚合值;所述第三加密聚合值用于指示采用样本的参与方特征划分当前节点的样本集合的划分情况;
[0012]根据所述参与方设备生成的随机数以及所述发起方公钥生成加密随机数;
[0013]通过对所述第三加密聚合值添加所述加密随机数,得到所述第二加密聚合值。
[0014]在本申请第一方面的一个可选实施例中,所述根据解密后的所述第二加密聚合值确定所述参与方特征划分所述样本集合的第二信息增益集合之前,所述方法还包括:
[0015]向所述发起方设备发送所述第二加密聚合值,所述第二加密聚合值包括加密随机数;
[0016]接收所述发起方设备返回的包含随机数的第二聚合值;
[0017]在剔除所述随机数后,得到第三聚合值,所述第三聚合值为解密后的所述第三加密聚合值,所述第三聚合值包括采用所述参与方特征划分所述样本集合后子样本集合中样本标签预测值与真实值的差值的导数。
[0018]在本申请第一方面的一个可选实施例中,所述根据解密后的所述第一加密聚合值确定所述发起方特征划分所述样本集合的第一信息增益集合之前,所述方法还包括:
[0019]根据所述参与方私钥对所述第一加密聚合值进行解密,得到第一聚合值;
[0020]所述第一聚合值为解密后的所述第一加密聚合值,所述第一聚合值包括采用所述发起方特征划分所述样本集合后子样本集合中样本标签预测值与真实值的差值的导数。
[0021]在本申请第一方面的一个可选实施例中,所述方法还包括:
[0022]若所述第一信息增益集合和所述第二信息增益集合中的最大信息增益大于所述预设阈值,将所述最大信息增益对应的划分特征作为所述当前节点的目标划分特征,所述目标划分特征为所述发起方特征或所述参与方特征。
[0023]在本申请第一方面的一个可选实施例中,所述方法还包括:
[0024]若所述当前节点的目标划分特征为所述发起方特征,向所述发起方设备发送第一节点划分信息,所述第一节点划分信息包括所述发起方特征的编号以及特征阈值。
[0025]在本申请第一方面的一个可选实施例中,所述方法还包括:
[0026]若所述当前节点的目标划分特征为所述参与方特征,根据所述参与方特征的编号以及特征阈值,更新所述当前节点的子节点的样本集合,并生成所述当前节点的子节点的加密样本集合;
[0027]向所述发起方设备发送第二节点划分信息,所述第二节点划分信息包括所述参与方特征的编号以及所述当前节点的子节点的加密样本集合。
[0028]本申请实施例的第二方面提供一种数据预测模型的创建方法,应用于发起方设备,所述方法包括:
[0029]根据模型迭代参数、发起方设备已知的当前节点的样本集合以及参与方公钥,生成第一加密聚合值;所述模型迭代参数用于指示第i颗模型的样本标签预测值与真实值的
差值的加密导数,所述第i颗模型是经过i次模型迭代的数据预测模型,所述i为正整数;所述第一加密聚合值用于指示采用样本的发起方特征划分所述加密样本集合的划分情况;
[0030]根据发起方公钥加密所述模型迭代参数,得到加密模型迭代参数;
[0031]向所述参与方设备发送所述加密模型迭代参数以及所述第一加密聚合值。
[0032]在本申请第二方面的一个可选实施例中,所述方法还包括:
[0033]接收来自所述参与方设备的第二加密聚合值,所述第二加密聚合值用于指示采用样本的参与方特征划分所述当前节点的样本集合的划分情况;
[0034]根据发起方私钥对所述第二加密聚合值进行解密,得到包含随机数的第二聚合值,所述随机数是所述参与方设备生成的;
[0035]向所述参与方设备发送包含所述随机数的第二聚合值。
[0036]在本申请第二方面的一个可选实施例中,所述方法还包括:
[0037]若所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据预测模型的创建方法,其特征在于,应用于参与方设备,所述方法包括:接收来自发起方设备的加密模型迭代参数以及第一加密聚合值;所述加密模型迭代参数用于指示第i颗模型的样本标签预测值与真实值的差值的加密导数,所述第i颗模型是经过i次模型迭代的数据预测模型,所述i为正整数;所述第一加密聚合值用于指示采用样本的发起方特征划分当前节点的样本集合的划分情况;根据所述加密模型迭代参数、所述样本集合以及发起方公钥生成第二加密聚合值,所述第二加密聚合值用于指示采用样本的参与方特征划分当前节点的样本集合的划分情况;根据解密后的所述第一加密聚合值确定所述发起方特征划分所述样本集合的第一信息增益集合;根据解密后的所述第二加密聚合值确定所述参与方特征划分所述样本集合的第二信息增益集合;所述第一信息增益集合和所述第二信息增益集合均包括至少一个信息增益;若所述第一信息增益集合和所述第二信息增益集合中的最大信息增益小于或等于预设阈值,确定所述当前节点为第i+1次模型迭代的数据预测模型的叶子节点,在确定所述当前节点的权重信息后,将所述权重信息存储在所述参与方设备;所述权重信息用于指示在i+1次模型训练后所述当前节样本的标签预测值。2.根据权利要求1所述的方法,其特征在于,所述根据所述加密模型迭代参数、所述样本集合以及发起方公钥生成第二加密聚合值,包括:根据所述加密模型迭代参数、所述样本集合以及所述发起方公钥,生成第三加密聚合值;所述第三加密聚合值用于指示采用样本的参与方特征划分当前节点的样本集合的划分情况;根据所述参与方设备生成的随机数以及所述发起方公钥生成加密随机数;通过对所述第三加密聚合值添加所述加密随机数,得到所述第二加密聚合值。3.根据权利要求1或2所述的方法,其特征在于,所述根据解密后的所述第二加密聚合值确定所述参与方特征划分所述样本集合的第二信息增益集合之前,所述方法还包括:向所述发起方设备发送所述第二加密聚合值,所述第二加密聚合值包括加密随机数;接收所述发起方设备返回的包含随机数的第二聚合值;在剔除所述随机数后,得到第三聚合值,所述第三聚合值为解密后的所述第三加密聚合值,所述第三聚合值包括采用所述参与方特征划分所述样本集合后子样本集合中样本标签预测值与真实值的差值的导数。4.根据权利要求1所述的方法,其特征在于,所述根据解密后的所述第一加密聚合值确定所述发起方特征划分所述样本集合的第一信息增益集合之前,所述方法还包括:根据所述参与方私钥对所述第一加密聚合值进行解密,得到第一聚合值;所述第一聚合值包括采用所述发起方特征划分所述样本集合后子样本集合中样本标签预测值与真实值的差值的导数。5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:若所述第一信息增益集合和所述第二信息增益集合中的最大信息增益大于所述预设阈值,将所述最大信息增益对应的划分特征作为所述当前节点的目标划分特征,所述目标划分特征为所述发起方特征或所述参与方特征。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述当前节点的目标划分特征为所述发起方特征,向所述发起方设备发送第一节点划分信息,所述第一节点划分信息包括所述发起方特征的编号以及特征阈值。7.根据权利要求5所述的方法,其特征在于,所述方法还包括:若所述当前节点的目标划分特征为所述参与方特征,根据所述参与方特征的编号以及特征阈值,更新所述当前节点的子节点的样本集合,并生成所述当前节点的子节点的加密样本集合;向所述发起方设备发送第二节点划分信息,所述第二节点划分信息包括所述参与方特征的编号以及所述当前节点的子节点的加密样本集合。8.一种数据预测模型的创建方法,其特征在于,应用于发起方设备,所述方法包括:根据模型迭代参数、发起方设备已知的当前节点的样本集合以及参与方公钥,生成第一加密聚合值;所述模型迭代参数用于指示前i

1颗模型的样本标签预测值与真实值的差值的加密导数,所述第i颗模型是经过i次模型迭代的数据预测模型,所述i为正整数;所述第一加密聚合值用于指示采用样本的发起方特征划分所述加密样本集合的划分情况;根据发起方公钥加密所述模型迭代参数,得到加密模型迭代参数;向所述参与方设备发送所述加密模型迭代参数以及所述第一加密聚合值。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:接收来自所述参与方设备的...

【专利技术属性】
技术研发人员:苏莉娅杨恺黄志翔彭南博
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1