【技术实现步骤摘要】
纵向联邦学习的建模方法、装置、存储介质以及电子设备
[0001]本专利技术涉及计算机领域,具体而言,涉及一种纵向联邦学习的建模方法、装置、存储介质以及电子设备。
技术介绍
[0002]业务方在纵向联邦学习中做分类模型时,常见的做法:业务方将正负样本ID数据托管给协调方,协调方生成公钥和私钥,并将公钥发送给各数据提供方;各数据提供方使用公钥对各自本地的ID数据进行加密,上传给协调方;协调方先将业务方托管的正负样本数据使用公钥进行加密,再跟收集来的加密ID进行隐私计算求交,即可得到对齐的共有加密ID;将共有的加密ID数据返回给各数据提供方,各数据提供方对上述数据进行特征匹配,以及模型的构建。上述方法存在两点缺点,一是业务方在做分类模型的时候都会提供正负样本数据,不同的数据提供方根据正负样本数据来匹配特征,但是在许多行业中,业务方只有正样本,并不知道负样本数据,如何在负样本缺失且保证安全的情况下,完成不同数据提供方的正负样本数据的对齐成为一个问题;二是不同的数据提供方需要将本地的全量ID数据进行加密,并上传到协调方进行多方的数据求 ...
【技术保护点】
【技术特征摘要】
1.一种纵向联邦学习的建模方法,其特征在于,应用于协调方,包括:将公钥和部分加密正样本ID发送至每一个提供方,以使所述每一个提供方根据所述部分加密正样本ID和所述每一个提供方各自的全量ID进行匹配,得到加密候选集合并发送至所述协调方;根据所有所述加密候选集合确定共有加密候选集合;根据所述加密正样本ID和共有加密候选集合,确定共有加密正样本ID;根据所述共有加密候选集合和所述共有加密正样本ID,得到共有加密负样本ID,并将所述共有加密负样本ID发送至所述每一个提供方。2.根据权利要求1所述的方法,其特征在于,在将公钥和部分加密正样本ID发送至每一个提供方之前,所述方法还包括:获取业务方的正样本ID;生成所述公钥和私钥;使用所述公钥对所述正样本ID进行加密,得到所述加密正样本ID;将所述加密正样本ID的前N位确定为所述部分加密正样本ID。3.根据权利要求1所述的方法,其特征在于,所述根据所述共有加密候选集合和所述共有加密正样本ID,得到共有加密负样本ID包括:在所述共有加密候选集合中去除所述共有加密正样本ID,得到所述共有加密负样本ID。4.根据权利要求1所述的方法,其特征在于,在将所述共有加密负样本ID发送至所述每一个提供方之后,所述方法还包括:初始化逻辑回归模型;对所述逻辑回归模型进行训练,包括:执行如下步骤,直到所述逻辑回归模型的识别率达到目标阈值:接收所述每一个提供方发出的加密内积,其中,所述加密内积由所述每一个提供方根据本地的数据和所述逻辑回归模型的参数进行计算,并使用所述公钥进行加密得到;使用半同态加密技术对每一个所述加密内积进行处理,得到加密残差数据;将所述加密残差数据发送至所述每一个提供方,以使所述每一个提供方根据所述加密残差数据计算得到第一加密梯度,并将所述第一加密梯度与各自的随机数相加,得到第二加密梯度;在接收到所述每一个提供方发出的所述第二加密梯度之后,通过私钥对每一个所述第二加密梯度进行解密,得到与每一个所述第二加密梯度对应的第一梯度;将每一个所述第一梯度发送至与所述第一梯度对应的提供方,以使所述每一个提供方将对应的所述第一梯度减去各自的随机数,得到第二梯度,并根据所述第二梯度更新所述参数。5.根据权利要求4所述的方法...
【专利技术属性】
技术研发人员:高雅,潘峰,赵立超,
申请(专利权)人:浙江明日数据智能有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。