【技术实现步骤摘要】
全匿联邦学习模型的训练方法、设备和存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种全匿联邦学习模型的训练方法、设备和存储介质。
技术介绍
[0002]随着信息化在人们生活方方面面普及,越来越多的数据在各种场景下生成,如商场的消费记录,打车的行程记录,看病的就诊记录等等。这些数据是个人隐私的一部分,极其敏感也极其有价值,为了使这些数据不外泄许多单位会选择不对外开放仅内部使用,这就产生了一个个“数据孤岛”。然而信息技术的发展依赖数据合理地开放使用,将多种单位数据的结合可以辅助许多产业的发展,如:医院患者病例数据和药品厂商的生产数据结合可以促进新药的研发,多个银行的流水数据结合使用可以辅助联合风控,保险公司保单数据和医院患者病例数据结合使用可以进行高效理赔等等。
[0003]联邦学习本质上是一种分布式机器学习框架,其做到了在保障数据隐私安全及合法合规的基础上,实现数据共享,共同建模。有了联邦学习技术的广泛使用,可以打破“数据孤岛”尴尬处境,让技术使用方在“数据不出门”的情况下和其他使用联合建模(即多方建模) ...
【技术保护点】
【技术特征摘要】
1.一种全匿联邦学习模型的训练方法,其特征在于,两个参与方包括第一参与方和第二参与方,所述训练方法应用于所述第一参与方,所述训练方法包括:获取第一对齐特征矩阵分片和第一对齐索引矩阵分片;将所述第一对齐特征矩阵分片和所述第一对齐索引矩阵分片输入改进的MPC XGBoost模型中的单方子模型进行训练得到全匿联邦学习模型中的全匿单方子模型;其中,多个所述单方子模型联合进行训练,所述第一对齐特征矩阵分片包括了碎片密态化的共同用户的信息,并且矩阵的行高与所述两个参与方中数据最少的样本量相同;所述第一对齐特征矩阵分片使得所述第一参与方中的共同用户对应的特征分片数据与所述第二参与方中的共同用户对应的特征分片数据对齐,并在密态计算中使得所述共同用户对应的特征分片数据相加为不变,使得非共同用户对应的特征分片数据相加为零。2.如权利要求1所述的全匿联邦学习模型的训练方法,其特征在于,所述获取第一对齐特征矩阵分片和第一对齐索引矩阵分片,包括:获取所述第一参与方的第一样本数据;对所述第一样本数据进行分片得到第一特征矩阵分片和第二特征矩阵分片,并将所述第二特征矩阵分片发送至所述两个参与方中的第二参与方;接收所述第二参与方发送的第三特征矩阵分片;获得第一求交结果分片;比较所述第一特征矩阵分片和所述第三特征矩阵分片的行高,以最小的行高作为对齐特征矩阵的行高,基于所述第一求交结果分片和所述第三特征矩阵分片通过MPC协议的乘法得到第三中间特征矩阵分片;对所述第一求交结果分片按行求和得到所述第一对齐索引矩阵分片;基于所述第一特征矩阵分片和所述第一对齐索引矩阵分片通过点乘得到第一中间特征矩阵分片;将所述第一中间特征矩阵分片和所述第三中间特征矩阵分片进行拼接得到所述第一对齐特征矩阵分片。3.如权利要求2所述的全匿联邦学习模型的训练方法,其特征在于,所述获得第一求交结果分片,包括:获取第一求交数据集合,其中,所述第一求交数据集合包括所述第一参与方的用户数据;将所述第一求交数据集合进行分片得到第一分片和第二分片,其中,所述第一分片和所述第二分片均保留所述第一求交数据集合中每一条数据的一部分信息;将所述第二分片发送至第二参与方,并接收所述第二参与方发送的第三分片,其中,所述第三分片是第二求交数据集合的一个分片,所述第二求交数据集合包括所述第二参与方的用户数据;基于所述第一分片和所述第三分片通过MPC协议的比较得到第一求交结果分片,其中,所述第一求交结果分片以碎片信息的形式指示所述第一参与方和所述第二参与方的交集用户。4.如权利要求3所述的全匿联邦学习模型的训练方法,其特征在于,所述基于所述第一分片和所述第三分片通过MPC协议的比较得到第一求交结果分片,包括:
将所述第一分片和所述第三分片中每一位置上的数值进行两两比较是否相等得到所述第一求交结果分片;其中,所述第一分片为矩阵;其中,若相等则将所述第一求交结果分片的对应位置设置为一;若不相等则将所述第一求交结果分片的对应位置设置为零。5.如权利要求2所述的全匿联邦学习模型的训练方法,其特征在于,在训练过程中,所述单方子模型执行以下步骤:获取随机种子、第一预测值分片和第一标签分片;执行构建树的迭代直至满足迭代停止条件。6.如权利要求5所述的全匿联邦学习模型的训练方法,其特征在于,在所述构建树的迭代中,所述单方子模型执行以下步骤:对所述第一对齐特征矩阵分片进行按行样本采样得到第一采样特征矩阵分片;基于所述第一预测值分片和所述第一标签分页通过MPC协议的密态计算得到第一初始一阶导数分片和第一初始二阶导数分片;基于所述第一初始一阶导数分片、所述第一初始二阶导数分片和所述第一对齐特征矩阵分片通过MPC协议的点乘得到第一最终一阶导数分片和第一最终二阶导数分片;基于所述第一采样特征矩阵分片通过MPC协议的密态计算得到第一最大值转置分片和第一最小值转置分片;获取第一辅助计算矩阵分片;基于所述第一最大值转...
【专利技术属性】
技术研发人员:陈立峰,卞阳,尤志强,王兆凯,
申请(专利权)人:北京富算科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。