【技术实现步骤摘要】
联邦学习模型的训练方法和调用方法以及联邦学习系统
[0001]本说明书实施例属于机器学习
,尤其涉及一种联邦学习模型的训练方法和调用方法以及联邦学习系统。
技术介绍
[0002]近年来,对联邦学习的研究受到了越来越多的关注。联邦学习是一种机器学习框架,其中用于训练模型的数据可以分布在多个参与者处,而联邦学习可以在不共享不同参与者的数据的情况下进行联合建模,从而能够在满足用户隐私保护、数据安全和政府法规等的要求下,更有效地使用数据。可以理解的是,每个参与者的数据有着十分重要的价值,而使这些数据的价值被更好地挖掘、流转和评价也有着十分重要的意义。因此,需要提供一种有效的方案来更好地实现和保护数据和模型的价值。
技术实现思路
[0003]本专利技术的目的在于提供一种联邦学习模型的训练方法和调用方法以及联邦学习系统,以更好地实现和保护数据和模型的价值。
[0004]根据本说明书一个或多个实施例的第一方面,提供了一种联邦学习模型的训练方法,其中,用于训练所述联邦学习模型的训练数据分布在多个参与者处,所述训
【技术保护点】
【技术特征摘要】
1.一种联邦学习模型的训练方法,其中,用于训练所述联邦学习模型的训练数据分布在多个参与者处,所述训练方法包括:获取所述多个参与者中的每个参与者的水印化训练数据集,其中,水印化训练数据集包括水印训练数据,每个参与者的水印训练数据的数据标识与其他参与者的水印训练数据的数据标识相对应,且所述多个参与者中的至少一个参与者的水印训练数据包括水印标签;以及基于所述多个参与者中的每个参与者的水印化训练数据集进行联邦学习训练,以分别产生每个参与者的作为所述联邦学习模型的一部分的碎片模型。2.根据权利要求1所述的训练方法,其中,获取所述多个参与者中的每个参与者的水印化训练数据集包括:从每个参与者提供的第一训练数据集中提取具有预设数据标识的训练数据,以产生该参与者的第二训练数据集;根据所述第二训练数据集来产生该参与者的第三训练数据集,其中,所述第三训练数据集中的每条训练数据的特征部分由对所述第二训练数据集中的相应的训练数据的特征部分进行水印化处理而产生,且当所述第二训练数据集中的训练数据包括所述联邦学习模型的标签部分时,所述第三训练数据集中的每条训练数据的标签部分由将所述第二训练数据集中的相应的训练数据的标签部分修改为水印标签而产生;以及将所述第三训练数据集与所述第一训练数据集的至少一部分合并为该参与者的水印化训练数据集。3.根据权利要求2所述的训练方法,其中,在所述多个参与者中,每个参与者的第二训练数据集中的训练数据的数目彼此相等。4.根据权利要求2所述的训练方法,其中,参与者的第二训练数据集中的训练数据的数目与该参与者的第一训练数据集中的训练数据的数目的比例在从5%至20%的范围内。5.根据权利要求2所述的训练方法,其中,参与者的第二训练数据集中的训练数据的数目与该参与者的第一训练数据集中的训练数据的数目的比例为10%。6.根据权利要求2所述的训练方法,其中,预设数据标识是从所述多个参与者中的每个参与者的第一训练数据集的训练数据中都具有的数据标识中随机选择的。7.根据权利要求2所述的训练方法,其中,所述第三训练数据集中的每条训练数据的特征部分由对所述第二训练数据集中的相应的训练数据的特征部分进行水印化处理而产生包括:将噪声与所述第二训练数据集中的训练数据的特征部分进行叠加,并将叠加的结果作为所述第三训练数据集中的相应的训练数据的特征部分;其中,噪声的维度、所述第二训练数据集中的训练数据的特征部分的维度和所述第三训练数据集中的训练数据的特征部分的维度彼此相等。8.根据权利要求7所述的训练方法,其中,噪声包括根据非训练数据而产生的噪声;或者噪声包括基于图像对抗算法而产生的噪声;或者噪声包括高斯噪声。9.根据权利要求1所述的训练方法,其中,当所述联邦学习模型为分类模型时,水印标
签被设置为对应于水印类型的标签。10.根据权利要求1所述的训练方法,其中,当所述联邦学习模型为回归模型时,水印标签被设置为对应于所述联邦学习模型的最小输出值或最大输出值的标签。11.根据权利要求1所述的训练方法,其中,基于所述多个参与者中的每个参与者的水印化训练数据集进行联邦学习训练,以分别产生每个参与者的作为所述联邦学习模型的一部分的碎片模型包括:基于所述多个参与者中的每个参与者的水印化训练数据集进行纵向联邦学习训练,以分别产生每个参与者的碎片模型。12.根据权利要求11所述的训练方法,其中,基于所述多个参与者中的每个参与者的水印化训练数据集进行纵向联邦学习训练,以分别产生每个参与者的碎片模型包括:从所述多个参与者中选择一个参与者作为第一聚合者;所述多个参与者中的每个参与者分别根据其水印化训练数据集中的训练数据的特征部分产生其初始的碎片模型;所述多个参与者中的每个参与者分别在其本地根据其训练数据和其碎片模型,产生其本地梯度数据;所述多个参与者中的每个参与者分别利用其第一公钥对其本地梯度数据进行加密,以产生其本地加密梯度数据;所述多个参与者中的不是所述第一聚合者的所有其他参与者分别将其本地加密梯度数据传输给所述第一聚合者;所述第一聚合者将所述多个参与者的所有本地加密梯度数据进行聚合,以产生聚合加密梯度数据,并将所述聚合加密梯度数据分别返回给所有其他参与者;所述多个参与者中的每个参与者分别利用其第一私钥对所述聚合加密梯度数据进行解密,以产生聚合梯度数据;所述多个参与者中的每个参与者分别基于其聚合梯度数据对其碎片模型进行更新;以及返回所述多个参与者中的每个参与者分别在其本地根据其训练数据和其碎片模型,产生其本地梯度数据的步骤,直至完成所述纵向联邦学习训练。13.根据权利要求12所述的训练方法,其中,所述第一聚合者是从所述多个参与者中随机选择的。14.根据权利要求11所述的训练方法,其中,基于所述多个参与者中的每个参与者的水印化训练数据集进行纵向联邦学习训练,以分别产生每个参与者的碎片模型包括:所述多个参与者中的每个参与者分别根据其水印化训练数据集中的训练数据的特征部分产生其初始的碎片模型;所述多个参与者中的每个参与者分别在其本地根据其训练数据和其碎片模型,产生其本地梯度数据;所述多个参与者中的每个参与者分别利用其第一公钥对其本地梯度数据进行加密,以产生其本地加密梯度数据;所述多个参与者中的每个参与者分别将其本地加密梯度数据传输给共享平台;所述共享平台将所述多个参与者的所有本地加密梯度数据进行聚合,以产生聚合加密
梯度数据,并将所述聚合加密梯度数据分别返回给每个参与者;所述多个参与者中的每个参与者分别利用其第一私钥对所述聚合加密梯度数据进行解密,以产生聚合梯度数据;所述多个参与者中的每个参与者分别基于其聚合梯度数据对其碎片模型进行更新;以及返回所述多个参与者中的每个参与者分别在其本地根据其训练数据和其碎片模型,产生其本地梯度数据的步骤,直至完成所述纵向联邦学习训练。15.根据权利要求12或14所述的训练方法,其中,每个参与者的相匹配的第一公钥和第一私钥由共享平台产生。16.根据权利要求15所述的训练方法,其中,第一公钥在相应的参与者对其本地梯度数据进行加密之前由所述共享平台传输给该参与者;并且第一私钥在所述聚合加密梯度数据被返回给相应的参与者之后,且在该参与者对所述聚合加密梯度数据进行解密之前由所述共享平台传输给该参与者。17.根据权利要求12或14所述的训练方法,其中,每个参与者的相匹配的第一公钥和第一私钥是基于同态加密算法而产生的;或者每个参与者的相匹配的第一公钥和第一私钥是基于秘密共享算法而产生的。18.根据权利要求12或14所述的训练方法,其中,将所述多个参与者的所有本地加密梯度数据进行聚合,以产生聚合加密梯度数据包括:对所述多个参与者的所有本地加密梯度数据进行加权平均,以产生所述聚合加密梯度数据。19.根据权利要求1所述的训练方法,在分别产生每个参与者的作为所述联邦学习模型的一部分的碎片模型之后,所述训练方法还包括:所述多个参与者中的每个参与者分别将其碎片模型传输给共享平台;所述共享平台分别利用相应的第二公钥对每个参与者的碎片模型进行加密,以产生该参与者的加密碎片模型;以及所述共享平台将每个参与者的加密碎片模型分别返回给相应的参与者,以供该参与者在其本地存储其加密碎片模型。20.根据权利要求1所述的训练方法,在分别产生每个参与者的作为所述联邦学习模型的一部分的碎片模型之后,所述训练方法还包括:所述多个参与者中的每个参与者分别利用其第二公钥对其碎片模型进行加密,以产生并在其本地存储其加密碎片模型。21.根据权利要求19或20所述的训练方法,其中,每个参与者的相匹配的第二公钥和第二私钥由共享平台产生,且第二私钥被存储在所述共享平台中。22.根据权利要求1所述的训练方法,在分别产生每个参与者的作为所述联邦学习模型的一部分的碎片模型之后,所述训练方法还包括:对所述多个参与者中的至少部分参与者的碎片模型进行聚合,以产生所述联邦学习模型。23.根据权利要求22所述的训练方法,在产生所述联邦学习模型之后,所述训练方法还包括:
共享平台测试并记录所述联邦学习模型的对具有水印标签的水印测试数据的水印识别准确率。24.一种联邦学习模型的调用方法,其中,所述联邦学习模型被配置为能够执行...
【专利技术属性】
技术研发人员:刘鹤洋,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。