一种纵向联邦学习方法、装置、系统、设备及存储介质制造方法及图纸

技术编号:33782916 阅读:11 留言:0更新日期:2022-06-12 14:37
本公开提供了一种纵向联邦学习方法、装置、系统、设备及存储介质,该方法包括:第一数据方基于掩码矩阵计算噪声矩阵,将残差向量与噪声矩阵的乘积确定为加噪残差向量,并将该加噪残差向量发送至第二数据方。第二数据方基于加噪残差向量计算梯度向量,以更新模型参数。本公开中第一数据方通过为第二数据方计算噪声矩阵,并基于噪声矩阵为残差向量加密的方式,保证第一数据方计算得到的残差向量不会被第二数据方获取,达到了保护第一数据方的样本中标签隐私的目的。另外,通过噪声矩阵对残差向量加密的方式计算开销较小,因此,本公开能够在保证数据隐私的基础上,提高纵向联邦学习的效率。的效率。的效率。

【技术实现步骤摘要】
一种纵向联邦学习方法、装置、系统、设备及存储介质


[0001]本公开涉及机器学习领域,尤其涉及一种纵向联邦学习方法、装置、系统、设备及存储介质。

技术介绍

[0002]联邦学习是一种面向隐私保护的分布式机器学习技术,用于解决当隐私数据存在于多个独立数据方时,如何在保护各数据方安全的前提下,联合各方数据共同训练一个全局模型的问题。其中,联邦学习包括横向联邦、纵向联邦和联邦迁移。
[0003]纵向联邦学习,是将各数据方的数据集按照纵向(即特征维度)切分,并取出各数据集中样本标识相同而特征不完全相同的那部分数据共同训练一个全局模型。纵向联邦学习尤其适用于来自于金融、社交、游戏、教育等多方数据服务于某一业务方标签的场景。例如,金融借贷公司C可以基于社交媒体公司A和网络教育公司B的数据,以及自身数据和违约记录标签进行纵向联邦学习,联合训练出全局模型,训练出的全局模型可以用于金融借贷公司C进行违约预测,便于金融借贷公司C基于预测结果做后续决策,降低坏账率等等。
[0004]参与纵向联邦学习的各数据方均是抱着共享数据、但不暴露己方数据的目的加入到联邦学习的,所以任何敏感数据都必须经过加密才能出己方信任域,因而纵向联邦学习引入了同态加密算法。虽然同态加密为密文计算提供了可行性,但是同态加密的计算开销较大,也同时影响了机器学习算法的性能,导致纵向联邦学习的效率较低。因此,如何在保证各方隐私数据安全的前提下,提高纵向联邦学习的效率,是目前亟需解决的技术问题。

技术实现思路

[0005]为了解决上述技术问题,本公开实施例提供了一种纵向联邦学习方法,能够在保证各方隐私数据安全的前提下,提高纵向联邦学习的效率。
[0006]第一方面,本公开提供了一种纵向联邦学习方法,所述方法包括:
[0007]接收纵向联邦学习系统中的第二数据方发送的与第三样本集合对应的掩码矩阵;其中,所述第三样本集合为基于对所述第二数据方的第二样本集合的拆分得到,所述第二样本集合中的训练样本与本地的第一样本集合中具有标签的训练样本具有对应关系;
[0008]基于所述第三样本集合对应的掩码矩阵,计算所述第三样本集合对应的噪声矩阵;其中,所述噪声矩阵由与所述第三样本集合中的每个训练样本对应的噪音量构成,所述噪音量用于加噪处理;
[0009]确定所述第三样本集合对应的残差向量,并将所述残差向量与所述第三样本集合对应的噪声矩阵的乘积,确定为所述第三样本集合对应的加噪残差向量;其中,所述残差向量中包括所述第三样本集合中的训练样本的标签值与当前预测值之间的差值;
[0010]将所述第三样本集合对应的加噪残差向量发送至所述第二数据方;其中,所述第二数据方用于基于所述加噪残差向量计算梯度向量,并基于所述梯度向量更新所述第二数据方对应的模型参数,得到所述第二数据方对应的更新后模型参数。
[0011]一种可选的实施方式中,所述基于所述第三样本集合对应的掩码矩阵,计算所述第三样本集合对应的噪声矩阵,包括:
[0012]计算所述第三样本集合对应的掩码矩阵与所述掩码矩阵的转置矩阵的乘积;
[0013]将单位矩阵与所述乘积的差值,确定为所述第三样本集合对应的噪声矩阵。
[0014]一种可选的实施方式中,所述确定所述第三样本集合对应的残差向量,包括:
[0015]从所述第一样本集合中确定与所述第二样本集合中的第二训练样本具有对应关系的第一训练样本;
[0016]基于所述第一训练样本对应的线性预测器、所述第二训练样本对应的线性预测器以及所述第一训练样本对应的标签值,确定所述第一训练样本对应的当前残差;其中,所述第二训练样本对应的线性预测器由所述第二数据方确定并发送至所述第一数据方;
[0017]基于所述第一训练样本对应的当前残差,确定所述第一样本集合对应的残差向量;
[0018]从所述第一样本集合对应的残差向量中,确定所述第三样本集合对应的残差向量。
[0019]一种可选的实施方式中,所述第三样本集合为基于样本标识对所述第二数据方的第二样本集合进行拆分得到。
[0020]一种可选的实施方式中,所述第三样本集合中包括多媒体数据训练样本、音频数据训练样本、视频数据训练样本、图像数据训练样本、文本数据训练样本中的一种或者多种组合。
[0021]第二方面,本公开提供了一种纵向联邦学习方法,所述方法包括:
[0022]基于本地的第二样本集合确定第三样本集合,并计算所述第三样本集合对应的掩码矩阵;
[0023]将所述第三样本集合对应的掩码矩阵发送至纵向联邦学习系统中的第一数据方;其中,所述第一数据方用于基于所述掩码矩阵确定所述第三样本集合对应的加噪残差向量,所述第一数据方内存储的第一样本集合中包括具有标签的训练样本,所述第一样本集合中具有标签的训练样本与所述第二样本集合中的训练样本具有对应关系;
[0024]获取来自所述第一数据方的所述加噪残差向量,并基于所述加噪残差向量计算梯度向量;
[0025]基于所述梯度向量更新本地的模型参数,得到更新后模型参数。
[0026]一种可选的实施方式中,所述基于本地的第二样本集合确定第三样本集合,包括:
[0027]基于样本标识对本地的第二样本集合进行拆分,得到第三样本集合。
[0028]一种可选的实施方式中,所述基于样本标识对本地的第二样本集合进行拆分,得到第三样本集合,包括:
[0029]基于样本标识对本地的第二样本集合中的训练样本进行排序,得到排序后的第二样本集合;
[0030]对所述排序后的第二样本集合进行拆分,得到第三样本集合。
[0031]一种可选的实施方式中,所述计算所述第三样本集合对应的掩码矩阵,包括:
[0032]为所述第三样本集合对应的矩阵执行QR分解,得到Q矩阵和R矩阵;其中,所述Q矩阵和R矩阵的乘积为所述第三样本集合对应的矩阵,所述Q矩阵的行和列的数量相同,且等
于所述第三样本集合对应的矩阵的行数量;
[0033]将所述Q矩阵的前m列去除后,从所述Q矩阵中获取g列构成所述第三样本集合对应的掩码矩阵;其中,m为所述第三样本集合对应的矩阵的列数量,所述g为预设正整数。
[0034]第三方面,本公开提供了一种纵向联邦学习系统,所述纵向联邦学习系统包括第一数据方和至少一个第二数据方,所述第一数据方的第一样本集合中具有标签的训练样本与所述第二数据方的第二样本集合中的训练样本具有对应关系;
[0035]所述第二数据方,用于基于所述第二样本集合确定第三样本集合,并计算所述第三样本集合对应的掩码矩阵,以及将所述第三样本集合对应的掩码矩阵发送至所述第一数据方;
[0036]所述第一数据方,用于基于所述第三样本集合对应的掩码矩阵,计算所述第三样本集合对应的噪声矩阵,确定所述第三样本集合对应的残差向量,并将所述残差向量与所述第三样本集合对应的噪声矩阵的乘积,确定为所述第三样本集合对应的加噪残差向量,以及将所述第三样本集合对应的加本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种纵向联邦学习方法,其特征在于,所述方法包括:接收纵向联邦学习系统中的第二数据方发送的与第三样本集合对应的掩码矩阵;其中,所述第三样本集合为基于对所述第二数据方的第二样本集合的拆分得到,所述第二样本集合中的训练样本与本地的第一样本集合中具有标签的训练样本具有对应关系;基于所述第三样本集合对应的掩码矩阵,计算所述第三样本集合对应的噪声矩阵;其中,所述噪声矩阵由与所述第三样本集合中的每个训练样本对应的噪音量构成,所述噪音量用于加噪处理;确定所述第三样本集合对应的残差向量,并将所述残差向量与所述第三样本集合对应的噪声矩阵的乘积,确定为所述第三样本集合对应的加噪残差向量;其中,所述残差向量中包括所述第三样本集合中的训练样本的标签值与当前预测值之间的差值;将所述第三样本集合对应的加噪残差向量发送至所述第二数据方;其中,所述第二数据方用于基于所述加噪残差向量计算梯度向量,并基于所述梯度向量更新所述第二数据方对应的模型参数,得到所述第二数据方对应的更新后模型参数。2.根据权利要求1所述的方法,其特征在于,所述基于所述第三样本集合对应的掩码矩阵,计算所述第三样本集合对应的噪声矩阵,包括:计算所述第三样本集合对应的掩码矩阵与所述掩码矩阵的转置矩阵的乘积;将单位矩阵与所述乘积的差值,确定为所述第三样本集合对应的噪声矩阵。3.根据权利要求1所述的方法,其特征在于,所述确定所述第三样本集合对应的残差向量,包括:从所述第一样本集合中确定与所述第二样本集合中的第二训练样本具有对应关系的第一训练样本;基于所述第一训练样本对应的线性预测器、所述第二训练样本对应的线性预测器以及所述第一训练样本对应的标签值,确定所述第一训练样本对应的当前残差;其中,所述第二训练样本对应的线性预测器由所述第二数据方确定并发送至所述第一数据方;基于所述第一训练样本对应的当前残差,确定所述第一样本集合对应的残差向量;从所述第一样本集合对应的残差向量中,确定所述第三样本集合对应的残差向量。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述第三样本集合为基于样本标识对所述第二数据方的第二样本集合进行拆分得到。5.根据权利要求1所述的方法,其特征在于,所述第三样本集合中包括多媒体数据训练样本、音频数据训练样本、视频数据训练样本、图像数据训练样本、文本数据训练样本中的一种或者多种组合。6.一种纵向联邦学习方法,其特征在于,所述方法包括:基于本地的第二样本集合确定第三样本集合,并计算所述第三样本集合对应的掩码矩阵;将所述第三样本集合对应的掩码矩阵发送至纵向联邦学习系统中的第一数据方;其中,所述第一数据方用于基于所述掩码矩阵确定所述第三样本集合对应的加噪残差向量,所述第一数据方内存储的第一样本集合中包括具有标签的训练样本,所述第一样本集合中具有标签的训练样本与所述第二样本集合中的训练样本具有对应关系;获取来自所述第一数据方的所述加噪残差向量,并基于所述加噪残差向量计算梯度向
量;基于所述梯度向量更新本地的模型参数,得到更新后模型参数。7.根据权利要求6所述的方法,其特征在于,所述基于本地的第二样本集合确定第三样本集合,包括:基于样本标识对本地的第二样本集合进行拆分,得到第三样本集合。8.根据权利要求7所述的方法,其特征在于,所述基于样本标识对本地的第二样本集合进行拆分,得到第三样本集合,包括:基于样本标识对本地的第二样本集合中的训练样本进行排序,得到排序后的第二样本集合;对所述排序后的第二样本集合进行拆分,得到第三样本集合。9.根据权利要求6

8中任一项所述的方法,其特征在于,所述计算所述第三样本集合对应的掩码矩阵,包括:为所述第三样本集合对应的矩阵执行QR分解,得到Q矩阵和R矩阵;其中,所述Q矩阵和R矩阵的乘积为所述第三样本集合对应的矩阵,所述Q矩阵的行和列的数量相同,且等于所述第三样本集合对应的矩阵的行数量;将所述...

【专利技术属性】
技术研发人员:贺培轩张尧刘洋吴烨
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1