纵向联邦建模方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：26651301 阅读：32 留言：0更新日期：2020-12-09 00:52

本发明专利技术公开了一种纵向联邦建模方法，包括以下步骤：第一参与方确定多方重叠样本，并获取多方联邦计算中间参数；第一参与方确定双方重叠样本，并获取双方联邦计算中间参数；第一参与方基于本地样本、多方联邦计算中间参数以及各个所述双方联邦计算中间参数，计算中间梯度以及各个双方联邦计算中间梯度并执行模型更新操作。本发明专利技术还公开了一种纵向联邦建模装置、设备及计算机可读存储介质。本发明专利技术通过增加双方重叠样本的训练过程，以在各个参与方所共同拥有的重叠样本数量较少时，训练出性能优良的模型，通过中间参数进行数据交互，能够完全阻止信息泄漏，提高联邦学习中数据的安全性。

全部详细技术资料下载

【技术实现步骤摘要】
纵向联邦建模方法、装置、设备及计算机可读存储介质
本专利技术涉及联邦学习
，尤其涉及一种纵向联邦建模方法、装置、设备及计算机可读存储介质。
技术介绍
联邦学习是为了在保护数据隐私的情况下利用多个参与方的数据建立的机器学习模型，其中，纵向联邦学习利用多个参与方所拥有的重叠样本的不同特征来建立机器学习模型。参照图1，图1为具有3个参与方的纵向联邦学习的样本和特征视图，将来自参与方A、参与方B和参与方C的数据集通过样本对齐的方式聚合成一个大的虚拟数据集，则参与方A、参与方B和参与方C各自拥有该虚拟数据集纵向划分的一部分，其中，对齐的样本为参与方A、参与方B和参与方C的重叠样本，也就是说，参与方A、参与方B和参与方C分别拥有重叠样本的不同特征。然而，当重叠样本不够充分时纵向联邦学习很难建立起性能良好的机器学习模型，这在一定程度上限制了纵向联邦学习应用于更广泛的场景。目前，往往通过联邦迁移学习或者半监督学习解决当重叠样本不够充分的问题。联邦迁移学习利用源领域中所拥有的充足数据资源为目标领域建立一个表现良好的预测模型，但通过联邦迁移学习建立的模型只能对目标领域的数据进行预测，而不能对所有参与方的数据进行标签预测，也就是说，通过联邦迁移学习建立的模型并不能适用于所有参与方。半监督学习可以通过对缺失特征(或特征表征)和标签的补全来提高模型性能，然而，在联邦学习下的半监督学习通常需要参与方之间复杂的交互，从而导致数据隐私的保护上存在隐患，无法有效的保护数据隐私。上述内容仅用于辅助理解本专利技术的技术方案，并不代表...

【技术保护点】
1.一种纵向联邦建模方法，其特征在于，所述纵向联邦建模方法包括以下步骤：/n第一参与方确定第一参与方与各个第二参与方之间的多方重叠样本，并基于多方重叠样本获取各个第二参与方对应的多方联邦计算中间参数；/n第一参与方确定各个第二参与方与第一参与方之间的双方重叠样本，并基于双方重叠样本分别获取各个第二参与方对应的双方联邦计算中间参数；/n第一参与方基于第一参与方的本地样本、多方联邦计算中间参数以及各个所述双方联邦计算中间参数，确定单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度，基于所述单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度并执行模型更新操作。/n

【技术特征摘要】
1.一种纵向联邦建模方法，其特征在于，所述纵向联邦建模方法包括以下步骤：
第一参与方确定第一参与方与各个第二参与方之间的多方重叠样本，并基于多方重叠样本获取各个第二参与方对应的多方联邦计算中间参数；
第一参与方确定各个第二参与方与第一参与方之间的双方重叠样本，并基于双方重叠样本分别获取各个第二参与方对应的双方联邦计算中间参数；
第一参与方基于第一参与方的本地样本、多方联邦计算中间参数以及各个所述双方联邦计算中间参数，确定单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度，基于所述单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度并执行模型更新操作。

2.如权利要求1所述的纵向联邦建模方法，其特征在于，所述第一参与方基于第一参与方的本地样本、多方联邦计算中间参数以及各个所述双方联邦计算中间参数，确定单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度，基于所述单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度并执行模型更新操作的步骤包括：
第一参与方基于第一参与方的本地样本确定单方损失值，基于第一参与方的本地样本和所述多方联邦计算中间参数确定多方计算损失值，并基于第一参与方的本地样本和各个所述双方联邦计算中间参数确定各个双方计算损失值；
第一参与方分别基于所述单方损失值、所述各个双方计算损失值以及所述多方计算损失值，确定单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度，并基于所述单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度并执行模型更新操作。

3.如权利要求2所述的纵向联邦建模方法，其特征在于，所述基于第一参与方的本地样本和所述多方联邦计算中间参数确定多方计算损失值的步骤包括：
第一参与方将第一参与方的本地样本中的多方重叠样本输入第一参与方的特征提取模型，以获得多方重叠样本的特征表征，将所述多方重叠样本的特征表征、样本标签以及所述多方联邦计算中间参数输入多方联邦模型的第一多方分类模型计算得到所述多方计算损失值。

4.如权利要求2所述的纵向联邦建模方法，其特征在于，所述基于第一参与方的本地样本和各个所述双方联邦计算中间参数确定各个双方计算损失值的步骤包括：
第一参与方将第一参与方的本地样本中的各个双方重叠样本输入第一参与方的特征提取模型，以获得各个双方重叠样本的特征表征，将所述各个双方重叠样本的特征表征、样本标签以及各个所述双方联邦计算中间参数输入对应的各个双方联邦模型的第一双方分类模型计算得到所述各个双方计算损失值。

5.如权利要求2所述的纵向联邦建模方法，其特征在于，所述第一参与方基于第一参与方的本地样本确定单方损失值的步骤包括：
第一参与方将第一参与方的本地样本输入第一参与方的特征提取模型，以获得第一特征表征，将所述第一特征表征以及样本标签，输入单方分类模型计算得到所述单方损失值。

6.如权利要求2至5任一项所述的纵向联邦建模方法，其特征在于，所述第一参与方分别基于所述单方损失值、所述各个双方计算损失值以及所述多方计算损失值，确定单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度，并基于所述单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度并执行模型更新操作的步骤包括：
第一参与方基于所述单方损失值计算得到单方梯度，并基于单方梯度，更新第一参与方的单方分类模型；
第一参与方基于所述多方计算损失值计算得到多方联邦计算中间梯度；基于多方联邦计算中间梯度，更新多方联邦分类模型的第一多方分类模型；
第一参与方基于所述各个双方计算损失值计算得到各个双方联邦计算中间梯度；基于各个双方联邦计算中间梯度，对应更新各个双方联邦分类模型的第一双方分类模型；
第一参与方基于单方梯度、多方联邦计算中间梯度以及各个双方联邦计算中间梯度，更新第一参与方的特征提...

【专利技术属性】
技术研发人员：康焱，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人