基于多方的隐私数据联合训练模型的方法和装置制造方法及图纸

技术编号：27006570 阅读：23 留言：0更新日期：2021-01-08 17:10

本说明书实施例提供一种基于多方的隐私数据联合训练模型的方法和装置，方法包括：多个第一方中的任一第一方利用本地第一对象集合中各对象的第一隐私数据和第一类别标签，以及其他第一方的第一隐私数据和第一类别标签，基于横向联邦学习的方式，得到第一子模型对应的多个第一方共享的第一参数集合；确定本地的第一对象集合与第二方具有的第二对象集合互相重叠的共同对象；利用本地的共同对象分别对应的第一隐私数据，以及第二方的第二隐私数据和第二类别标签，基于纵向联邦学习的方式，更新本地的第一子模型对应的第一参数集合；第二方得到其具有的第二子模型对应的第二参数集合。能够提高训练后得到的模型的预测准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于多方的隐私数据联合训练模型的方法和装置
本说明书一个或多个实施例涉及计算机领域，尤其涉及基于多方的隐私数据联合训练模型的方法和装置。
技术介绍
随着人工智能、机器学习的普遍进步，可以基于多方的隐私数据联合训练模型，利用训练后的模型执行相应的预测任务。数据在建模中占有极其重要的地位，更多维、更丰富的数据有利于建立更准确、效果更好的模型。数据分布于多方，存在一定隐私安全问题，多方之间无法获取其他方的隐私数据。由于隐私保护及数据壁垒等问题，很难在保护各方的隐私数据的前提下，安全、全面的利用多方的隐私数据联合训练模型，因此训练后得到的模型的预测准确率不佳。因此，希望能有改进的方案，能够安全、全面的利用多方的隐私数据联合训练模型，提高训练后得到的模型的预测准确率。
技术实现思路
本说明书一个或多个实施例描述了一种基于多方的隐私数据联合训练模型的方法和装置，能够安全、全面的利用多方的隐私数据联合训练模型，提高训练后得到的模型的预测准确率。第一方面，提供了一种基于多方的隐私数据联合训练模型的方法，所述多方包括第二方和多个第一方，所述多个第一方分别具有各自不同的第一对象集合中各对象的相同的第一特征项的第一隐私数据，以及相应的第一类别标签，所述多个第一方分别具有各自的第一子模型；所述第二方具有第二对象集合中各对象的第二特征项的第二隐私数据，以及相应的第二类别标签，所述第二对象集合与任一所述第一对象集合互相重叠，所述第二方具有第二子模型，所述方法由所述多个第一方中的任一第一方执行，方法包括：利用本...

【技术保护点】
1.一种基于多方的隐私数据联合训练模型的方法，所述多方包括第二方和多个第一方，所述多个第一方分别具有各自不同的第一对象集合中各对象的相同的第一特征项的第一隐私数据，以及相应的第一类别标签，所述多个第一方分别具有各自的第一子模型；所述第二方具有第二对象集合中各对象的第二特征项的第二隐私数据，以及相应的第二类别标签，所述第二对象集合与任一所述第一对象集合互相重叠，所述第二方具有第二子模型，所述方法由所述多个第一方中的任一第一方执行，所述方法包括：/n利用本地第一对象集合中各对象的第一隐私数据和相应的第一类别标签，以及所述多个第一方中的其他第一方的第一隐私数据和相应的第一类别标签，基于横向联邦学习的方式，对本地的所述第一子模型进行第一阶段的训练，得到所述第一子模型对应的所述多个第一方共享的第一参数集合；/n确定本地的第一对象集合与所述第二方具有的第二对象集合互相重叠的共同对象；/n利用本地的所述共同对象分别对应的第一隐私数据，以及所述第二方的第二隐私数据和相应的第二类别标签，基于纵向联邦学习的方式，对本地的所述第一子模型进行第二阶段的训练，更新本地的所述第一子模型对应的第一参数集合；所述第二...

【技术特征摘要】
1.一种基于多方的隐私数据联合训练模型的方法，所述多方包括第二方和多个第一方，所述多个第一方分别具有各自不同的第一对象集合中各对象的相同的第一特征项的第一隐私数据，以及相应的第一类别标签，所述多个第一方分别具有各自的第一子模型；所述第二方具有第二对象集合中各对象的第二特征项的第二隐私数据，以及相应的第二类别标签，所述第二对象集合与任一所述第一对象集合互相重叠，所述第二方具有第二子模型，所述方法由所述多个第一方中的任一第一方执行，所述方法包括：
利用本地第一对象集合中各对象的第一隐私数据和相应的第一类别标签，以及所述多个第一方中的其他第一方的第一隐私数据和相应的第一类别标签，基于横向联邦学习的方式，对本地的所述第一子模型进行第一阶段的训练，得到所述第一子模型对应的所述多个第一方共享的第一参数集合；
确定本地的第一对象集合与所述第二方具有的第二对象集合互相重叠的共同对象；
利用本地的所述共同对象分别对应的第一隐私数据，以及所述第二方的第二隐私数据和相应的第二类别标签，基于纵向联邦学习的方式，对本地的所述第一子模型进行第二阶段的训练，更新本地的所述第一子模型对应的第一参数集合；所述第二方得到其具有的第二子模型对应的第二参数集合。

2.如权利要求1所述的方法，其中，所述多个第一方的业务覆盖范围分别属于不同地域，且提供相同的业务类型；
所述第一方和所述第二方的业务覆盖范围包括同一地域，且提供不同的业务类型。

3.如权利要求1所述的方法，其中，所述第一类别标签和/或所述第二类别标签用于标识对象是否具有信用风险。

4.如权利要求1所述的方法，其中，所述对象为用户。

5.如权利要求1所述的方法，其中，所述基于横向联邦学习的方式，对本地的所述第一子模型进行第一阶段的训练，包括：
将本地第一对象集合中各对象的第一隐私数据作为所述第一子模型的输入，通过所述第一子模型输出第一预测类别；
根据各对象的第一预测类别和相应的第一类别标签，计算所述第一子模型的梯度；
将梯度进行加密，将加密后的梯度传输给服务器；以使所述服务器对从所述多个第一方分别接收到的加密后的梯度，通过安全聚合技术进行梯度聚合，得到聚合后的加密聚合梯度，再将加密聚合梯度分发给各个第一方；
从所述服务器接收所述加密聚合梯度，对所述加密聚合梯度解密，得到解密聚合梯度；
根据所述解密聚合梯度，确定所述第一子模型对应的所述多个第一方共享的第一参数集合。

6.如权利要求5所述的方法，其中，所述基于横向联邦学习的方式，对本地的所述第一子模型进行第一阶段的训练，还包括：
根据各对象的第一预测类别和相应的第一类别标签，确定第一预测损失；
当所述第一预测损失小于第一预设损失时，向所述服务器发送第一通知消息；
从所述服务器接收第二通知消息，所述第二通知消息用于通知所述多个第一方针对各自的第一子模型进行第一阶段的训练后的第一预测损失均小于第一预设损失；
确定第一阶段的训练完成。

7.如权利要求1所述的方法，其中，所述确定本地的第一对象集合与所述第二方具有的第二对象集合互相重叠的共同对象，包括：
利用本地的第一对象集合，以及所述第二方具有的第二对象集合，基于加密的实体关联技术，建立所述第一对象集合中的对象与所述第二对象集合中的对象的关联关系；
根据所述关联关系，确定所述互相重叠的共同对象。

8.如权利要求1所述的方法，其中，所述基于纵向联邦学习的方式，对本地的所述第一子模型进行第二阶段的训练，包括：
从合作方接收第一公钥，所述合作方还具有所述第一公钥对应的第一私钥；
将本地的所述共有对象分别对应的第一隐私数据输入所述第一子模型，通过所述第一子模型输出第一中间结果，对所述第一中间结果利用所述第一公钥进行加密后得到第一加密中间结果；
向所述第二方发送所述第一加密中间结果；以使所述第二方根据各共有对象的第一加密中间结果、第二加密中间结果和相应的第二类别标签确定第二加密预测损失；所述第二加密中间结果为所述第二方将本地的所述共有对象分别对应的第二隐私数据输入所述第二子模型，通过所述第二子模型输出第二中间结果，对所述第二中间结果利用所述第一公钥进行加密后得到的；
从所述第二方接收所述第二加密预测损失；根据所述第二加密预测损失，确定所述第一子模型的第一加密梯度；
将所述第一加密梯度发送给所述合作方，以使所述合作方利用所述第一私钥对所述第一加密梯度进行解密，得到第一解密梯度；
从所述合作方接收所述第一解密梯度，根据所述第一解密梯度，更新本地的所述第一子模型对应的第一参数集合。

9.如权利要求8所述的方法，其中，所述基于纵向联邦学习的方式，对本地的所述第一子模型进行第二阶段的训练，还包括：
从所述合作方接收第三通知消息，所述第三通知消息用于通知所述多个第一方针对各自的第一子模型进行第二阶段的训练后的第二预测损失均小于第二预设损失；所述第二预测损失为所述合作方从所述第二方接收所述第二加密预测损失，利用所述第一私钥对所述第二加密预测损失进行解密得到的；
确定第二阶段的训练完成。

10.一种基于多方的隐私数据联合训练模型的装置，所述多方包括第二方和多个第一方，所述多个第一方分别具有各自不同的第一对象集合中各对象的相同的第一特征项的第一隐私数据，以及相应的第一类别标签，所述多个第一方分别具有各自的第一子模型；所述第二方具有第二对象集合中各对象的第二特征项的第二隐私数据，以及相应的第二类别标签，所述第二对象集合与任一所述第一对象集合互相...

【专利技术属性】
技术研发人员：林晓彤，王维强，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人