一种用户标签数据预测系统、方法、装置及电子设备制造方法及图纸

技术编号：26731507 阅读：22 留言：0更新日期：2020-12-15 14:34

本发明专利技术公开了一种用户标签数据预测系统和方法，第一客户端获取目标用户的第一标识数据和第一特征数据组，针对每个第二客户端，预测第一特征数据组在该第二客户端的第二预测特征数据组，将第一标识数据和第二预测特征数据组的加密数据发送给该第二客户端；利用训练得到的联邦学习模型参数，获得第一特征数据组的第一加密加权值并发送给服务端；每个第二客户端利用接收到的加密数据，确定目标用户在该第二客户端的第二目标特征数据组，利用训练得到的联邦学习模型参数，获得第二目标特征数据组的第二加密加权值并发送给服务端；服务端对接收到的第一加密加权值和第二加密加权值求和，对求和结果解密得到目标用户的目标标签数据并返回给第一客户端。

全部详细技术资料下载

【技术实现步骤摘要】
一种用户标签数据预测系统、方法、装置及电子设备
本专利技术属于隐私保护领域，具体涉及一种用户标签数据预测系统、方法、装置及电子设备。
技术介绍
人工智能技术的发展和应用离不开数据的利用，但由于隐私安全和复杂的管理程序，将分散在不同机构的数据进行整合几乎是不可能的，各机构的数据以“数据孤岛”的形式存在。在这种情况下，“联邦学习”的概念应运而生。联邦学习实际上是一种加密的分布式机器学习技术，各参与方可以在不披露底层数据的前提下共建联邦学习模型。联邦学习能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，解决“数据孤岛”的问题。目前，联邦学习各参与方可以利用联邦学习模型，实现对用户标签数据的预测，比如，拥有部分共有用户的两家教育机构利用纵向联邦学习模型对用户是否掌握某一知识进行预测，等等。但是，在实际应用中，由于参与方地域和机构类型不同等原因，纵向联邦学习各个参与方的用户群体交集通常很小，各参与方共有的用户数据极其有限，在少量的共有用户数据集上训练得到的联邦学习模型对于标签数据的预测效果并不理想。
技术实现思路
为了有效解决使用纵向联邦学习进行用户标签数据预测时，共有用户数据集不足的问题，本专利技术实施例提供了一种用户标签数据预测系统、方法、装置、电子设备、存储介质以及一种联邦学习模型训练方法。本专利技术要解决的技术问题通过以下技术方案实现：本专利技术实施例提供了一种用户标签数据预测系统，包括第一客户端、至少一个第二客户端...

【技术保护点】
1.一种用户标签数据预测系统，其特征在于，包括第一客户端、至少一个第二客户端，以及服务端：/n所述第一客户端，用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组，针对每个第二客户端，利用所述第一客户端的对偶模型，预测所述第一特征数据组在该第二客户端的第二预测特征数据组，将所述第一标识数据和所述第二预测特征数据组的加密数据发送给该第二客户端；并且，利用所述第一客户端训练得到的联邦学习模型参数，获得所述第一特征数据组的第一加密加权值，并将所述第一加密加权值发送给所述服务端；/n每个第二客户端，用于利用接收到的加密数据，确定所述目标用户在该第二客户端的第二目标特征数据组，利用该第二客户端训练得到的联邦学习模型参数，获得所述第二目标特征数据组的第二加密加权值，并将所述第二加密加权值发送给所述服务端；/n所述服务端，用于对接收到的所述第一加密加权值和所述第二加密加权值求和，并对求和结果进行解密，得到所述目标用户的目标标签数据，并将所述目标标签数据返回给所述第一客户端；/n其中，所述第一客户端、所述至少一个第二客户端各自拥有预先训练的对偶模型；所述服务端拥有预先训练的联邦学习模型；所述...

【技术特征摘要】
1.一种用户标签数据预测系统，其特征在于，包括第一客户端、至少一个第二客户端，以及服务端：
所述第一客户端，用于获取待预测标签数据的目标用户的第一标识数据和第一特征数据组，针对每个第二客户端，利用所述第一客户端的对偶模型，预测所述第一特征数据组在该第二客户端的第二预测特征数据组，将所述第一标识数据和所述第二预测特征数据组的加密数据发送给该第二客户端；并且，利用所述第一客户端训练得到的联邦学习模型参数，获得所述第一特征数据组的第一加密加权值，并将所述第一加密加权值发送给所述服务端；
每个第二客户端，用于利用接收到的加密数据，确定所述目标用户在该第二客户端的第二目标特征数据组，利用该第二客户端训练得到的联邦学习模型参数，获得所述第二目标特征数据组的第二加密加权值，并将所述第二加密加权值发送给所述服务端；
所述服务端，用于对接收到的所述第一加密加权值和所述第二加密加权值求和，并对求和结果进行解密，得到所述目标用户的目标标签数据，并将所述目标标签数据返回给所述第一客户端；
其中，所述第一客户端、所述至少一个第二客户端各自拥有预先训练的对偶模型；所述服务端拥有预先训练的联邦学习模型；所述联邦学习模型是所述第一客户端和所述至少一个第二客户端作为参与训练的目标客户端，经过加密对偶训练扩展共有用户数据集后，借助所述服务端进行联邦学习得到的；且参与训练的目标客户端中，有一个目标客户端用于联邦学习模型训练的用户数据中包括标签数据。

2.根据权利要求1所述的系统，其特征在于，所述利用接收到的加密数据，确定所述目标用户在该第二客户端的第二目标特征数据组，包括：
每个第二客户端，利用所述第一标识数据的加密数据，判断该第二客户端是否存在所述第一标识数据；
如果是，将该第二客户端中所述第一标识数据对应的特征数据组确定为所述目标用户在该第二客户端的第二目标特征数据组，如果否，对接收到的所述第二预测特征数据组的加密数据进行解密，得到所述第二预测特征数据组，并将所述第二预测特征数据组确定为所述目标用户在该第二客户端的第二目标特征数据组。

3.根据权利要求1所述的系统，其特征在于，所述联邦学习模型的训练过程包括：
参与联邦学习模型训练的多个目标客户端分别获取各自的用户数据；所述用户数据包括标识数据和特征数据组，且有一个目标客户端的用户数据还包括标签数据；
所述多个目标客户端确定共有用户，得到共有用户数据集；
所述多个目标客户端基于所述共有用户数据集进行加密对偶学习，将各个目标客户端的标识数据增加至所述多个目标客户端的标识数据的并集，并补全各个目标客户端的特征数据组，得到所述多个目标客户端扩展的共有用户数据集；
所述多个目标客户端基于所述扩展的共有用户数据集，在所述服务端的协助下，进行联邦学习模型训练，直至达到联邦学习模型收敛条件，获得训练完成的联邦学习模型。

4.根据权利要求3所述的系统，其特征在于，所述多个目标客户端基于所述共有用户数据集进行加密对偶学习，将各个目标客户端的标识数据增加至所述多个目标客户端的标识数据的并集，并补全各个目标客户端的特征数据组，得到所述多个目标客户端扩展的共有用户数据集，包括：
所述多个目标客户端各自建立对偶模型，所述对偶模型用于预测本目标客户端用户的特征数据组在其他目标客户端的特征数据组；
所述多个目标客户端将所述共有用户数据集划分为训练集和测试集，并对所述训练集中属于本目标客户端的用户数据进行加密，得到所述多个目标客户端各自的加密用户数据；
所述多个目标客户端迭代性地基于各自的加密用户数据和对偶模型，进行对偶预测、梯度数据计算，并加密互传各自的计算结果，更新各自的对偶模型参数，直至利用所述训练集和所述测试集进行联邦对偶交叉验证，判定满足对偶模型收敛条件时停止迭代，获得各自训练完成的对偶模型；
所述多个目标客户端利用各自训练完成的对偶模型进行相互预测，获得各自补充后的标识数据，所述补充后的标识数据为所述多个目标客户端的标识数据的并集；以及，通过预测本目标客户端的特征数据组在其他目标客户端的特征数据组，获得所述多个目标客户端各自补全的特征数据组；
根据所述多个目标客户端各自的所述补充后的标识数据和所述补全的特征数据组，得到所述多个目标客户端扩展的共有用户数据集。

5.根据权利要求4所述的系统，其特征在于，所述更新各自的对偶模型参数，包括：
所述多个目标客户端分别基于接收到的计算结果，获得各自的损失函数的梯度值；
所述多个目标客户端分别利用各自的损失函数的梯度值，更新各自的对偶模型参数。

6.根据权利要求4所述的系统，其特征在于，所述利用所述训练集和所述测试集进行联邦对偶交叉验证，包括：
所述多个目标客户端中，含有标签数据的目标客户端，从自身多个用户数据中选取含有标签数据，且不属于所述共有用户数据集的所有用户数据作为新增用户数据，利用该目标客户端的对偶模型获得所述新增用户数据在其余目标客户端的新增预测用户数据；
所述多个目标客户端基于所述训练集进行第一次联邦学习模型训练，并在所述测试集上验证标签数据的预测准确率，获得第一预测准确率；
所述多个目标客户端基于在所述训练集加入所述新增用户数据、所述新增预测用户数据之后的数据集，进行第二次联邦学习模型训练，并在所述测试集上验证标签数据的预测准确率，获得第二预测准确率；
所述多个目标客户端判断所述第二预测准确率与所述第一预测准确率的差值是否小于预设阈值，若是，则满足对偶模型收敛条件。

7.一种用户标签数据预测方法，其特征在于，所述方法包括：
第一客户端获取待预测标签数据的目标用户的第一标识数据和第一特征数据组，针对每个第二客户端，利用所述第一客户端的对偶模型，预测所述第一特征数据组在该第二客户端的第二预测特征数据组，将所述第一标识数据和所述第二预测特征数据组的加密数据发送给该第二客户端；并且，利用所述第一客户端训练得到的联邦学习模型参数，获得所述第一特征数据组的第一加密加权值，并将所述第一加密加权值发送给所述服务端；
每个第二客户端利用接收到的加密数据，确定所述目标用户在该第二客户端的第二目标特征数据组，利用该第二客户端训练得到的联邦学习模型参数，获得所述第二目标特征数据组的第二加密加权值，并将所述第二加密加权值发送给所述服务端；
服务端对接收到的所述第一加密加权值和所述第二加密加权值求和，并对求和结果进行解密，得到所述目标用户的目标标签数据，并将所述目标标签数据返回给所述第一客户端；
其中，所述第一客户端、所述至少一个第二客户端各自拥有预先训练的对偶模型；所述服务端拥有预先训练的联邦学习模型；所述联邦学习模型是所述第一客户端和所述至少一个第二客户端作为参与训练的目标客户端，经过加密对偶训练扩展共有用户数据集后，借助所述服务端进行联邦学习得到的；且参与训练的目标客户端中，有一个目标客户端用于联邦学习模型训练的用户数据中包括标签数据。

8.根据权利要求7所述的方法，其特征在于，所述利用接收到的加密数据，确定所述目标用户在该第二客户端的第二目标特征数据组，包括：
每个第二客户端，利用所述第一标识数据的加密数据，判断该第二客户端是否存在所述第一标识数据；
如果是，将该第二客户端中所述第一标识数据对应的特征数据组确定为所述目标用户在该第二客户端的第二目标特征数据组，如果否，对接收到的所述第二预测特征数据组的加密数据进行解密，得到所述第二预测特征数据组，并将所述第二预测特征数据组确定为所述目标用户在该第二客户端的第二目标特征数据组。

9.根据权利要求7所述的方法，其特征在于，所述联邦学习模型的训练过程包括：
参与联邦学习模型训练的多个目标客户端分别获取各自的用户数据；所述用户数据包括标识数据和...

【专利技术属性】
技术研发人员：公茂果，高原，王钊，梁爽，王善峰，武越，张明阳，李豪，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人