【技术实现步骤摘要】
一种基于多标签的联邦学习方法、装置和系统
本文件涉及联邦学习领域,尤其涉及一种基于多标签的联邦学习方法、装置和系统。
技术介绍
联邦学习(又可以称为联合学习、联盟学习)是一种机器学习框架,可以有效帮助多个机构在满足用户隐私保护和数据安全的要求下,进行数据使用和机器学习建模。通常,多个机构在进行联邦学习时,可以基于样本的标签数据和特征数据进行学习训练,其中,样本的标签数据可以由多个机构提供。然而,由于多个机构的业务场景或对标签的定义不同等原因,多个机构提供的标签数据通常是不一致的,这样,在进行联邦学习时,将无法确定以哪个机构的标签数据为准进行学习训练。
技术实现思路
本说明书实施例提供一种基于多标签的联邦学习方法、装置和系统,用于解决在联邦学习中,在多个机构提供的标签数据不一致的情况下,无法确定基于哪个机构的标签数据进行学习训练的问题。为解决上述技术问题,本说明书实施例是这样实现的:第一方面,提出一种基于多标签的联邦学习方法,应用于可信执行环境,包括:获取由多个机构提供的多个标签数据组,所述标签数据组中包括多个用户的原始标签,所述多个用户中至少存在一个用户在所述多个标签数据组中的多个原始标签不一致;利用预设的弱监督学习算法对所述多个标签数据组进行学习训练,得到目标标签数据组,所述目标标签数据组中包括所述多个用户的目标标签;将所述目标标签数据组发送给所述多个机构,由所述多个机构基于所述目标标签数据组进行联邦学习。第二方面,提出一种基于多标签的联邦 ...
【技术保护点】
1.一种基于多标签的联邦学习方法,应用于可信执行环境,包括:/n获取由多个机构提供的多个标签数据组,所述标签数据组中包括多个用户的原始标签,所述多个用户中至少存在一个用户在所述多个标签数据组中的多个原始标签不一致;/n利用预设的弱监督学习算法对所述多个标签数据组进行学习训练,得到目标标签数据组,所述目标标签数据组中包括所述多个用户的目标标签;/n将所述目标标签数据组发送给所述多个机构,由所述多个机构基于所述目标标签数据组进行联邦学习。/n
【技术特征摘要】
1.一种基于多标签的联邦学习方法,应用于可信执行环境,包括:
获取由多个机构提供的多个标签数据组,所述标签数据组中包括多个用户的原始标签,所述多个用户中至少存在一个用户在所述多个标签数据组中的多个原始标签不一致;
利用预设的弱监督学习算法对所述多个标签数据组进行学习训练,得到目标标签数据组,所述目标标签数据组中包括所述多个用户的目标标签;
将所述目标标签数据组发送给所述多个机构,由所述多个机构基于所述目标标签数据组进行联邦学习。
2.如权利要求1所述的方法,利用预设的弱监督学习算法对所述多个标签数据组进行学习训练,得到目标标签数据组,包括:
根据所述多个标签数据组和初始的目标标签数据组,确定第一特征变量、第二特征变量和第三特征变量,所述第一特征变量表征任一用户在任一个标签数据组中是否存在原始标签,所述第二特征变量表征任一用户的目标标签和所述用户在任一标签数据组中的原始标签是否一致,所述第三特征变量表征任一用户在任两个标签数据组中的原始标签是否一致;
基于所述第一特征变量、所述第二特征变量和所述第三特征变量,得到生成模型和目标函数,所述生成模型用于根据目标参数求解所述目标标签数据组,所述目标函数用于根据所述目标标签数据组求解所述目标参数;
根据所述生成模型和所述目标函数,得到所述目标标签数据组。
3.如权利要求2所述的方法,根据所述生成模型和所述目标函数,得到所述目标标签数据组,包括:
基于所述初始的目标标签数据组,利用随机梯度下降法求解所述目标函数,得到所述目标参数;
基于求解得到的所述目标参数,利用Gibbs采样方法求解所述生成模型,更新所述初始的目标标签数据组;
循环执行以上步骤直至收敛,得到所述目标标签数据组。
4.如权利要求1所述的方法,将所述目标标签数据组发送给所述多个机构,包括:
针对所述多个用户中的任一目标用户,执行以下操作:
确定所述目标用户在所述目标标签数据组中的目标标签;
确定所述目标用户在所述多个标签数据组中的多个原始标签,一个原始标签对应一个机构;
根据所述目标标签和所述多个原始标签,确定候选机构,所述候选机构对应的所述原始标签与所述目标标签一致;
将所述目标用户的目标标签发送给所述候选机构。
5.如权利要求4所述的方法,将所述目标用户的目标标签发送给所述候选机构,包括:
若所述候选机构的个数M大于1,则从所述候选机构中选择N个目标机构,N大于0且小于M;
将所述目标用户的目标标签发送给所述N个目标机构。
6.如权利要求5所述的方法,将所述目标用户的目标标签发送给所述N个目标机构,包括:
确定所述目标用户的用户标识;
将所述目标用户的用户标识代替所述目标标签发送给所述N个目标机构。
7.如权利要求6所述的方法,将所述目标用户的用户标识代替所述目标标签发送给所述N个目标机构,包括:
将所述目标用户的用户标识进行加密,得到加密后的用户标识;
将所述加密后的用户标识发送给所述N个目标机构。
8.一种基于多标签的联邦学习方法,应用于机构,包括:
获取包括多个用户的原始标签的标签数据组;
将所述标签数据组发送给可信执行环境,由所述可信执行环境利用预设的弱监督学习算法对所述标签数据组以及来自其他机构的其他标签数据组进行学习训练,得到目标标签数据组,所述多个用户中至少存在一个用户在多个机构提供的多个标签数据组中的多个原始标签不一致,所述目标标签数据组中包括所述多个用户的目标标签;
接收由所述可信执行环境返回的所述目标标签数据组中的部分目标标签数据;
基于所述部分目标标签数据进行联邦学习。
9.如权利要求8所述的方法,
所述部分目标标签数据中包括所述多个用户中部分用户的目标标签,所述部分用户的目标标签和所述标签数据组中所述部分用户的原始标签一致。
10.如权利要求8所述的方法,
所述部分目标标签数据中包括所述多个用户中部分用户的用户标识,所述部分用户的目标标签和所述标签数据组中所述目标用户的原始标签一致。
11.如权利要求10所述的方法,基于所述部分目标标签数据进行联邦学习,包括:
根据所述部分用户的用户标识,在所述标签数据中查找与所述部分用户对应的原始标签;
获取所述部分用户的个人数据;
基于所述部分用户的原始标签,对所述部分用户的个人数据进行学习训练。
12.如权利要求8所述的方法,在基于所述部分目标标签数据进行联邦学习后,所述方法还包括:
获取所述多个用户的模型分,所述模型分基于联邦学习得到的目标模型对所述多个用户进行预测后得到;
若所述多个用户的模型分与所述多个用户的原始标签值的...
【专利技术属性】
技术研发人员:陆梦倩,汲小溪,王维强,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。