基于树形结构的多标签联邦学习方法、控制器和介质技术

技术编号:29403909 阅读:30 留言:0更新日期:2021-07-23 22:42
本发明专利技术涉及一种基于树形结构的多标签联邦学习方法、控制器和介质,所述方法包括步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集;步骤S2、基于所述n个数据持有方的用户标签生成标签依赖关系树;步骤S3、以{X

【技术实现步骤摘要】
基于树形结构的多标签联邦学习方法、控制器和介质
本专利技术涉及计算机
,尤其涉及一种基于树形结构的多标签联邦学习方法、控制器和介质。
技术介绍
纵向联邦学习指的是多个数据持有方的数据集中的用户重叠较多而用户特征重叠较少的情况下的联邦学习。纵向联邦学习的任务就是在保持数据本地化的情况下,共同训练出一个机器学习模型。多标签学习解决的是一个样本对应多个标签的机器学习的技术问题,例如:一张图片中可能即包含狗,也包含猫。相对的,传统的单标签学习解决的则是一个样本仅对应一个标签的机器学习的技术问题,例如:判断一张图片是猫的照片还是狗的照片。传统的基于单标签的纵向联邦学习,已多有研究和应用。在多标签场景下,例如:在银行数据持有方与电商数据持有方的联邦学习场景中,电商数据持有方要预测用户是否会购买某件商品的标签,同时银行数据持有方要预测用户是否会如期还款的标签。按照现有技术的方案,可以将这个问题转化为两个独立的传统的单标签联邦学习问题:一个联邦学习模型用来预测用户是否会购买某件商品的标签;另一个联邦学习模型用来预测用户是否会如期还款的标签,两个模本文档来自技高网...

【技术保护点】
1.一种基于树形结构的多标签联邦学习方法,其特征在于,包括:/n步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(X

【技术特征摘要】
1.一种基于树形结构的多标签联邦学习方法,其特征在于,包括:
步骤S1、获取n个数据持有方中每一数据持有方对应的训练数据集,n个数据持有方的用户是重叠的,每一数据持有方对应一个用户标签,第i数据持有方对应的第i训练数据集为(Xi,Yi),其中,Xi表示i训练数据集的样本用户特征数据集,包括ni个样本用户,每个样本用户有mi个属性;Yi表示i训练数据集的样本用户标签数据集,i表示数据持有方序号,i=1,2,...,n,yik∈R,k=1,2,...,ni;
步骤S2、基于所述n个数据持有方的用户标签生成标签依赖关系树,其中,t(j)表示第j号树节点对应的数据持有方序号,j=1,2,...n,设置用户获取第t(j)个用户标签在所述标签依赖关系树中所有下层依赖标签集合的函数G(Yt(j));
步骤S3、以{X1,X2,...,Xn}∪G(Yt(j))作为预测子模型Mt(j)的输入数据,以预测标签Yt(j)作为预测子模型Mt(j)的输出数据,进行纵向联邦学习训练,并行训练生成预测子模型Mt(j);
步骤S4、待测用户的特征为{x1,x2,...,xn},xi表示待测用户在第i个用户持有方对应的待测用户特征数据,基于{x1,x2,...,xn}、标签依赖关系树和Mt(j)生成所述待测用户所有标签{yt(1),yt(2),...,yt(n)},yt(j)表示待测用户对应于第t(j)个标签的预测值。


2.根据权利要求1所述的方法,其特征在于,
优选的,所述步骤S1包括:
步骤S11、获取Z个客户端中每一客户端的数据,采用预设的对齐算法和隐私求交算法获取每一客户端中Z个客户端重叠的数据,作为每一客户端对应的用户数据,所述用户数据包括用户特征数据和用户标签数据;
步骤S12、获取第z客户端数据中用户标签的类别数量Wz,并判断Wz是否大于等于2,若是,则构建Wz个第z客户端对应的数据持有方,并以所述第z客户端对应的用户数据中的每一类用户标签数据作为一个数据持有方对应的用户标签数据集,以所述第z客户端对应的用户特征数据作为每一数据持有方对应的用户特征数据集,构建Wz个训练数据集,为每一数据持有方划分一个对应的训练数据集,否则,执行步骤S13,z=1,2,…Z;
步骤S13、构建一个第x客户端对应的数据持有方,并以第z客户端对应的用户标签数据作为用户标签数据集,以第z客户端对应的用户特征数据作为用户特征数据集,构建该数据持有方对应的训练数据集;
步骤S14、将基于所述Z个客户端数据生成的所有数据持有方的训练数据集,确定为所述n个数据持有方的训练数据集。


3.根据权利要求1所述的方法,其特征在于,
优选的,步骤S2包括:
步骤S21、获取所述n个用户标签中每一用户标签的目标精确度,将n个用户标签划分为T组用户标签,其中,其中第一组用户标签包括一个目标精确度最高的用户标签,第二组用户标签至第T组用户标签中每组包括一个或多个用户标签,且第t-1组标签中目标精确度的最小值大于第t组标签中目标精确度的最大值,t=2,3,…T;
步骤S22、将第一组用户标签中的用户标签设置为所述标签依赖关系树的根节点,将第t组标签中用户标签对应设置为第t层节点,每一用户标签对应一个节点,每一第t层节点随机或根据预设的标签依赖关系连接一个第t-1层节点,生成所述标签依赖关系树。


4.根据权利要求1所述的方法,其特征在于,
优选的,每一预测子模型Mt(j)包括分散存在所述个数据持有方上的本地预测子模型表示预测子模型Mt(j)在第i数据持有方上的本地预测子模型,所述步骤S3包括:
步骤S31、基于所述G(Yt(j))和标签依赖关系树获取第t(j)个用户标签在所述标签依赖关系树中所有下层依赖标签集合,作为第t(j)依赖标签集合,判断所述第t(j)依赖标签集合是否为空,若是,执行步骤S32,否则,执行步骤S33;
步骤S3...

【专利技术属性】
技术研发人员:蔡文渊张坤坤高明周傲英徐林昊顾海林孙嘉
申请(专利权)人:上海嗨普智能信息科技股份有限公司华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1