【技术实现步骤摘要】
本专利技术属于数据生成填补,涉及一种基于纵向联邦学习的参与方对齐样本生成系统。
技术介绍
1、在纵向联邦学习场景下,某些参与方样本较多,而另一些参与方样本较少,样本对齐后,基于多方的联合对齐样本数量将会参照样本较少的参与方,即可视为联合对齐样本在这些参与方中出现了数据缺失。这将导致对齐后的样本无法支持纵向联邦场景下机器学习模型基于大量样本训练的需要。现有的数据生成填补方法大部分都是针对集中式的数据,即单方数据样本进行生成填补,而对于纵向联邦学习场景下的多方数据集的缺失,利用现有数据生成填补方法结合纵向联邦学习只能解决多方数据集缺失的其中一种情况,即各参与方对齐数据样本的缺失,无法解决上述联合对齐样本在样本较少的参与方出现的数据缺失问题。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供基于纵向联邦学习的参与方对齐样本生成系统。
2、为达到上述目的,本专利技术提供如下技术方案:
3、一种基于纵向联邦学习的参与方对齐样本生成系统,包括:
4、多方属性相关
...【技术保护点】
1.一种基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:包括:
2.根据权利要求1所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:对于所述参与方包括拥有大量样本数据的A方和少量样本数据的B方,以及A方和B方均信任的协调方C方的情况下,所述多方属性相关性矩阵构建模块构建多方属性相关性矩阵的步骤如下:
3.根据权利要求2所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:步骤S11所述数据预处理包括冗余数据处理、缺失值处理、异常值处理以及数据标准化处理;
4.根据权利要求2所述的基于纵向联邦学习的参与方对齐样本
...【技术特征摘要】
1.一种基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:包括:
2.根据权利要求1所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:对于所述参与方包括拥有大量样本数据的a方和少量样本数据的b方,以及a方和b方均信任的协调方c方的情况下,所述多方属性相关性矩阵构建模块构建多方属性相关性矩阵的步骤如下:
3.根据权利要求2所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:步骤s11所述数据预处理包括冗余数据处理、缺失值处理、异常值处理以及数据标准化处理;
4.根据权利要求2所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:在步骤s13中,a方第m个属性和b方第n个属性相关性系数的具体计算流程如下:
5.根据权利要求1所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:所述属性对对应关系建立模块根据多方属性相关性矩阵m,找出其中最大的相关性系数假设该相关性系数分别由a方第m个属性和b方第n个属性计算得到,则认为a方属性和b方属性具有强相关性,可组成一组强相关性属性对同时将重新设为0;根据该属性对循环遍历和中所有取值和其中i=1,...,db,建立属性中各取值与属性的取值之间的对应关系r,具体包括以下步骤:
6.根据权利要求5所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:步骤s22中,设属性总共包含s个属性取值,其中...
【专利技术属性】
技术研发人员:刘歆,何杭轩,钱鹰,万邦睿,陈奉,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。