一种基于纵向联邦学习的参与方对齐样本生成系统技术方案

技术编号:43549285 阅读:32 留言:0更新日期:2024-12-03 12:31
本发明专利技术涉及一种基于纵向联邦学习的参与方对齐样本生成系统,属于数据生成填补技术领域,包括:多方属性相关性矩阵构建模块:用于将多个参与方的样本数据集进行对齐,并计算各参与方之间每个属性的相关性,构建多方属性相关性矩阵;属性对对应关系建立模块:用于根据多方属性相关性矩阵,分别从对齐样本数据集的各方中找出具有强相关性的属性对,建立该属性对中两个属性列所有取值间的对应关系;缺失值生成模块:用于根据对应关系,建立两个属性列取值的关联规则,对参与方属性列的缺失值进行生成;生成对抗填补模块:利用参与方数据样本和生成的属性列缺失值对参与方剩余属性列的缺失值进行生成填补,获得完整的多方联合对齐样本数据集。

【技术实现步骤摘要】

本专利技术属于数据生成填补,涉及一种基于纵向联邦学习的参与方对齐样本生成系统


技术介绍

1、在纵向联邦学习场景下,某些参与方样本较多,而另一些参与方样本较少,样本对齐后,基于多方的联合对齐样本数量将会参照样本较少的参与方,即可视为联合对齐样本在这些参与方中出现了数据缺失。这将导致对齐后的样本无法支持纵向联邦场景下机器学习模型基于大量样本训练的需要。现有的数据生成填补方法大部分都是针对集中式的数据,即单方数据样本进行生成填补,而对于纵向联邦学习场景下的多方数据集的缺失,利用现有数据生成填补方法结合纵向联邦学习只能解决多方数据集缺失的其中一种情况,即各参与方对齐数据样本的缺失,无法解决上述联合对齐样本在样本较少的参与方出现的数据缺失问题。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供基于纵向联邦学习的参与方对齐样本生成系统。

2、为达到上述目的,本专利技术提供如下技术方案:

3、一种基于纵向联邦学习的参与方对齐样本生成系统,包括:

4、多方属性相关性矩阵构建模块:用于本文档来自技高网...

【技术保护点】

1.一种基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:包括:

2.根据权利要求1所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:对于所述参与方包括拥有大量样本数据的A方和少量样本数据的B方,以及A方和B方均信任的协调方C方的情况下,所述多方属性相关性矩阵构建模块构建多方属性相关性矩阵的步骤如下:

3.根据权利要求2所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:步骤S11所述数据预处理包括冗余数据处理、缺失值处理、异常值处理以及数据标准化处理;

4.根据权利要求2所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于...

【技术特征摘要】

1.一种基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:包括:

2.根据权利要求1所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:对于所述参与方包括拥有大量样本数据的a方和少量样本数据的b方,以及a方和b方均信任的协调方c方的情况下,所述多方属性相关性矩阵构建模块构建多方属性相关性矩阵的步骤如下:

3.根据权利要求2所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:步骤s11所述数据预处理包括冗余数据处理、缺失值处理、异常值处理以及数据标准化处理;

4.根据权利要求2所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:在步骤s13中,a方第m个属性和b方第n个属性相关性系数的具体计算流程如下:

5.根据权利要求1所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:所述属性对对应关系建立模块根据多方属性相关性矩阵m,找出其中最大的相关性系数假设该相关性系数分别由a方第m个属性和b方第n个属性计算得到,则认为a方属性和b方属性具有强相关性,可组成一组强相关性属性对同时将重新设为0;根据该属性对循环遍历和中所有取值和其中i=1,...,db,建立属性中各取值与属性的取值之间的对应关系r,具体包括以下步骤:

6.根据权利要求5所述的基于纵向联邦学习的参与方对齐样本生成系统,其特征在于:步骤s22中,设属性总共包含s个属性取值,其中...

【专利技术属性】
技术研发人员:刘歆何杭轩钱鹰万邦睿陈奉
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1