一种基于纵向联邦学习的模型训练方法及装置制造方法及图纸

技术编号:35221416 阅读:49 留言:0更新日期:2022-10-15 10:38
本申请公开了一种基于纵向联邦学习的模型训练方法,基于隐私集合求交确定第一参与方与第二参与方的数据交集集合。其中,第一参与方为模型训练发起方、第二参与方为数据提供方。利用第一数据交集集合构建模型,获得第一模型。确定第一数据与数据交集集合中的第二数据的相似度,第一数据为第一参与方提供的且不包括在数据交集集合中的数据,第二数据为数据交集集合中第一参与方提供的数据。若第一数据与第二数据的相似度满足预设条件,从数据交集集合中确定与第二数据对应的由第二参与方提供的第三数据。利用第一数据和第三数据对第一模型进行优化,获得第二模型。通过本申请技术方案,可以增加模型训练所使用的样本数量,从而提升模型的预测精度。而提升模型的预测精度。而提升模型的预测精度。

【技术实现步骤摘要】
一种基于纵向联邦学习的模型训练方法及装置


[0001]本申请涉及数据处理
,具体涉及一种基于纵向联邦学习的模型训练方法及装置。

技术介绍

[0002]联邦学习(Federated Learning)是一种分布式机器学习技术,其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型,从而实现数据隐私保护和数据共享计算的平衡。纵向联邦学习,是指参与者训练样本ID重叠较多,而数据特征重叠较少的情况下,将数据集按照纵向(特征维度)切分,并取出双方训练样本ID相同而数据特征不同的部分数据进行训练。该类学习方法主要是将不同特征在加密的状态下进行聚合,以提升模型的预测精度。
[0003]然而,由于参与双方交集的数据规模和分布不稳定,导致训练样本较少,影响模型训练结果。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种基于纵向联邦学习的模型训练方法和装置,以实现扩大训练样本的数据量,提升模型预测结果。
[0005]为解决上述问题,本申请实施例提供的技术方案如下:
[0006]在本申请第一方面,提供了一种基于纵向联邦学习的模型训练方法,其特征在于,所述方法包括:
[0007]基于隐私集合求交PSI确定第一参与方与第二参与方的数据交集集合,所述第一参与方为模型训练发起方,所述第二参与方为数据提供方;
[0008]利用所述数据交集集合构建模型,获得第一模型;
[0009]针对所述第一参与方的第一数据,确定所述第一数据与所述数据交集集合中的第二数据的相似度,所述第一数据为不包括在所述数据交集集合中的任一数据,所述第二数据为所述数据交集集合中所述第一参与方的数据;
[0010]若所述第一数据与所述第二数据的相似度满足预设条件,根据所述第二数据从所述数据交集集合中确定第三数据,所述第三数据为所述数据交集集合中与所述第二数据对应的所述第二参与方的数据;
[0011]根据所述第一数据和所述第三数据对所述第一模型进行训练,获得第二模型。
[0012]在本申请第二方面,提供了一种基于纵向联邦学习的模型训练装置,所述装置包括:
[0013]确定单元,用于基于隐私集合求交PSI确定第一参与方与第二参与方的数据交集集合,所述第一参与方为模型训练发起方,所述第二参与方为数据提供方;
[0014]获取单元,用于利用所述数据交集集合构建模型,获得第一模型;
[0015]所述确定单元,还用于针对所述第一参与方的第一数据,确定所述第一数据与所述数据交集集合中的第二数据的相似度,所述第一数据为不包括在所述数据交集集合中的任一数据,所述第二数据为所述数据交集集合中所述第一参与方的数据;
[0016]所述确定单元,还用于若所述第一数据与所述第二数据的相似度满足预设条件,根据所述第二数据从所述数据交集集合中确定第三数据,所述第三数据为所述数据交集集合中与所述第二数据对应的所述第二参与方的数据;
[0017]所述获取单元,还用于根据所述第一数据和所述第三数据对所述第一模型进行训练,获得第二模型。
[0018]在本申请第三方面,提供了一种电子设备,包括:处理器,存储器;
[0019]所述存储器,用于存储计算机可读指令或者计算机程序;
[0020]所述处理器,用于读取所述计算机可读指令或所述计算机程序,以使得所述电子设备实现第一方面所述的基于纵向联邦学习的模型训练方法。
[0021]在本申请第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在设备上运行时,使得所述设备执行第一方面所述的基于纵向联邦学习的模型训练方法。
[0022]在本申请第五方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行第一方面所述的基于纵向联邦学习的模型训练方法。
[0023]由此可见,本申请实施例具有如下有益效果:
[0024]本申请实施例中,在基于纵向联邦学习训练模型时,首先基于隐私集合求交确定第一参与方与第二参与方的数据交集集合。其中,第一参与方为模型训练发起方、第二参与方为数据提供方。首先利用第一数据交集集合构建模型,获得第一模型。针对第一参与方的第一数据,确定第一数据与数据交集集合中的第二数据的相似度。其中,第一数据为不包括在数据交集集合中且第一参与方提供的任一数据,第二数据为数据交集集合中第一参与方提供的数据。若第一数据与第二数据的相似度满足预设条件,则根据第二数据从数据交集集合中确定第三数据,该第三数据为数据交集集合中与第二数据对应的第二参与方的数据。则利用第一数据和第三数据对第一模型进行优化,获得第二模型。即,通过本申请提供的技术方案,可以增加模型训练所使用的样本数量,从而提升模型的预测精度。
附图说明
[0025]图1为本申请实施例提供的一种基于纵向联邦学习的模型训练方法示意图;
[0026]图2为本申请实施例提供的一种基于纵向联邦学习的模型训练框架图;
[0027]图3为本申请实施例提供的一种基于纵向联邦学习的模型训练装置结构图。
具体实施方式
[0028]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
[0029]为便于理解本申请实施例的技术方案,下面将先对本申请实施例涉及的技术名词进行说明。
[0030]隐私集合求交(Private Set Intersection,PSI)是纵向联邦学习中的关键前置
步骤,用于在多家厂商联合计算前,找到多家共有的数据样本,并且不暴露每家厂商独有的样本。PSI是指参与双方在不泄露任何额外信息的情况下,得到双方持有数据的交集。其中,额外的信息指的是除了双方的数据交集以外的任何信息。
[0031]针对发起联合建模方(Guest方,具有标签)和数据提供方(Host方)的纵向联邦学习方法,由于双方数据是非独立同分布的,基于PSI获得的交集数据规模波动较大,导致基于交集数据训练的模型不稳定,使得模型的预测结果不够准确。
[0032]基于此,本申请提供了一种基于纵向联邦学习的模型训练方法,首先基于PSI确定第一参与方和第二参与方的数据交集集合,并利用数据交集集合构建模型,获得第一模型。基于第一参与方提供的且未包括在数据交集集合中的任一第一数据,确定该第一数据与数据交集集合中第一参与方提供的第二数据的相似度。当第一数据与第二数据的相似度满足预设条件,则根据第二数据从数据交集集合中确定第三数据,所述第三数据为数据集合中与第二数据对应的第二参与方的数据,根据第一数据和第三数据对第一模型进行训练,获得第二模型。即,本申请通过扩展训练模型的数据量,来提升模型的训练效果,提高模型的预测精度。
[0033]其中,本申请提供的技术方案适用于数据集上具有相同的样本空间、不同的特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于纵向联邦学习的模型训练方法,其特征在于,所述方法包括:基于隐私集合求交PSI确定第一参与方与第二参与方的数据交集集合,所述第一参与方为模型训练发起方,所述第二参与方为数据提供方;利用所述数据交集集合构建模型,获得第一模型;针对所述第一参与方的第一数据,确定所述第一数据与所述数据交集集合中的第二数据的相似度,所述第一数据为不包括在所述数据交集集合中的任一数据,所述第二数据为所述数据交集集合中所述第一参与方的数据;若所述第一数据与所述第二数据的相似度满足预设条件,根据所述第二数据从所述数据交集集合中确定第三数据,所述第三数据为所述数据交集集合中与所述第二数据对应的所述第二参与方的数据;根据所述第一数据和所述第三数据对所述第一模型进行训练,获得第二模型。2.根据权利要求1所述的方法,其特征在于,所述确定所述第一数据与所述数据交集集合中的第二数据的相似度,包括:基于K最近邻算法确定所述第一数据与所述数据交集集合中的K个第二数据的相似度,K大于等于2;所述若所述第一数据与所述第二数据的相似度满足预设条件,根据所述第二数据从所述数据交集集合中确定第三数据,包括:若所述第一数据与K个第二数据的相似度满足预设条件,针对任一第二数据,从所述数据交集集合中确定与所述第二数据对应的第三数据。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一数据和第三数据对所述第一模型进行训练,获得第二模型,包括:对获取的K个第三数据进行平均,获得第四数据;利用所述第一数据和所述第四数据对所述第一模型进行训练,获得第二模型。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述第一数据与所述第二数据的相似度不满足所述预设条件,利用所述第一数据构建模型,获得第三模型;将所述第一模型和所述第三模型进行加权集成,获得第四模型。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:若存在部分所...

【专利技术属性】
技术研发人员:王春凯徐健冯键
申请(专利权)人:中国再保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1