一种基于纵向联邦学习的模型训练方法及装置制造方法及图纸

技术编号：35221416 阅读：49 留言：0更新日期：2022-10-15 10:38

本申请公开了一种基于纵向联邦学习的模型训练方法，基于隐私集合求交确定第一参与方与第二参与方的数据交集集合。其中，第一参与方为模型训练发起方、第二参与方为数据提供方。利用第一数据交集集合构建模型，获得第一模型。确定第一数据与数据交集集合中的第二数据的相似度，第一数据为第一参与方提供的且不包括在数据交集集合中的数据，第二数据为数据交集集合中第一参与方提供的数据。若第一数据与第二数据的相似度满足预设条件，从数据交集集合中确定与第二数据对应的由第二参与方提供的第三数据。利用第一数据和第三数据对第一模型进行优化，获得第二模型。通过本申请技术方案，可以增加模型训练所使用的样本数量，从而提升模型的预测精度。而提升模型的预测精度。而提升模型的预测精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于纵向联邦学习的模型训练方法及装置

[0001]本申请涉及数据处理
，具体涉及一种基于纵向联邦学习的模型训练方法及装置。

技术介绍

[0002]联邦学习(Federated Learning)是一种分布式机器学习技术，其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练，在不需要交换本地个体或样本数据的前提下，仅通过交换模型参数或中间结果的方式，构建基于虚拟融合数据下的全局模型，从而实现数据隐私保护和数据共享计算的平衡。纵向联邦学习，是指参与者训练样本ID重叠较多，而数据特征重叠较少的情况下，将数据集按照纵向(特征维度)切分，并取出双方训练样本ID相同而数据特征不同的部分数据进行训练。该类学习方法主要是将不同特征在加密的状态下进行聚合，以提升模型的预测精度。
[0003]然而，由于参与双方交集的数据规模和分布不稳定，导致训练样本较少，影响模型训练结果。

技术实现思路

[0004]有鉴于此，本申请实施例提供一种基于纵向联邦学习的模型训练方法和装置，以实现扩大训练样本的数据量，提升模型预测结果。
[0005]为解决上述问题，本申请实施例提供的技术方案如下：
[0006]在本申请第一方面，提供了一种基于纵向联邦学习的模型训练方法，其特征在于，所述方法包括：
[0007]基于隐私集合求交PSI确定第一参与方与第二参与方的数据交集集合，所述第一参与方为模型训练发起方，所述第二参与方为数据提供方；
[0008]利用所述数据交集集合构建模型，获得第一模...

【技术保护点】

【技术特征摘要】
1.一种基于纵向联邦学习的模型训练方法，其特征在于，所述方法包括：基于隐私集合求交PSI确定第一参与方与第二参与方的数据交集集合，所述第一参与方为模型训练发起方，所述第二参与方为数据提供方；利用所述数据交集集合构建模型，获得第一模型；针对所述第一参与方的第一数据，确定所述第一数据与所述数据交集集合中的第二数据的相似度，所述第一数据为不包括在所述数据交集集合中的任一数据，所述第二数据为所述数据交集集合中所述第一参与方的数据；若所述第一数据与所述第二数据的相似度满足预设条件，根据所述第二数据从所述数据交集集合中确定第三数据，所述第三数据为所述数据交集集合中与所述第二数据对应的所述第二参与方的数据；根据所述第一数据和所述第三数据对所述第一模型进行训练，获得第二模型。2.根据权利要求1所述的方法，其特征在于，所述确定所述第一数据与所述数据交集集合中的第二数据的相似度，包括：基于K最近邻算法确定所述第一数据与所述数据交集集合中的K个第二数据的相似度，K大于等于2；所述若所述第一数据与所述第二数据的相似度满足预设条件，根据所述第二数据从所述数据交集集合中确定第三数据，包括：若所述第一数据与K个第二数据的相似度满足预设条件，针对任一第二数据，从所述数据交集集合中确定与所述第二数据对应的第三数据。3.根据权利要求2所述的方法，其特征在于，所述根据所述第一数据和第三数据对所述第一模型进行训练，获得第二模型，包括：对获取的K个第三数据进行平均，获得第四数据；利用所述第一数据和所述第四数据对所述第一模型进行训练，获得第二模型。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：若所述第一数据与所述第二数据的相似度不满足所述预设条件，利用所述第一数据构建模型，获得第三模型；将所述第一模型和所述第三模型进行加权集成，获得第四模型。5.根据权利要求1所述的方法，其特征在于，所述方法还包括：若存在部分所...

【专利技术属性】
技术研发人员：王春凯，徐健，冯键，
申请(专利权)人：中国再保险集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人