基于变分自编码器和数据增强的纵向联邦学习方法及系统技术方案

技术编号：40923178 阅读：2 留言：0更新日期：2024-04-18 14:47

本发明专利技术公开了基于变分自编码器和数据增强的纵向联邦学习方法及系统，该方法首先参与方通过纵向联邦数据对齐，获得不同参与方数据中属于同一样本空间的对齐数据。其次参与方本地初始化变分自编码器参数，参与方将对齐数据输入本地编码器，得到潜空间高阶特征表示向量组，并发送给其他参与方。然后构造变分自编码器模型的更新总损失，更新本地变分自编码器模型。最后参与方变分自编码器模型根据本地数据输入，生成辅助数据，参与方将原有对齐数据和辅助数据一起作为对齐数据进行纵向联邦下游任务。本发明专利技术在对齐数据较少的情况下，在回归和分类任务上，都能有效提高纵向联邦学习模型的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据增强领域，具体涉及一种基于变分自编码器和数据增强的纵向联邦学习方法及系统。

技术介绍

1、随着互联网和智能设备的普及，人们每天在使用它们时都会产生大量的数据。如果使用大数据和人工智能技术对这些数据进行挖掘分析，那么这些数据就会产生巨大的价值，但是传统的集中式机器学习技术要求把数据上传到中央服务器进行训练，这涉及到了通信、隐私、安全等问题，因此亟需一种新的方法突破这个困局。

2、联邦学习就是一种被提出来取代传统集中式学习的新方法，它使得各个数据持有方能够通过隐私保护的方法与其他数据持有方协同训练一个全局共享的全局模型，而无需上传本地数据到服务端进行集中式训练。纵向联邦学习是联邦学习的一种方式，适用于多个参与方的数据集具有相同的样本id空间,但特征空间不同的场景。这里的样本id指的是样本的标识符的集合或范围。每个样本都有一个唯一的标识符，该标识符用于区分不同的样本。例如某个地区的银行和电子商务公司拥有的数据集都包含本地区的居民,样本id空间有交叉,但数据特征却完全不同。其中银行的数据是描述用户的收支行为和资金状况,而电子商务公司保存的是用户对各种商品的浏览与购买记录。两个公司可以利用纵向联邦学习联合训练一个用户购买商品的预测模型。

3、由于不同参与方之间数据不能共享，不能保证参与方之间有一定数量的相同样本id空间的数据，这会严重阻碍纵向联邦学习模型的收敛和造成性能下降。因此需要一种有效的纵向联邦学习方法解决上述问题。

4、变分自编码器是一种有效的生成模型，其组件包括编码器和解码器

技术实现思路

1、本专利技术针对现有技术不足，设计并实现基于变分自编码器和数据增强的纵向联邦学习方法及系统。

2、本专利技术通过利用变分自编码器很强的特征提取和数据压缩能力，让变分自编码器学习参与方本地的数据潜空间表示。通过参与方之间潜空间高阶特征表示向量组的共享学习，每个参与方能够提取到其他参与方的特征表示，通过不同特征之间的学习，能够更好地训练本地变分自编码器，使得参与方能够生成高质量的数据。参与方生成的新数据集对齐之后生成辅助数据集进行后续纵向联邦学习训练，从而加快纵向联邦学习模型的收敛和优化模型性能，解决纵向联邦学习由于对齐样本少导致全局模型性能差的问题。

3、基于变分自编码器和数据增强的纵向联邦学习方法，包括如下步骤：

4、s1,参与方通过纵向联邦数据对齐，获得不同参与方数据中属于同一样本空间的对齐数据{x1,…,xn}。

5、s2,参与方本地初始化变分自编码器参数，其中编码器参数{e1,…,em}、生成器参数{d1,…,dm}。

6、s3,参与方将对齐数据输入本地编码器，得到潜空间高阶特征表示向量组{z1,…,zm}，并将潜空间高阶特征表示向量组发送给其他参与方。

7、s4,构造变分自编码器模型的更新总损失，更新本地变分自编码器模型。

8、s5,重复步骤s3至s4，直至完成预定迭代轮数。

9、s6,参与方变分自编码器模型根据本地数据输入，生成辅助数据，参与方将原有对齐数据和辅助数据一起作为对齐数据进行纵向联邦下游任务。

10、在步骤s1中，所述纵向联邦数据对齐具体操作为：不同参与方数据样本空间不同，数据对齐就是将两个实际上表示同一个实体的不同样本特征对应起来。{x1,…,xn}表示有n条数据在两方数据集中被数据对齐。

11、在步骤s2中，对于编码器参数{e1,…,em}和生成器参数{d1,…,dm}，ei和di分别表示第i个参与方的编码器参数和生成器参数，m表示参与方数量。

12、在步骤s3中，对于潜空间高阶特征表示向量组{z1,…,zm}，zi表示第i个参与方对齐数据经过第i个参与方的编码器输出的潜空间高阶特征表示向量组。

13、在步骤s4中，所述构造变分自编码器模型的更新总损失具体操作为：参与方计算本地潜空间高阶特征表示向量组对应的正则化损失和重构损失，再根据其他参与方的潜空间高阶特征表示向量组计算配对损失和对比损失，将四种不同的损失以不同权重比例相加，作为变分自编码器模型的更新总损失。

14、正则化损失的目的是确保从本地数据中学到的潜在空间具有良好的结构，利用kl散度衡量了潜在空间中的分布与标准正态分布之间的差异；重构损失的目的是确保模型生成数据的能力，即从潜在空间中重构出输入数据的能力，利用交叉熵损失来衡量重构能力；配对损失的目的是确保同一样本的不同特征的潜空间向量表示能尽可能的接近，利用均方误差来衡量特征配对情况；配对损失的目的是确保同一样本的不同特征的潜空间向量表示能尽可能的接近，利用均方误差来衡量特征配对情况；对比损失的目的是确保同一样本的潜空间高阶特征表示向量表示能尽可能接近，与其他样本的潜空间高阶特征表示向量表示尽可能远离。

15、本公开的一种实施例中提供了基于变分自编码器和数据增强的纵向联邦学习系统，包括数据预训练模块、生成模型训练模块和数据更新模块：

16、数据预训练模块，将参与联邦学习的各参与方对本地数据集进行纵向联邦数据对齐，得到原始数据集，初始化变分自编码器。

17、生成模型训练模块，通过处理后的原始数据集，对参与联邦学习的各参与方的变分自编码器模型进行训练，根据每个参与方的训练损失进行联合训练。

18、数据更新模块，通过参与方生成新的数据，将处理后的原始训练集与新生成的数据进行整合，构建新的数据集，用于联邦学习训练任务。

19、本专利技术的优势在于：

20、第一个提出利用对齐数据做数据增强的纵向联邦学习优化方案，并且使得参与方能够生成高质量的数据，从而加快纵向联邦学习模型的收敛和优化模型性能。

21、在对齐数据较少的情况下，在回归和分类任务上，都能有效提高纵向联邦学习模型的准确度。

22、在多个数据集和多种数据对齐情况下，都能提高纵向联邦学习模型的准确度。

本文档来自技高网...

【技术保护点】

1.基于变分自编码器和数据增强的纵向联邦学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于变分自编码器和数据增强的纵向联邦学习方法，其特征在于，步骤S1中，所述纵向联邦数据对齐具体操作为：不同参与方数据样本空间不同，数据对齐就是将两个表示同一个实体的不同样本特征对应起来；{X1,…,XN}表示有N条数据在两方数据集中被数据对齐。

3.根据权利要求2所述的基于变分自编码器和数据增强的纵向联邦学习方法，其特征在于，在步骤S4中，所述构造变分自编码器模型的更新总损失具体操作为：参与方计算本地潜空间高阶特征表示向量组对应的正则化损失和重构损失，再根据其他参与方的潜空间高阶特征表示向量组计算配对损失和对比损失，将四种不同的损失以不同权重比例相加，作为变分自编码器模型的更新总损失。

4.基于变分自编码器和数据增强的纵向联邦学习系统，用于实现权利要求1至3任一所述的方法，其特征在于，包括数据预训练模块、生成模型训练模块和数据更新模块；

【技术特征摘要】

1.基于变分自编码器和数据增强的纵向联邦学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于变分自编码器和数据增强的纵向联邦学习方法，其特征在于，步骤s1中，所述纵向联邦数据对齐具体操作为：不同参与方数据样本空间不同，数据对齐就是将两个表示同一个实体的不同样本特征对应起来；{x1,…,xn}表示有n条数据在两方数据集中被数据对齐。

3.根据权利要求2所述的基于变分自编码器和数据增强的纵向联邦学习方法，...

【专利技术属性】
技术研发人员：贺柯涵，薛梅婷，曾艳，张纪林，周丽，史豫坤，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人