纵向联邦学习数据处理方法及纵向联邦学习系统技术方案

技术编号：40541349 阅读：7 留言：0更新日期：2024-03-05 18:57

本发明专利技术提供一种纵向联邦学习数据处理方法及纵向联邦学习系统，该方法包括：由参与方设备基于训练样本进行分桶处理，并基于目标共享法将数据桶发送至非共谋服务器组；由主动方设备计算梯度向量，并基于目标共享法将梯度向量发送至非共谋服务器组；以第一目标协议，由非共谋服务器组协同计算得到关于数据桶及梯度向量的目标向量，并发送至主动方设备；基于提升决策树的机器学习算法，由主动方设备基于目标向量计算得到最佳划分信息；基于最佳划分信息及提升决策树的机器学习算法，由参与方设备及非共谋服务器组配合完成决策树训练。本发明专利技术的纵向联邦学习数据处理方法用于使纵向联邦学习兼顾隐私保护、模型训练精度高及高学习效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息安全技术邻域，具体涉及一种纵向联邦学习数据处理方法及纵向联邦学习系统。

技术介绍

1、数据是现代社会中推动机器学习发展的关键资源。随着越来越多数据保护法规如gdpr的颁布，数据隐私保护的问题越来越受到众多社会组织关注。这些社会组织通常拥有大量敏感和个人化的信息，如银行，医院和学校等等。鉴于这些实体处理的大量敏感和个性化数据，确保数据隐私已成为一个不断升级的问题。

2、联邦学习，用以解决机器学习中的数据隐私泄露问题。联邦学习通过将数据和模型保留在客户的本地设备上，实现了去中心化的数据存储和模型训练。这样就可以在保护数据隐私和安全的前提下，实现模型的合作共享和协同学习。根据数据划分方式的不同，联邦学习又可以被分为横向和纵向的联邦学习。一般而言，横向联邦学习(hfl)适用于一些同组织下的协同学习场景。然而，现实世界中不同的组织协同学习场景也很常见，这种时候便需要使用纵向联邦学习方案(vfl)。考虑如下一个现实场景：来自不同机构的银行需要一起训练一个机器学习模型，以预测是否能向某个来访用户借贷。这些银行的数据通常都拥有不同的特征空间，但存在许多相同的样本空间。纵向联邦学习就是为这样的场景应用而设计的。

3、不过，尽管数据仍然保留在本地，许多新的研究表明各参与方之间传输的中间参数仍然会泄露部分隐私信息。尤其是在基于树模型的纵向联邦学习中，梯度、数据桶和划分信息等更是不能直接传输给其他参与方，因为这些信息通常都包含了参与方私人的敏感数据。为了解决这样的隐私问题，最近的研究提出了一些隐私保护的纵向联邦

4、加密手段是对纵向联邦学习传播过程中的一些数据进行隐私保护的最广泛使用的手段。纵向联邦学习的特性和安全需求也使得许多密码技术都可以得到有效应用，如同态加密，函数加密和秘密共享等。但是很多采用了加密手段的方案又均涉及模型训练精度问题，例如限制隐私保护纵向联邦学习方案发展的主要瓶颈便是模型的精度以及计算和通信开销，尤其是对资源有限的参与方而言，开销过大会显著降低运行效率。此外，当前某些方案还潜在有隐私泄露的风险。具体说来，现有技术的缺陷和不足展现为以下节点：

5、1.不能提供充分的隐私保证。在纵向联邦学习场景中，中间参数的传输都有可能导致隐私的泄露。当前许多工作针对这个问题提出了隐私保护的纵向联邦学习方案，然而效果不理想。

6、2.不能确保训练得到高准确率的学习模型。准确率是评价方案设计的重要指标，直接决定了方案是否能得到落地应用。当前许多纵向联邦学习的方案使用差分隐私技术进行隐私保护，然而差分隐私技术不可避免的会往模型中加入噪声，会对最后训练得到的模型产生准确度损失的影响。

7、3.联邦学习效率较低，时间和通信开销较大。尤其对于资源有限的参与方来说，通常需要花费较大的开销，很可能引起联邦学习无法正常进行。目前，许多工作都考虑了如何提供纵向联邦学习效率，然而这些方案都不能很好的降低参与方的开销。

技术实现思路

1、本专利技术要解决的技术问题是提供一种应用于纵向联邦学习中，实现兼顾隐私保护、模型训练精度高及高学习效率的纵向联邦学习数据处理方法及纵向联邦学习系统。

2、本专利技术的内容包括一种纵向联邦学习数据处理方法，应用于纵向联邦学习系统中，所述纵向联邦学习系统包括由至少两个服务器构成的非共谋服务器组及多个参与方设备，所述多个参与方设备包括主动方设备及多个被动方设备，所述方法包括：

3、由所述参与方设备分别对本地存储的训练样本进行分桶处理，形成目标数量的数据桶，并基于目标共享法将所述数据桶发送至所述非共谋服务器组，所述目标共享法用于将待发送数据基于特定规则进行拆分处理形成不同份额后发送至不同接收方，使每个所述接收方仅具有一个份额，所述不同接收方需协同处理接收的份额数据，以将其恢复为所述待发送数据；

4、由所述主动方设备基于存储的各所述训练样本的标签计算得到对应所述训练样本的梯度向量，并基于所述目标共享法将所述梯度向量发送至非共谋服务器组；

5、由所述非共谋服务器组以第一目标协议为基础协同计算得到关于所述数据桶及梯度向量的目标向量，并发送至主动方设备，所述第一目标协议用于确保非共谋服务器组协同计算过程的数据安全性，所述目标向量用于辅助确定节点的最佳划分信息；

6、由所述主动方设备基于提升决策树的机器学习算法对所述目标向量进行计算得到当前决策树的目标节点的最佳划分信息；

7、由所述参与方设备及非共谋服务器组基于所述最佳划分信息及提升决策树的机器学习算法配合完成决策树训练。

8、在一实施例中，由所述参与方设备对本地存储的训练样本进行分桶处理，包括：

9、初始化第一数值作为所述参与方设备的第f个特征的固定阈值数量；

10、基于所述固定阈值数量将所述训练样本划分为目标数量的数据桶，所述目标数量的数值为所述第一数值。

11、在一实施例中，所述非共谋服务器组包括第一服务器及第二服务器，所述基于目标共享法将所述数据桶发送至所述非共谋服务器组，包括：

12、基于每个所述数据桶分别构建布尔数据桶矩阵；

13、基于加法秘密共享法对每个所述布尔数据桶矩阵进行计算，以分别得到对应每个所述布尔数据桶矩阵的第一数据桶份额及第二数据桶份额；

14、将每个所述布尔数据桶矩阵的第一份额及第二份额均分别发送至所述第一服务器及第二服务器。

15、在一实施例中，所述基于所述目标共享法将所述梯度向量发送至非共谋服务器组，包括：

16、基于加法秘密共享法对每个所述梯度向量进行计算，以分别得到对应每个所述梯度向量的第一共享份额及第二共享份额；

17、将每个所述梯度向量的第一共享份额及第二共享份额分别发送至所述第一服务器及第二服务器。

18、在一实施例中，所述由所述非共谋服务器组以第一目标协议为基础协同计算得到关于所述数据桶及梯度向量的目标向量，并发送至主动方设备，包括：

19、所述第一服务器与第二服务器分别获得所述主动方设备基于加法秘密共享法发送的对应各节点的样本独热编码份额；

20、所述第一服务器与第二服务器分别基于自身的样本独热编码份额及各布尔数据桶矩阵的份额协同计算当前树的各节点的独特桶矩阵，并得到各自的独特桶矩阵份额；

21、所述第一服务器与第二服务器基于mux协议对各自的梯度向量份额及各个所述独特桶矩阵本文档来自技高网...

【技术保护点】

1.一种纵向联邦学习数据处理方法，应用于纵向联邦学习系统中，所述纵向联邦学习系统包括由至少两个服务器构成的非共谋服务器组及多个参与方设备，所述多个参与方设备包括主动方设备及多个被动方设备，其特征在于，所述方法包括：

2.根据权利要求1所述的纵向联邦学习数据处理方法，其特征在于，由所述参与方设备对本地存储的训练样本进行分桶处理，包括：

3.根据权利要求2所述的纵向联邦学习数据处理方法，其特征在于，所述非共谋服务器组包括第一服务器及第二服务器，所述基于目标共享法将所述数据桶发送至所述非共谋服务器组，包括：

4.根据权利要求3所述的纵向联邦学习数据处理方法，其特征在于，所述由所述主动方设备基于所述目标共享法将所述梯度向量发送至非共谋服务器组，包括：

5.根据权利要求3所述的纵向联邦学习数据处理方法，其特征在于，所述由所述非共谋服务器组以第一目标协议为基础协同计算得到关于所述数据桶及梯度向量的目标向量，并发送至主动方设备，包括：

6.根据权利要求3所述的纵向联邦学习数据处理方法，其特征在于，所述由所述参与方设备及非共谋服务器组基

7.根据权利要求6所述的纵向联邦学习数据处理方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的纵向联邦学习数据处理方法，其特征在于，所述由所述主动方设备基于获得的共享份额确定答复数据，并发送至所述用户端，包括：

9.一种纵向联邦学习系统，其特征在于，包括由至少两个服务器构成的非共谋服务器组及多个参与方设备，所述多个参与方设备包括主动方设备及多个被动方设备，其中：

10.根据权利要求9所述的纵向联邦学习系统，其特征在于，所述非共谋服务器组包括第一服务器及第二服务器，所述目标共享法为加法共享法；

...

【技术特征摘要】

2.根据权利要求1所述的纵向联邦学习数据处理方法，其特征在于，由所述参与方设备对本地存储的训练样本进行分桶处理，包括：

5.根据权利要求3所述的纵向联邦学习数据处理方法，其特征在于，所述由所述非共谋服务器组以第一目标协议为基础协同...

【专利技术属性】
技术研发人员：高鑫文，付绍静，屈龙江，孙兵，李超，刘国强，柳林，罗玉川，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人