基于联邦学习的数据处理方法、装置及存储介质制造方法及图纸

技术编号：33044420 阅读：101 留言：0更新日期：2022-04-15 09:27

本申请涉及联邦学习领域，提供一种基于联邦学习的数据处理方法、装置及存储介质。该方法应用于存储有多个第一样本的第一终端，包括：接收第二终端发送的第一、第二密文向量；根据各个第一样本的特征值，确定全部第一样本的各候选分裂方式，每个候选分裂方式将全部第一样本划分为两部分；基于各候选分裂方式分别构建掩码向量，每一掩码向量为根据对应候选分裂方式将全部第一样本划分后的划分结果；根据每个候选分裂方式的掩码向量、第一和第二密文向量，计算各候选分裂方式的分裂增益；其中，第一、第二密文向量和掩码向量均包括数量、结构均相同两个独立的数据元素。本申请针对各候选分裂方式构建掩码向量，简化了数据处理过程，提高了效率。提高了效率。提高了效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于联邦学习的数据处理方法、装置及存储介质

[0001]本申请的实施例涉及联邦学习领域，更具体地涉及基于联邦学习的数据处理方法、装置及存储介质。

技术介绍

[0002]随着社会信息化和网络化的迅速发展，数据呈爆炸式增长。很多企业或机构通常需要使用大量的数据优化各自的业务功能，由于企业或机构通常业务功能较为单一，获取到的数据也较为片面，因此需要结合其他方的数据共同对自身的业务功能进行优化。然而，每个企业或机构的数据通常都会包含一些个人隐私、商业机密等较为敏感的信息，为了保证数据安全，不能随意的将数据进行公开。
[0003]现有技术中，基于联邦学习的模型的训练通常是通过对各参与方数据进行加密后发送至聚合方，聚合方根据各参与方的加密数据列举节点的候选分裂方式，以计算各候选分裂方式的分裂增益确定最佳分裂方式来实现模型的训练；但是现有技术中根据加密数据计算分裂增益由于计算时需要对应每个候选分裂方式的左、右子树都进行一次计算的原因，导致其数据处理效率较低，进而会造成模型的训练效率低下的问题，使得模型难以快速投入到实际应用。

技术实现思路

[0004]但是，出于分裂方式的分裂增益计算方式的原因，现有技术在根据加密数据计算分裂增益时需要对应每个候选分裂方式的左、右子树都进行一次计算，且对于各个分裂方式均对应左、右子树进行计算的耗时较长。
[0005]因此在现有技术中，根据加密数据计算分裂增益的计算方法导致数据处理效率较低是非常令人烦恼的过程。
[0006]为此，非常需要一种改进的基于联邦学习的...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的数据处理方法，应用于存储有多个第一样本的第一终端，所述数据处理方法包括：接收第二终端发送的第一密文向量和第二密文向量；根据各个第一样本的特征值，确定全部第一样本的各个候选分裂方式，每个候选分裂方式将全部第一样本划分为两部分；基于各个候选分裂方式分别构建掩码向量，每一所述掩码向量表示根据对应候选分裂方式将全部第一样本划分后，各个第一样本为左子树节点或右子树节点；根据每个候选分裂方式的掩码向量、所述第一密文向量和所述第二密文向量，计算各个候选分裂方式的分裂增益；其中，所述第一密文向量、所述第二密文向量和所述掩码向量均包括相同数量的数据元素，每个数据元素具有相同的数据结构，包括两个独立的部分。2.如权利要求1所述的基于联邦学习的数据处理方法，其中，基于一个候选分裂方式构建一个掩码向量，包括：根据所述候选分裂方式将各个第一样本划分到左子树或右子树；为左子树的每一个第一样本对应构建第一掩码元素，为右子树的每一个第一样本对应构建第二掩码元素；按照各个第一掩码元素和第二掩码元素对应的第一样本在全部第一样本中的顺序，将各个第一掩码元素和第二掩码元素组合为掩码向量；其中，所述第一掩码元素和第二掩码元素均为复数结构，并被配置为作为掩码向量中的数据元素与第一密文向量或第二密文向量中的数据元素进行内积运算后，仅保留实部或虚部。3.如权利要求2所述的基于联邦学习的数据处理方法，其中，所述第一密文向量和所述第二密文向量中的数据元素、所述第一掩码元素和所述第二掩码元素被配置为各自的实部与虚部的绝对值相同，且第一掩码元素与第二掩码元素共轭。4.如权利要求2或3所述的基于联邦学习的数据处理方法，其中，根据一个候选分裂方式的掩码向量、所述第一密文向量和第二密文向量，计算所述一个候选分裂方式的分裂增益，包括：将所述掩码向量与所述第一密文向量和第二密文向量分别进行向量内积运算；提取所述掩码向量与所述第一密文向量的内积运算结果中的第一实部和第一虚部，所述第一实部和第一虚部分别为左子树或右子树中的各个第一样本的一阶导数之和；提取所述掩码向量与所述第二密文向量的内积运算结果中的第二实部和第二虚部，所述第二实部和第二虚部分别为左子树或右子树中的各个第二样本的二阶导数之和；根据所述第一实部、第一虚部、第二实部和第二虚部，计算根据所述候选分裂方式分裂后的分裂增益。5.一种基于联邦学习的数据处理方法，应用于存储有多个第二样本和对应的多个标签的第二终端，所述数据处理方法包括：根据各个第二样本的特征值和对应的标签，获取各个第二样本的一阶导数和二阶导数；将各个一阶导数编码为第一明文向量，并将所述第一明文向量同态加密为第一密文向
量；将各个二阶导数编码为第二明文向量，并将所述第二明文向量同态加密为第二密文向量；将所述第一密文向量和第二密文向量发送至第一终端；其中，所述第一密文向量和所述第二密文向量均包括相同数量的数据元素，每个数据元素具有相同的数据结构，对应一...

【专利技术属性】
技术研发人员：ꢀ七四专利代理机构，
申请(专利权)人：北京瑞莱智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人