基于联邦学习的数据处理方法、装置及存储介质制造方法及图纸

技术编号:33044420 阅读:101 留言:0更新日期:2022-04-15 09:27
本申请涉及联邦学习领域,提供一种基于联邦学习的数据处理方法、装置及存储介质。该方法应用于存储有多个第一样本的第一终端,包括:接收第二终端发送的第一、第二密文向量;根据各个第一样本的特征值,确定全部第一样本的各候选分裂方式,每个候选分裂方式将全部第一样本划分为两部分;基于各候选分裂方式分别构建掩码向量,每一掩码向量为根据对应候选分裂方式将全部第一样本划分后的划分结果;根据每个候选分裂方式的掩码向量、第一和第二密文向量,计算各候选分裂方式的分裂增益;其中,第一、第二密文向量和掩码向量均包括数量、结构均相同两个独立的数据元素。本申请针对各候选分裂方式构建掩码向量,简化了数据处理过程,提高了效率。提高了效率。提高了效率。

【技术实现步骤摘要】
基于联邦学习的数据处理方法、装置及存储介质


[0001]本申请的实施例涉及联邦学习领域,更具体地涉及基于联邦学习的数据处理方法、装置及存储介质。

技术介绍

[0002]随着社会信息化和网络化的迅速发展,数据呈爆炸式增长。很多企业或机构通常需要使用大量的数据优化各自的业务功能,由于企业或机构通常业务功能较为单一,获取到的数据也较为片面,因此需要结合其他方的数据共同对自身的业务功能进行优化。然而,每个企业或机构的数据通常都会包含一些个人隐私、商业机密等较为敏感的信息,为了保证数据安全,不能随意的将数据进行公开。
[0003]现有技术中,基于联邦学习的模型的训练通常是通过对各参与方数据进行加密后发送至聚合方,聚合方根据各参与方的加密数据列举节点的候选分裂方式,以计算各候选分裂方式的分裂增益确定最佳分裂方式来实现模型的训练;但是现有技术中根据加密数据计算分裂增益由于计算时需要对应每个候选分裂方式的左、右子树都进行一次计算的原因,导致其数据处理效率较低,进而会造成模型的训练效率低下的问题,使得模型难以快速投入到实际应用。

技术实现思路

[0004]但是,出于分裂方式的分裂增益计算方式的原因,现有技术在根据加密数据计算分裂增益时需要对应每个候选分裂方式的左、右子树都进行一次计算,且对于各个分裂方式均对应左、右子树进行计算的耗时较长。
[0005]因此在现有技术中,根据加密数据计算分裂增益的计算方法导致数据处理效率较低是非常令人烦恼的过程。
[0006]为此,非常需要一种改进的基于联邦学习的数据处理方法,以使数据处理的效率提升。
[0007]本申请的实施例期望提供一种基于联邦学习的数据处理方法、装置及存储介质。
[0008]在本申请的第一方面中,提供了一种基于联邦学习的数据处理方法,应用于存储有多个第一样本的第一终端,包括:
[0009]接收第二终端发送的第一密文向量和第二密文向量;
[0010]根据各个第一样本的特征值,确定全部第一样本的各个候选分裂方式,每个候选分裂方式将全部第一样本划分为两部分;
[0011]基于各个候选分裂方式分别构建掩码向量,每一所述掩码向量表示根据对应候选分裂方式将全部第一样本划分后,各个第一样本为左子树节点或右子树节点;
[0012]根据每个候选分裂方式的掩码向量、所述第一密文向量和所述第二密文向量,计算各个候选分裂方式的分裂增益;
[0013]其中,所述第一密文向量、所述第二密文向量和所述掩码向量均包括相同数量的
数据元素,每个数据元素具有相同的数据结构,包括两个独立的部分。
[0014]在本申请的第二方面中,提供了一种基于联邦学习的数据处理方法,应用于存储有多个第二样本和对应的多个标签的第二终端,包括:
[0015]根据各个第二样本的特征值和对应的标签,获取各个第二样本的一阶导数和二阶导数;
[0016]将各个一阶导数编码为第一明文向量,并将所述第一明文向量同态加密为第一密文向量;
[0017]将各个二阶导数编码为第二明文向量,并将所述第二明文向量同态加密为第二密文向量;
[0018]将所述第一密文向量和第二密文向量发送至第一终端;
[0019]其中,所述第一密文向量和所述第二密文向量均包括相同数量的数据元素,每个数据元素具有相同的数据结构,对应一个一阶导数或二阶导数,包括两个独立的部分。
[0020]在本申请的第三方面中,提供了一种基于联邦学习的数据处理装置,应用于存储有多个第一样本的第一终端,所述装置包括:
[0021]接收模块,被配置为接收第二终端发送的第一密文向量和第二密文向量;
[0022]处理模块,被配置为根据各个第一样本的特征值,确定全部第一样本的各个候选分裂方式,每个候选分裂方式将全部第一样本划分为两部分;以及
[0023]基于各个候选分裂方式分别构建掩码向量,每一所述掩码向量表示根据对应候选分裂方式将全部第一样本划分后,各个第一样本为左子树节点或右子树节点;
[0024]计算模块,被配置为根据每个候选分裂方式的掩码向量、所述第一密文向量和所述第二密文向量,计算各个候选分裂方式的分裂增益;
[0025]其中,所述第一密文向量、所述第二密文向量和所述掩码向量均包括相同数量的数据元素,每个数据元素具有相同的数据结构,包括两个独立的部分。
[0026]在本申请的第四方面中,提供了一种基于联邦学习的数据处理装置,应用于存储有多个第二样本和对应的多个标签的第二终端,所述装置包括:
[0027]获取模块,被配置为根据各个第二样本的特征值和对应的标签,获取各个第二样本的一阶导数和二阶导数;
[0028]加密模块,被配置为将各个一阶导数编码为第一明文向量,并将所述第一明文向量同态加密为第一密文向量;以及
[0029]将各个二阶导数编码为第二明文向量,并将所述第二明文向量同态加密为第二密文向量;
[0030]发送模块,被配置为将所述第一密文向量和第二密文向量发送至第一终端;
[0031]其中,所述第一密文向量和所述第二密文向量均包括相同数量的数据元素,每个数据元素具有相同的数据结构,对应一个一阶导数或二阶导数,包括两个独立的部分。
[0032]在本申请的第五方面中,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行第一方面或第二方面中所述的数据处理方法。
[0033]在本申请的第六方面中,提供了一种计算设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面或第二方面中所述的数据处理方法。
[0034]本申请实施例的基于联邦学习的数据处理方法、装置及存储介质和计算设备,可以根据各候选分裂方式的不同构建对应的掩码向量,即根据对应候选分裂方式将全部第一样本划分后各个第一样本为左子树节点或右子树节点构建掩码向量,在分裂增益计算过程中直接利用从第二终端接收到的第一密文向量、第二密文向量和所述格候选方式对应的掩码向量计算各候选分裂方式的分裂增益,具体包括提取所述掩码向量与所述第一密文向量和第二密文向量分别进行向量内积运算的结果确定所述各候选分裂方式的分裂增益,即一次运算就可以获取左、右子树的分别对应的结果;从而避免根据加密数据计算分裂增益由于计算时需要对应每个候选分裂方式的左、右子树都进行一次计算的问题,提高了分裂增益的计算速度,加快了联邦学习模型在训练中数据处理的进程。
附图说明
[0035]通过参考附图阅读下文的详细描述,本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施例,其中:
[0036]图1为本申请一实施例提供的基于联邦学习的数据处理系统的应用场景示意图;
[0037]图2为本申请一实施例提供的基于联邦学习的数据处理方法的信令交互示意图;
[0038]图3为本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的数据处理方法,应用于存储有多个第一样本的第一终端,所述数据处理方法包括:接收第二终端发送的第一密文向量和第二密文向量;根据各个第一样本的特征值,确定全部第一样本的各个候选分裂方式,每个候选分裂方式将全部第一样本划分为两部分;基于各个候选分裂方式分别构建掩码向量,每一所述掩码向量表示根据对应候选分裂方式将全部第一样本划分后,各个第一样本为左子树节点或右子树节点;根据每个候选分裂方式的掩码向量、所述第一密文向量和所述第二密文向量,计算各个候选分裂方式的分裂增益;其中,所述第一密文向量、所述第二密文向量和所述掩码向量均包括相同数量的数据元素,每个数据元素具有相同的数据结构,包括两个独立的部分。2.如权利要求1所述的基于联邦学习的数据处理方法,其中,基于一个候选分裂方式构建一个掩码向量,包括:根据所述候选分裂方式将各个第一样本划分到左子树或右子树;为左子树的每一个第一样本对应构建第一掩码元素,为右子树的每一个第一样本对应构建第二掩码元素;按照各个第一掩码元素和第二掩码元素对应的第一样本在全部第一样本中的顺序,将各个第一掩码元素和第二掩码元素组合为掩码向量;其中,所述第一掩码元素和第二掩码元素均为复数结构,并被配置为作为掩码向量中的数据元素与第一密文向量或第二密文向量中的数据元素进行内积运算后,仅保留实部或虚部。3.如权利要求2所述的基于联邦学习的数据处理方法,其中,所述第一密文向量和所述第二密文向量中的数据元素、所述第一掩码元素和所述第二掩码元素被配置为各自的实部与虚部的绝对值相同,且第一掩码元素与第二掩码元素共轭。4.如权利要求2或3所述的基于联邦学习的数据处理方法,其中,根据一个候选分裂方式的掩码向量、所述第一密文向量和第二密文向量,计算所述一个候选分裂方式的分裂增益,包括:将所述掩码向量与所述第一密文向量和第二密文向量分别进行向量内积运算;提取所述掩码向量与所述第一密文向量的内积运算结果中的第一实部和第一虚部,所述第一实部和第一虚部分别为左子树或右子树中的各个第一样本的一阶导数之和;提取所述掩码向量与所述第二密文向量的内积运算结果中的第二实部和第二虚部,所述第二实部和第二虚部分别为左子树或右子树中的各个第二样本的二阶导数之和;根据所述第一实部、第一虚部、第二实部和第二虚部,计算根据所述候选分裂方式分裂后的分裂增益。5.一种基于联邦学习的数据处理方法,应用于存储有多个第二样本和对应的多个标签的第二终端,所述数据处理方法包括:根据各个第二样本的特征值和对应的标签,获取各个第二样本的一阶导数和二阶导数;将各个一阶导数编码为第一明文向量,并将所述第一明文向量同态加密为第一密文向
量;将各个二阶导数编码为第二明文向量,并将所述第二明文向量同态加密为第二密文向量;将所述第一密文向量和第二密文向量发送至第一终端;其中,所述第一密文向量和所述第二密文向量均包括相同数量的数据元素,每个数据元素具有相同的数据结构,对应一...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:北京瑞莱智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1