数据处理方法、相关装置及存储介质制造方法及图纸

技术编号:34986335 阅读:28 留言:0更新日期:2022-09-21 14:31
本申请实施例涉及数据处理领域,提供一种数据处理方法、相关装置及存储介质,该方法包括:特征方设备根据自身分箱处理后得到的第一分箱结果,与接收到的标签方设备发送的标签密文,得到分箱概况密文,所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量;标签方设备根据接收到的特征方设备发送的分箱概况密文进行解密,对第一分箱结果进行合箱优化,得到第二分箱结果;其中,所述第二分箱结果中的箱子数量不多于所述第一分箱结果中的箱子数量。本申请实施例提供了一种数据隐私保护场景下实现有监督分箱的新方式,且可以通过有点同态或全同态加密提高数据的安全性和隐私性。性。性。

【技术实现步骤摘要】
数据处理方法、相关装置及存储介质


[0001]本申请实施例涉及数据处理领域,更具体地涉及一种数据处理方法、相关装置及存储介质。

技术介绍

[0002]信息价值&证据权重(Information Value & Weight of Evidence,IV

WoE)特征工程方法,是在风险分析、商品推荐等场景下对结构化数据采用的常用特征工程方法,通常作为机器学习的前置步骤。但在联邦学习,尤其是纵向联邦学习中,标签数据与特征数据可能属于不同的数据属主,且联邦学习要求在特征工程处理过程中不泄露各方原始数据,这对IV

WoE这种需要结合标签进行特征工程的方法提出了极大挑战。
[0003]在机器学习中,进行特征分箱并基于分箱结果求变量的显著性等过程往往是特征工程的重要方法,比如,要考察特征与标签之间的相关程度时,信息价值(Information Value,IV)往往是变量显著性的重要指标,可运用于特征选择之中。
[0004]特征分箱方法分为无监督分箱和有监督分箱。在无监督分箱中,对特征进行分箱时不需要依据样本标签。而在有监督分箱中,需要结合样本标签对特征进行分箱。
[0005]在有监督分箱中,一种应用场景是,样本的特征值和标签值分布在不同的持有方中,并且每个持有方对各自的数据存在隐私保护的要求,不会将自身数据进行明文输出。但是,两方为了联合训练模型等目的,又需要对特征值进行有监督的分箱。因此,希望能有改进的方案,可以在特征值和标签值分布在不同方的场景下实现有监督分箱,同时保证各方数据的隐私性和安全性。

技术实现思路

[0006]本申请实施例提供一种数据处理方法、相关装置及存储介质,能够在保证各方数据隐私不泄露的情况下,实现有监督分箱。
[0007]第一方面,本申请实施例从特征方设备角度提供一种数据处理方法,该方法应用于特征方设备,所述特征方设备存储有多个特征值,所述方法包括:接收标签方设备发送的标签密文,其中,所述标签密文由标签方设备对标签明文进行同态加密后得到,所述标签明文包括多个标签值,所述标签值和所述特征值一一对应;对所述多个特征值进行分箱处理,得到第一分箱结果,其中,所述第一分箱结果用于表示各个特征值归属的箱子;基于所述第一分箱结果和所述标签密文,得到分箱概况密文,所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量;将所述分箱概况密文发送至标签方设备。
[0008]第二方面,本申请实施例从标签方设备角度提供一种数据处理方法,该方法应用于标签方设备,所述标签方设备存储有多个标签值,所述方法包括:对所述标签明文进行同态加密,构造标签密文,并将所述标签密文发送至特征方
设备;接收特征方设备发送的分箱概况密文,其中,所述分箱概况密文由特征方设备基于第一分箱结果、所述标签密文计算得到;解密所述分箱概况密文,得到分箱概况明文,其中,所述分箱概况明文用于确定各个箱子的正、负样本数量;根据所述分箱概况明文对第一分箱结果进行合箱优化,获取第二分箱结果;其中,所述第二分箱结果中的箱子数量不多于所述第一分箱结果中的箱子数量。
[0009]第三方面,本申请实施例提供一种数据处理装置,具有实现对应于上述第一方面提供的数据处理方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
[0010]在一个实施方式中,所述数据处理装置应用于特征方设备,所述特征方设备存储有多个特征值,所述装置包括:收发模块,被配置为接收标签方设备发送的标签密文,其中,所述标签密文由标签方设备对标签明文进行同态加密后得到,所述标签明文包括多个标签值,所述标签值和所述特征值一一对应;处理模块,被配置为对所述多个特征值进行分箱处理,得到第一分箱结果,其中,所述第一分箱结果用于表示各个特征值归属的箱子;所述处理模块,还被配置为基于所述第一分箱结果和所述标签密文,得到分箱概况密文,所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量;所述收发模块,还被配置为将所述分箱概况密文发送至标签方设备。
[0011]第四方面,本申请实施例提供一种数据处理装置,具有实现对应于上述第二方面提供的数据处理方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的单元,所述单元可以是软件和/或硬件。
[0012]在一个实施方式中,所述数据处理装置应用于标签方设备,所述标签方设备存储有标签明文,所述标签明文包括多个标签值,所述装置包括:处理单元,被配置为对所述标签明文进行同态加密,构造标签密文,并将所述标签密文发送至特征方设备;收发单元,被配置为接收特征方设备发送的分箱概况密文,其中,所述分箱概况密文由特征方设备基于第一分箱结果、所述标签密文计算得到;所述处理单元,还被配置为解密所述分箱概况密文,得到分箱概况明文,其中,所述分箱概况明文用于确定各个箱子的正、负样本数量;所述处理单元,还被配置为根据所述分箱概况明文对第一分箱结果进行合箱优化,获取第二分箱结果;其中,所述第二分箱结果中的箱子数量不多于所述第一分箱结果中的箱子数量。
[0013]第五方面,本申请实施例提供一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行第一方面中所述的数据处理方法,或执行第二方面中所述的数据处理方法。
[0014]第六方面,本申请实施例提供一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面中所述的数据处理方法,或实现第二方面中所述的数据处理方法。
[0015]相较于现有技术,本申请实施例中,特征方设备根据自身持有的特征值分箱处理后得到的第一分箱结果,与接收到的标签方设备发送的对多个标签值整体同态加密得到的标签密文进行计算,得到分箱概况密文,所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量。一方面,由于标签方设备发送的是多个标签值整体同态加密后得到的标签密文,而不是一些现有技术中的各个标签值单独同态加密后得到的多个加密标签值,因此,减少了标签方设备加密处理的次数,节省了计算时间和计算资源。另一方面,由于特征方设备基于标签密文、第一分箱结果可以仅通过一次计算得到分箱概况密文,即仅通过一次数据发送过程就能够使得标签方设备得到各个箱子的正样本数量或负样本数量,而不是一些现有技术中的需要将各个加密标签值作为中介在特征方设备和标签方设备之间来回传输,以便标签方设备确定各个特征值归属的箱子,从而标签方设备可以结合各个特征值的标签值确定各个箱子的正样本数量或负样本数量,因此,本申请实施例节省了数据传输时间和资源,且处理效率更高。标签方设备接收到特征方设备发送的分箱概况密文之后,可以解密得到分箱概况明文,标签方设备基于分箱概况明文对第一分箱结果进行合箱优化,得到第二分箱结果;其中,所述第二分箱结果中的箱子数量不多于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,应用于特征方设备,所述特征方设备存储有多个特征值,所述方法包括:接收标签方设备发送的标签密文,其中,所述标签密文由标签方设备对标签明文进行同态加密后得到,所述标签明文包括多个标签值,所述标签值和所述特征值一一对应;对所述多个特征值进行分箱处理,得到第一分箱结果,其中,所述第一分箱结果用于表示各个特征值归属的箱子;基于所述第一分箱结果和所述标签密文,得到分箱概况密文,所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量;将所述分箱概况密文发送至标签方设备。2.如权利要求1所述的方法,其中,所述标签值的数值为0或1;所述基于所述第一分箱结果和所述标签密文,得到分箱概况密文,包括:基于所述第一分箱结果构造分箱节点矩阵,其中,所述分箱节点矩阵中的任一行或任一列用于表示一个箱子的样本分布,且所述分箱节点矩阵中的各个矩阵元素的数值为0或1;以及获取所述分箱节点矩阵与所述标签密文的矩阵乘法运算结果,作为所述分箱概况密文;或者基于所述第一分箱结果构造多个子分箱向量,其中,所述子分箱向量与所述箱子一一对应,且任一所述子分箱向量中的各个向量元素的数值为0或1;以及分别获取所述多个子分箱向量与所述标签密文的数量积,作为所述分箱概况密文。3.如权利要求2所述的方法,其中,在分箱节点矩阵中,列数量与所述特征值的数量一致,行数量与所述第一分箱结果的箱子数量一致;或者在分箱节点矩阵中,列数量与所述第一分箱结果的箱子数量一致,行数量与所述特征值的数量一致;在子分箱向量中,向量元素的数量与所述特征值的数量一致。4.如权利要求1所述的方法,其中,所述多个特征值中的至少部分不为数值,在对所述多个特征值进行分箱处理之前,所述方法还包括:将非数值的多个特征值分别映射,得到多个分箱值,其中,所述分箱值为数值,且所述分箱值与所述特征值一一对应;基于所述多个分箱值对所述多个特征值进行分箱处理,得到第一分箱结果;其中,采用无监督分箱的方式基于所述多个分箱值对所述多个特征值进行分箱。5.如权利要求2或3所述的方法,其中,所述分箱概况密文解密后仅用于表示各个箱子的正样本数量或负样本数量;所述对所述多个特征值进行分箱处理,得到第一分箱结果之后,所述方法还包括:获取各个箱子的样本数量,并将所述各个箱子的样本数量加密发送至所述标签方设备;其中,所述各个箱子的样本数量基于分箱节点矩阵、子分箱向量或第一分箱结果获取;基于分箱节点矩阵获取所述各个箱子的样本数量,包括:基于所述分箱节点矩阵各行中矩阵元素的数值之和确定各个箱子的样本数量,其中,所述分箱节点矩阵的每一行与一个箱子对应;
基于子分箱向量获取所述子分箱向量关...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:北京瑞莱智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1