一种数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35819069 阅读:30 留言:0更新日期:2022-12-03 13:43
本公开提供了一种数据处理方法、装置、电子设备及存储介质,其中,该方法包括:获取针对各个数据样本确定的标签残差值;每个标签残差值用于表征对应的数据样本的真实标签与目标模型所预测标签之间的偏差程度;基于各个标签残差值对各个数据样本进行残差分解,得到各个数据样本对应的模型参数修正量;向数据接收方发送模型参数修正量,以使得数据接收方根据模型参数修正量重构目标模型的模型参数信息。本公开通过残差分解可以有效地对残差进行扰动,这使得数据发送方能够保护其拥有的真实标签,与此同时,数据发送方可以传递必要的修正信息(即模型参数修正量)给数据接收方以重构精准的模型参数信息,进一步确保了模型的训练性能。能。能。

【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质


[0001]本公开涉及数据安全
,具体而言,涉及一种数据处理方法、 装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能和大数据挖掘分析等应用领域的发展,对数据量的需求 越来越大。为了进行更大价值的挖掘,往往需要多方数据的融合。这里的 多方数据可以是来源于不同的组织,例如,交易数据可以分散于金融结构, 医疗诊断记录可以是来源于医疗机构,此外,还可以是来自于不同的行业, 例如,同样是交易数据可以来自于电商还可以来自于金融。
[0003]多方数据要素在流通过程中受到监管部门的合规约束,使得将明细数 据集中式收集后训练模型用于业务经营的方式并不可行,这构成了数据壁 垒。为了打破数据壁垒,可以采用联邦学习的方法使得各个参与方在无需 共享其隐私数据的前提下获得全局模型,这里的隐私数据可以是有关目标 用户的标签信息,例如,目标用户是否为高净值用户。在合理挖掘数据的 应用价值的同时,也需要防止出现数据滥用,实现对隐私数据的保护。在 实际应用中,可以通过加密的方式交换模型相关信息以实现协同优化本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取针对各个数据样本确定的标签残差值;每个所述标签残差值用于表征对应的数据样本的真实标签与目标模型所预测标签之间的偏差程度;基于各个所述标签残差值对所述各个数据样本进行残差分解,得到所述各个数据样本对应的模型参数修正量;向数据接收方发送所述模型参数修正量,以使得所述数据接收方根据所述模型参数修正量重构所述目标模型的模型参数信息。2.根据权利要求1所述的方法,其特征在于,所述基于各个所述标签残差值对所述各个数据样本进行残差分解,得到所述各个数据样本对应的模型参数修正量,包括:按照数据大小的排列顺序将各个所述标签残差值进行排序,得到排序的各个标签残差值;在从所述各个数据样本中选取出需要进行残差分解的目标数据样本的情况下,对所述目标数据样本所在排序的标签残差值进行变化,得到所述各个数据样本对应的残差变化信息;基于所述各个数据样本对应的残差变化信息以及所述各个数据样本的真实标签,确定所述各个数据样本对应的模型参数修正量。3.根据权利要求2所述的方法,其特征在于,按照如下步骤从所述各个数据样本中选取需要进行残差分解的目标数据样本:按照预设分组数量将所述排序的各个标签残差值进行分组,得到分组后的标签残差值;从每个分组后的标签残差值中选取预设数量个目标标签残差值;将所述目标标签残差值对应的数据样本确定为所述目标数据样本。4.根据权利要求2所述的方法,其特征在于,在所述各个数据样本对应的残差变化信息对应残差变化向量的情况下,所述对所述目标数据样本所在排序的标签残差值进行变化,得到所述各个数据样本对应的残差变化信息,包括:针对每个所述数据样本,在判断出所述数据样本非所述目标数据样本的情况下,确定所述数据样本对应第一残差变化值;或者,在判断出所述数据样本是所述目标数据样本,且所述数据样本的标签残差值大于零的情况下,确定所述数据样本对应第二残差变化值;或者,在判断出所述数据样本是所述目标数据样本,且所述数据样本的标签残差值小于零的情况下,确定所述数据样本对应第三残差变化值;将各个所述数据样本分别对应的残差变化值进行集合,确定所述残差变化向量;其中,所述残差变化向量用于表征所述各个数据样本的标签残差值是否发生变化。5.根据权利要求4所述的方法,其特征在于,所述基于所述各个数据样本对应的残差变化信息以及所述各个数据样本的真实标签,确定所述各个数据样本对应的模型参数修正量,包括:将所述残差变化向量以及所述残差变化向量的转置结果进行点乘运算,确定第一算子;以及,在确定所述各个数据样本的真实标签对应的标签值的情况下,确定与所述标签值对应的第二算子;
基于所述第一算子和所述第二算子,确定所述各个数据样本对应的模型参数修正量。6.根据权利要求2至5任一项所述的方法,其特征在于,在得到所述各个数据样本对应的残差变化信息之后,所述方法还包括:基于所述各个数据样本对应的残差变化信息和所述排序的各个标签残差值之间的乘积运算,确定变化后的标签残差值;基于...

【专利技术属性】
技术研发人员:张远健周雍恺陈钟正
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1