【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质
[0001]本公开涉及数据安全
,具体而言,涉及一种数据处理方法、 装置、电子设备及存储介质。
技术介绍
[0002]随着人工智能和大数据挖掘分析等应用领域的发展,对数据量的需求 越来越大。为了进行更大价值的挖掘,往往需要多方数据的融合。这里的 多方数据可以是来源于不同的组织,例如,交易数据可以分散于金融结构, 医疗诊断记录可以是来源于医疗机构,此外,还可以是来自于不同的行业, 例如,同样是交易数据可以来自于电商还可以来自于金融。
[0003]多方数据要素在流通过程中受到监管部门的合规约束,使得将明细数 据集中式收集后训练模型用于业务经营的方式并不可行,这构成了数据壁 垒。为了打破数据壁垒,可以采用联邦学习的方法使得各个参与方在无需 共享其隐私数据的前提下获得全局模型,这里的隐私数据可以是有关目标 用户的标签信息,例如,目标用户是否为高净值用户。在合理挖掘数据的 应用价值的同时,也需要防止出现数据滥用,实现对隐私数据的保护。在 实际应用中,可以通过加密的方式交换模型相 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取针对各个数据样本确定的标签残差值;每个所述标签残差值用于表征对应的数据样本的真实标签与目标模型所预测标签之间的偏差程度;基于各个所述标签残差值对所述各个数据样本进行残差分解,得到所述各个数据样本对应的模型参数修正量;向数据接收方发送所述模型参数修正量,以使得所述数据接收方根据所述模型参数修正量重构所述目标模型的模型参数信息。2.根据权利要求1所述的方法,其特征在于,所述基于各个所述标签残差值对所述各个数据样本进行残差分解,得到所述各个数据样本对应的模型参数修正量,包括:按照数据大小的排列顺序将各个所述标签残差值进行排序,得到排序的各个标签残差值;在从所述各个数据样本中选取出需要进行残差分解的目标数据样本的情况下,对所述目标数据样本所在排序的标签残差值进行变化,得到所述各个数据样本对应的残差变化信息;基于所述各个数据样本对应的残差变化信息以及所述各个数据样本的真实标签,确定所述各个数据样本对应的模型参数修正量。3.根据权利要求2所述的方法,其特征在于,按照如下步骤从所述各个数据样本中选取需要进行残差分解的目标数据样本:按照预设分组数量将所述排序的各个标签残差值进行分组,得到分组后的标签残差值;从每个分组后的标签残差值中选取预设数量个目标标签残差值;将所述目标标签残差值对应的数据样本确定为所述目标数据样本。4.根据权利要求2所述的方法,其特征在于,在所述各个数据样本对应的残差变化信息对应残差变化向量的情况下,所述对所述目标数据样本所在排序的标签残差值进行变化,得到所述各个数据样本对应的残差变化信息,包括:针对每个所述数据样本,在判断出所述数据样本非所述目标数据样本的情况下,确定所述数据样本对应第一残差变化值;或者,在判断出所述数据样本是所述目标数据样本,且所述数据样本的标签残差值大于零的情况下,确定所述数据样本对应第二残差变化值;或者,在判断出所述数据样本是所述目标数据样本,且所述数据样本的标签残差值小于零的情况下,确定所述数据样本对应第三残差变化值;将各个所述数据样本分别对应的残差变化值进行集合,确定所述残差变化向量;其中,所述残差变化向量用于表征所述各个数据样本的标签残差值是否发生变化。5.根据权利要求4所述的方法,其特征在于,所述基于所述各个数据样本对应的残差变化信息以及所述各个数据样本的真实标签,确定所述各个数据样本对应的模型参数修正量,包括:将所述残差变化向量以及所述残差变化向量的转置结果进行点乘运算,确定第一算子;以及,在确定所述各个数据样本的真实标签对应的标签值的情况下,确定与所述标签值对应的第二算子;
基于所述第一算子和所述第二算子,确定所述各个数据样本对应的模型参数修正量。6.根据权利要求2至5任一项所述的方法,其特征在于,在得到所述各个数据样本对应的残差变化信息之后,所述方法还包括:基于所述各个数据样本对应的残差变化信息和所述排序的各个标签残差值之间的乘积运算,确定变化后的标签残差值;基于...
【专利技术属性】
技术研发人员:张远健,周雍恺,陈钟正,
申请(专利权)人:中国银联股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。