联邦学习模型的数据处理方法、装置及存储介质制造方法及图纸

技术编号:29874311 阅读:24 留言:0更新日期:2021-08-31 23:49
本申请提供了一种联邦学习模型的数据处理方法、装置,应用于第一参与方设备;方法包括:获取用作联邦学习模型的训练样本的特征集合以及训练样本对应联邦学习模型的目标预测结果,对所特征集合中各特征进行组合,得到多个特征子集,获取各特征子集的权重分数,基于权重分数的大小,从多个特征子集采样得到多个目标特征子集;基于多个目标特征子集,以及目标特征子集对应联邦学习模型的预测结果,对线性回归模型进行训练,得到线性回归模型收敛时的模型参数;基于模型参数,确定特征集合中各特征对应所述目标预测结果的贡献信息。通过本申请,能够衡量单条样本中每个特征的贡献信息,同时能够有效减少模型的计算量,提高计算效率。

【技术实现步骤摘要】
联邦学习模型的数据处理方法、装置及存储介质
本申请涉及人工智能技术,尤其涉及一种联邦学习模型的数据处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着各行各业逐渐加强数据隐私保护的大趋势下,联邦学习,一种可以在保护数据隐私的情况下协同多方数据建立机器学习的技术,成为了各企业、行业间合作的关键之一。在金融、风控领域,联邦机器学习模型使用者往往想要知道,单条模型输入中的各特征对于模型输出的正向与负向影响。如对于某个特定样本(比方说违约的客户),具体是哪个特征以及该特征的哪些取值,对确定该用户是违约用户产生了重要的影响。另外,还需要确定合作方提供的特征对于模型输出的正向与负向影响。因此,对联邦机器学习模型的可解释性显得尤为重要。相关联邦学习模型解释方案,通过获取特征重要度从整体上对模型进行解释,无法具体的解释单条样本。另外,虽然使用特征重要度能够得知合作方的特征使用了多少次,但是合作方特征对于模型输出结果的影响的正负性是不可知的,且确定特征贡献信息时模型计算量非常庞大,实际部署成本高。专利
技术实现思路
本申本文档来自技高网
...

【技术保护点】
1.一种联邦学习模型的数据处理方法,其特征在于,应用于第一参与方设备,所述方法包括:/n获取用作联邦学习模型的训练样本的特征集合以及所述训练样本对应所述联邦学习模型的目标预测结果,并对所述特征集合中各特征进行组合,得到多个特征子集,所述特征集合包括:具有标签信息的第一参与方所提供的特征、以及至少一个第二参与方提供的特征;/n获取各所述特征子集的权重分数,并基于所述权重分数的大小,从所述多个特征子集采样得到多个目标特征子集;/n基于多个所述目标特征子集,以及所述目标特征子集对应所述联邦学习模型的预测结果,对线性回归模型进行训练,得到所述线性回归模型收敛时的模型参数;/n基于所述模型参数,确定所述...

【技术特征摘要】
1.一种联邦学习模型的数据处理方法,其特征在于,应用于第一参与方设备,所述方法包括:
获取用作联邦学习模型的训练样本的特征集合以及所述训练样本对应所述联邦学习模型的目标预测结果,并对所述特征集合中各特征进行组合,得到多个特征子集,所述特征集合包括:具有标签信息的第一参与方所提供的特征、以及至少一个第二参与方提供的特征;
获取各所述特征子集的权重分数,并基于所述权重分数的大小,从所述多个特征子集采样得到多个目标特征子集;
基于多个所述目标特征子集,以及所述目标特征子集对应所述联邦学习模型的预测结果,对线性回归模型进行训练,得到所述线性回归模型收敛时的模型参数;
基于所述模型参数,确定所述特征集合中各特征对应所述目标预测结果的贡献信息。


2.根据权利要求1所述的方法,其特征在于,基于所述权重分数的大小,从所述多个特征子集采样得到多个目标特征子集,包括:
按照权重分数由大到小的顺序,对各所述特征子集的权重分数进行排序,得到权重分数序列;
依据所述权重分数序列,从权重分数最大的特征子集开始顺序采样,得到第一数量的特征子集作为目标特征子集;
其中,所述第一数量小于所述特征集合对应的特征子集的总数。


3.根据权利要求1所述的方法,其特征在于,基于所述权重分数的大小,从所述多个特征子集采样得到多个目标特征子集,包括:
对各所述特征子集的权重分数进行正则化处理,得到各所述权重分数对应的比例系数;
基于各所述权重分数对应的比例系数,从所述多个特征子集采样得到多个目标特征子集。


4.根据权利要求3所述的方法,其特征在于,所述基于各所述权重分数对应的比例系数,从所述多个特征子集采样得到多个目标特征子集,包括:
按照比例系数的大小,对各所述权重分数对应的比例系数进行排序,得到比例系数序列;
依据所述比例系数序列中比例系数的排序,依次对各所述比例系数执行以下处理,直至获取目标采样数量的目标特征子集:
获取当前采样数,并确定所述比例系数与当前采样数的乘积,将所述乘积作为当前容量值;
获取所述比例系数对应的特征子集的数量;
当所述当前容量值大于所述数量时,将所述比例系数对应的特征子集作为目标特征子集;
当所述当前容量值小于所述数量时,从未被选中的所述特征子集中,随机选取与所述当前采样数相同数量的特征子集作为目标特征子集。


5.根据权利要求3所述的方法,其特征在于,所述基于各所述权重分数对应的比例系数,从所述多个特征子集采样得到多个目标特征子集,包括:
分别针对各所述比例系数执行以下处理:
获取当前采样数,并确定所述比例系数与当前采样数的乘积,将所述乘积作为当前容量值;
获取所述比例系数对应的特征子集的数量;
当所述当前容量值大于等于所述数量时,将所述比例系数对应的特征子集作为目标特征子集
当所述当前容量值小于所述数量时,从未被选中的所述特征子集中,随机选取所述数量的特征子集作为目标特征子集。


6.根据权利要求1所述的方法,其特征在于,所述基于多个所述目标特征子集,以及所述...

【专利技术属性】
技术研发人员:陈伟敬马国强范涛陈天健
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1