纵向联邦模型的训练方法、信息推荐方法、装置及设备制造方法及图纸

技术编号:32186192 阅读:57 留言:0更新日期:2022-02-08 15:50
本申请提供一种纵向联邦模型的训练方法、信息推荐方法、装置及设备,该纵向联邦模型的训练方法包括:响应于用户的操作,获取操作产生的流式数据,对流式数据进行处理,生成纵向联邦模型的第一流式数据样本,根据预设时间段和第二电子设备中多个第二流式数据样本的用户标识,对多个第一流式数据样本进行样本对齐处理,并对多个对齐处理后的第一流式数据样本进行过滤处理,获取多个目标流式数据样本,使用多个目标流式数据样本对纵向联邦模型进行多轮训练,得到训练好的纵向联邦模型。该技术方案提高了纵向联邦模型的精确度和通过该纵向联邦模型得到的预测结果或分类结果的准确度,减少了训练时间,提高了流式数据样本存储的可靠性。的可靠性。的可靠性。

【技术实现步骤摘要】
纵向联邦模型的训练方法、信息推荐方法、装置及设备


[0001]本申请涉及机器学习
,尤其涉及一种纵向联邦模型的训练方法、信息推荐方法、装置及设备。

技术介绍

[0002]联邦学习框架是一种分布式的人工智能模型训练框架,联邦学习在无需共享用户数据的条件下,使得各个公司共同参与模型训练,有效的解决了数据孤岛问题,保证了数据的安全性。利用训练好的模型能够对用户的操作行为进行预测,从而为用户提供更好的服务,因此,如何对模型进行训练是关键。
[0003]以两个公司参与模型训练为例进行举例说明,两个公司分别为调用方和参与方,调用方的样本中拥有样本特征和样本标签,参与方的样本中拥有和调用方不同的样本特征。调用方和参与方首先需要基于加密的用户样本对齐技术确定双方的共同用户,分別获取共同用户对应的本地样本。调用方和参与方分别根据本地样本对本地的模型进行训练,更新模型的参数,直到损失函数收敛,从而得到训练好的模型。
[0004]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:由于现有技术是使用预先收集并存储在本地的本地样本对模型进行训练,当本地样本数量较大时,其训练时间较长,且无法根据实时产生的流式数据对模型进行训练,模型的精确度较低,通过该模型得到的预测结果不准确。

技术实现思路

[0005]本申请提供一种纵向联邦模型的训练方法、信息推荐方法、装置及设备,以解决由于现有技术是使用预先收集并存储在本地的本地样本对模型进行训练,当本地样本数量较大时,其训练时间较长,且无法根据实时产生的流式数据对模型进行训练,模型的精确度较低,通过该模型得到的预测结果不准确的问题。
[0006]第一方面,本申请实施例提供一种纵向联邦模型的训练方法,所述纵向联邦模型的训练方法应用于第一电子设备,所述方法包括:
[0007]响应于用户的操作,获取所述操作产生的流式数据;
[0008]对所述流式数据进行处理,生成纵向联邦模型的第一流式数据样本,所述第一流式数据样本中包括样本标签,样本时间,至少一个样本特征和用户标识;
[0009]根据预设时间段和第二电子设备中多个第二流式数据样本的用户标识,对多个第一流式数据样本进行样本对齐处理,并对多个对齐处理后的第一流式数据样本进行过滤处理,获取多个目标流式数据样本;
[0010]使用所述多个目标流式数据样本对所述纵向联邦模型进行多轮训练,得到训练好的纵向联邦模型,所述纵向联邦模型用于根据用户的特征信息,获取所述用户的预测结果或分类结果。
[0011]在第一方面的一种可能设计中,所述生成联邦模型的第一流式数据样本之后,所
述方法还包括:
[0012]利用哈希算法将所述第一流式数据样本的用户标识分别存储在预先建立的多个分区中;
[0013]相应的,所述根据预设时间段和第二电子设备中多个第二流式数据样本的用户标识,对多个第一流式数据样本进行样本对齐处理,包括:
[0014]获取每个分区中样本时间处于所述预设时间段中的多个第一用户标识;
[0015]接收所述第二电子设备发送的每个分区中的多个第二用户标识;
[0016]针对每个分区,将所述分区中的多个第一用户标识与获取的所述第二电子设备对应分区的多个第二用户标识进行样本对齐处理,获取多个目标用户标识;
[0017]根据所述多个目标用户标识,获取多个对齐处理后的第一流式数据样本。
[0018]在第一方面的另一种可能设计中,所述过滤处理包括异常值检测处理,缺失值检测处理以及归一化处理中的至少一种。
[0019]可选的,使用多个目标流式数据样本对所述纵向联邦模型进行多轮训练之前,所述方法还包括:
[0020]使用存储在纵向联邦模型训练数据库中的本地数据样本对初始联邦模型进行训练,得到所述纵向联邦模型。
[0021]可选的,所述获取每个分区中样本时间处于所述预设时间段中的多个第一用户标识,包括:
[0022]对样本时间处于所述预设时间段的多个用户标识进行加密处理,得到多个所述第一用户标识。
[0023]第二方面,本申请实施例提供一种信息推荐方法,包括:
[0024]获取用户的特征信息;
[0025]将所述用户的特征信息输入至预先获取的训练好的纵向联邦模型,得到所述用户的预测结果或分类结果,所述训练好的纵向联邦模型是根据响应于多个用户的操作获取的多个流式数据,预设时间段,多个第二流式数据样本的用户标识对纵向联邦模型进行多轮训练得到的;
[0026]根据所述预测结果或所述分类结果,向所述用户进行信息推荐。
[0027]在第二方面的一种可能设计中,所述获取用户的特征信息,包括:
[0028]根据所述用户的用户标识,从用户信息数据库中获取该用户的特征信息。
[0029]第三方面,本申请实施例提供一种纵向联邦模型的训练装置,所述纵向联邦模型的训练装置应用于第一电子设备,所述装置包括:
[0030]获取模块,用于响应于用户的操作,获取所述操作产生的流式数据;
[0031]处理模块,用于对所述流式数据进行处理,生成纵向联邦模型的第一流式数据样本,所述第一流式数据样本中包括样本标签,样本时间,至少一个样本特征和用户标识;
[0032]所述处理模块,还用于根据预设时间段和第二电子设备中多个第二流式数据样本的用户标识,对多个第一流式数据样本进行样本对齐处理,并对多个对齐处理后的第一流式数据样本进行过滤处理,获取多个目标流式数据样本;
[0033]所述处理模块,还用于使用所述多个目标流式数据样本对所述纵向联邦模型进行多轮训练,得到训练好的纵向联邦模型,所述纵向联邦模型用于根据用户的特征信息,获取
所述用户的预测结果或分类结果。
[0034]在第三方面的一种可能设计中,所述生成联邦模型的第一流式数据样本之后,所述处理模块,还用于:
[0035]利用哈希算法将所述第一流式数据样本的用户标识分别存储在预先建立的多个分区中;
[0036]相应的,所述处理模块,具体用于:
[0037]获取每个分区中样本时间处于所述预设时间段中的多个第一用户标识;
[0038]接收所述第二电子设备发送的每个分区中的多个第二用户标识;
[0039]针对每个分区,将所述分区中的多个第一用户标识与获取的所述第二电子设备对应分区的多个第二用户标识进行样本对齐处理,获取多个目标用户标识;
[0040]根据所述多个目标用户标识,获取多个对齐处理后的第一流式数据样本。
[0041]在第三方面的另一种可能设计中,所述过滤处理包括异常值检测处理,缺失值检测处理以及归一化处理中的至少一种。
[0042]可选的,使用多个目标流式数据样本对所述纵向联邦模型进行多轮训练之前,所述处理模块,还用于:
[0043]使用存储在纵向联邦模型训练数据库中的本地数据样本对初始联邦模型进行训练,得到所述纵向联邦模型。
[0044]可选的,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种纵向联邦模型的训练方法,其特征在于,所述纵向联邦模型的训练方法应用于第一电子设备,所述方法包括:响应于用户的操作,获取所述操作产生的流式数据;对所述流式数据进行处理,生成纵向联邦模型的第一流式数据样本,所述第一流式数据样本中包括样本标签,样本时间,至少一个样本特征和用户标识;根据预设时间段和第二电子设备中多个第二流式数据样本的用户标识,对多个第一流式数据样本进行样本对齐处理,并对多个对齐处理后的第一流式数据样本进行过滤处理,获取多个目标流式数据样本;使用所述多个目标流式数据样本对所述纵向联邦模型进行多轮训练,得到训练好的纵向联邦模型,所述纵向联邦模型用于根据用户的特征信息,获取所述用户的预测结果或分类结果。2.根据权利要求1所述的方法,其特征在于,所述生成联邦模型的第一流式数据样本之后,所述方法还包括:利用哈希算法将所述第一流式数据样本的用户标识分别存储在预先建立的多个分区中;相应的,所述根据预设时间段和第二电子设备中多个第二流式数据样本的用户标识,对多个第一流式数据样本进行样本对齐处理,包括:获取每个分区中样本时间处于所述预设时间段中的多个第一用户标识;接收所述第二电子设备发送的每个分区中的多个第二用户标识;针对每个分区,将所述分区中的多个第一用户标识与获取的所述第二电子设备对应分区的多个第二用户标识进行样本对齐处理,获取多个目标用户标识;根据所述多个目标用户标识,获取多个对齐处理后的第一流式数据样本。3.根据权利要求1或2所述的方法,其特征在于,所述过滤处理包括异常值检测处理,缺失值检测处理以及归一化处理中的至少一种。4.根据权利要求3所述的方法,其特征在于,使用多个目标流式数据样本对所述纵向联邦模型进行多轮训练之前,所述方法还包括:使用存储在纵向联邦模型训练数据库中的本地数据样本对初始联邦模型进行训练,得到所述纵向联邦模型。5.根据权利要求2所述的方法,其特征在于,所述获取每个分区中样本时间处于所述预设时间段中的多个第一用户标识,包括:对样本时间处于所述预设时间段的多个用户标识进行加密处理,得到多个所述第一用户标识。6.一种信息推荐方法,其特征在于,包括:获取用户的特征信息;将所述用户的特征信息输入至预先获取的训练好的纵向联邦模型,得到所述用户的预测结果或分类结果,所述训练好的纵向联邦模型是根据响应于多个用户的操作获取的多个流式数据,预设时间段,多个第二流式数据样本的用户标识对纵向联邦模型进行多轮训练得到的;根据所述预测结果或所述分类结果,向所述用户进行信息推荐。
7.根据权利要求6所述的方法,其特征在于,所述获取用户的...

【专利技术属性】
技术研发人员:张德陈行彭南博
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1