System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练的方法、对象推荐的方法、装置、设备及介质制造方法及图纸_技高网

模型训练的方法、对象推荐的方法、装置、设备及介质制造方法及图纸

技术编号:40427673 阅读:12 留言:0更新日期:2024-02-20 22:48
本申请实施例提供了一种模型训练的方法、对象推荐的方法、装置、设备及介质,应用于计算机技术领域,可涉及人工智能和机器学习等领域,该模型训练的方法可以包括:获取待训练的推荐模型的训练集,然后针对每一维度的每一特征值,确定第一数量的正样本中包括该特征值的正样本的第三数量,以及第二数量的负样本中包括该特征值的负样本的第四数量,然后根据各维度的每一特征值对应的第三数量和第四数量,确定每一维度的每一特征值在训练集中的异常程度,将每一训练样本的每一特征值对应的异常程度作为该样本的该特征值不参与模型预测的概率,基于各训练样本以及样本对应的各维度的特征值的异常程度,对待训练的推荐模型进行训练。

【技术实现步骤摘要】

本申请属于计算机,具体而言,本申请涉及一种模型训练的方法、对象推荐的方法、装置、设备及介质


技术介绍

1、在对象推荐的业务中,例如针对实时接口(real-time api,rta)广告业务,合作商家的数据链路出于隐私原因不会被全部地获取到,导致只能获取到点击数据,而后面的转化数据,全由商家提供。而转化数据由于量少,经常存在特征分布异常,比如某些特征的某个取值的分布异常,模型在学习过程中严重倾向该特征,导致模型泛化性能很弱。比如在某面向85后的游戏商家,年龄为85后的人群特征重要性特别高,模型会严重倾向于年龄特征,导致泛化能力弱。

2、出现这种异常的原因可能是符合业务的分布异常所导致的,因此,如何在符合业务的分布异常的情况下,模型泛化能力弱的问题。


技术实现思路

1、本申请实施例的目的旨在提供一种能够在缓解符合业务的分布异常的情况下提升模型泛化能力的模型训练的方法、对象推荐的方法、装置、设备及介质。为了实现上述目的,本申请实施例提供的技术方案如下:

2、第一方面,提供了一种模型训练的方法,包括:

3、获取待训练的推荐模型的训练集,所述训练集包括多个训练样本,所述多个训练样本包括第一数量的正样本和第二数量的负样本,每个所述训练样本包括一个样本对象的对象特征,所述对象特征包括至少两个维度的特征值,其中,所述正样本为样本对象对被推荐对象感兴趣的样本,所述待训练的推荐模型用于预测训练样本对应的样本对象对被推荐对象感兴趣的概率;

4、针对每一维度的每一特征值,确定所述第一数量的正样本中包括该特征值的正样本的第三数量,以及所述第二数量的负样本中包括该特征值的负样本的第四数量;

5、根据各维度的每一特征值对应的第三数量和第四数量,确定每一维度的每一特征值在所述训练集中的异常程度;

6、将每一所述训练样本的每一特征值对应的异常程度作为该样本的该特征值不参与模型预测的概率,基于各所述训练样本以及样本对应的各维度的特征值的异常程度,对所述待训练的推荐模型进行训练。

7、在一种可能的实现方式中,所述根据各维度的每一特征值对应的第三数量和第四数量,确定每一维度的每一特征值在所述训练集中的异常程度,包括:

8、针对每一维度的每一特征值,根据所述第一数量和该特征值对应的第三数量,确定包含该特征值的正样本在所述训练集的正样本中的第一占比,根据所述第二数量和该特征值对应的所述第四数量,确定包含该特征值的负样本在所述训练集的负样本中的第二占比,根据所述第一占比和所述第二占比,确定该特征值的目标信息价值iv值;

9、针对每一维度的每一特征值,根据该特征值对应的第三数量和第四数量,确定包含该特征值的正样本在包含该特征值的所有样本中的第三占比;

10、获取每一维度对应的正样本占比第一参考值和正样本占比第二参考值;

11、针对每一维度的每一特征值,根据该特征值对应的第三占比和该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值,确定该特征值的正样本率目标偏移值;

12、针对每一维度的每一特征值,根据该特征值对应的iv值和该特征值的正样本率目标偏移值,确定该特征值在所述训练集中的异常程度。

13、在另一种可能的实现方式中,根据该特征值对应的第三占比和该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值,确定该特征值的正样本率目标偏移值,包括:

14、根据该特征值对应的第三占比、该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值,确定该特征值的正样本率初始偏移值;

15、获取所述推荐模型所应用的目标场景所对应的特征值的正样本率偏移阈值;

16、若该特征值的正样本率初始偏移值不小于所述正样本率偏移阈值,则将该特征值的正样本率初始偏移值确定为该特征值的正样本率目标偏移值;

17、若该特征值的正样本率初始偏移值小于所述正样本率偏移阈值,则确定该特征值的正样本率目标偏移值为0。

18、在另一种可能的实现方式中,对于每一维度,该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值是采用以下方式确定的:

19、确定各维度分别对应的第四占比,任一维度对应的第四占比为该维度的各个特征值所包含的正样本总数量在该维度的各个特征值所包含的样本总数量的第四占比;

20、将各维度分别对应的第四占比的均值确定为所述该维度对应的正样本占比第一参考值;

21、将各维度分别对应的第四占比的标准差确定为所述该维度对应的正样本占比第二参考值。

22、在另一种可能的实现方式中,根据该特征值对应的第三占比和该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值,确定该特征值的正样本率目标偏移值,包括:

23、确定所述第三占比和所述第一参考值之间的差值;

24、根据所述差值和所述第二参考值的比值,确定该特征值的正样本率目标偏移值。

25、在另一种可能的实现方式中,所述根据所述第一占比和所述第二占比,确定该特征值的目标信息价值iv值,包括:

26、确定所述第一占比和所述第二占比之间的差值;

27、根据所述差值,确定该特征值的目标iv值。

28、在另一种可能的实现方式中,所述根据所述差值,确定该特征值的目标iv值,包括:

29、根据所述差值,确定该特征值的初始iv值;

30、获取所述推荐模型所应用的目标场景所对应的特征值的iv阈值;

31、若所述初始iv值大于所述iv阈值,则将所述初始iv值确定为所述目标iv值;

32、若所述初始iv值不大于所述iv阈值,则将所述目标iv值确定为0。

33、在另一种可能的实现方式中,所述将每一所述训练样本的每一特征值对应的异常程度作为该样本的该特征值不参与模型预测的概率,基于各所述训练样本以及样本对应的各维度的特征值的异常程度,对所述待训练的推荐模型进行训练,包括:

34、计算所述每一特征值对应的嵌入特征;

35、基于所述概率断开与该特征值所属维度所对应的神经元的连接;

36、基于所述每一特征值对应的嵌入特征对断开处理后的模型进行训练。

37、第二方面,提供了一种对象推荐的方法,包括:

38、获取各个对象分别对应的对象特征;

39、基于所述各个对象分别对应的对象特征,并通过训练后的推荐模型,预测各个对象对被推荐对象的感兴趣程度;

40、基于所述各个对象对被推荐对象的感兴趣程度,确定是否为对象推荐所述被推荐对象;

41、其中,所述训练后的推荐模型是通过第一方面或者第一方面的任一种可能的实现方式所述的基于异常特征处理的模型训练方法所得到的。

42、第三方面,提供了一种模型训练的装置,包括:

43、训本文档来自技高网...

【技术保护点】

1.一种模型训练的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据各维度的每一特征值对应的第三数量和第四数量,确定每一维度的每一特征值在所述训练集中的异常程度,包括:

3.根据权利要求2所述的方法,其特征在于,根据该特征值对应的第三占比和该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值,确定该特征值的正样本率目标偏移值,包括:

4.根据权利要求2或3所述的方法,其特征在于,对于每一维度,该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值是采用以下方式确定的:

5.根据权利要求2或3所述的方法,其特征在于,根据该特征值对应的第三占比和该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值,确定该特征值的正样本率目标偏移值,包括:

6.根据权利要求2所述的方法,其特征在于,所述根据所述第一占比和所述第二占比,确定该特征值的目标信息价值IV值,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述差值,确定该特征值的目标IV值,包括:

8.根据权利要求1所述的方法,其特征在于,所述将每一所述训练样本的每一特征值对应的异常程度作为该样本的该特征值不参与模型预测的概率,基于各所述训练样本以及样本对应的各维度的特征值的异常程度,对所述待训练的推荐模型进行训练,包括:

9.一种对象推荐的方法,其特征在于,包括:

10.一种模型训练的装置,其特征在于,包括:

11.一种对象推荐的装置,其特征在于,包括:

12.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器在运行所述计算机程序时执行权利要求1至8任一项所述的模型训练的方法。

13.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器在运行所述计算机程序时执行权利要求9所述的对象推荐的方法。

14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法。

...

【技术特征摘要】

1.一种模型训练的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据各维度的每一特征值对应的第三数量和第四数量,确定每一维度的每一特征值在所述训练集中的异常程度,包括:

3.根据权利要求2所述的方法,其特征在于,根据该特征值对应的第三占比和该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值,确定该特征值的正样本率目标偏移值,包括:

4.根据权利要求2或3所述的方法,其特征在于,对于每一维度,该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值是采用以下方式确定的:

5.根据权利要求2或3所述的方法,其特征在于,根据该特征值对应的第三占比和该维度对应的正样本占比第一参考值和该维度对应的正样本占比第二参考值,确定该特征值的正样本率目标偏移值,包括:

6.根据权利要求2所述的方法,其特征在于,所述根据所述第一占比和所述第二占比,确定该特征值的目标信息价值iv值,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述差值,...

【专利技术属性】
技术研发人员:吴君彦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1