基于深层目标优化的模型训练方法技术

技术编号:39581291 阅读:7 留言:0更新日期:2023-12-03 19:31
本说明书的实施例提供了一种基于深层目标优化的模型训练方法

【技术实现步骤摘要】
基于深层目标优化的模型训练方法、信息推荐方法和装置


[0001]本说明书实施例通常涉及计算机
,尤其涉及基于深层目标优化的模型训练方法

信息推荐方法和装置


技术介绍

[0002]随着互联网技术的飞速发展,基于多目标组合优化的信息推荐技术也取得了越来越广泛的应用

但由于推荐系统中广泛存在数据的偏差
(bias)
,例如构建推荐系统所依赖的交互数据不可避免地受到曝光机理和用户选择的影响,推荐数据呈现出长尾特征,推荐数据存在反馈闭环加重数据的偏差等,因而如何去偏
(debias)
从而构建更加有效的多目标推荐系统具有重要意义


技术实现思路

[0003]鉴于上述,本说明书实施例提供了一种基于深层目标优化的模型训练方法

信息推荐方法和装置

利用该方法

装置,可以实现更有效的多目标推荐系统

[0004]根据本说明书的实施例的一个方面,提供一种基于深层目标优化的模型训练方法,包括:利用训练样本集循环执行下述模型训练过程,直到满足训练结束条件,所述训练样本集中的每个训练样本包括特征数据和与训练目标相匹配的标签数据,其中,所述训练目标包括直接训练目标和基于直接训练目标的深层训练目标,所述特征数据包括用户特征

物品特征和历史交互特征,所述历史交互特征用于指示在过去一段时间内用户与物品之间是否存在与训练目标相匹配的交互:针对当前训练样本集中的各个当前训练样本,根据该当前训练样本的用户特征和历史交互特征,得到各个训练目标之间的条件概率值;将该当前训练样本的特征数据提供给当前预测模型,得到与各个训练目标对应的目标预测值,其中,与训练目标对应的目标预测值包括涉及其他具有因果关联的训练目标的条件预测值;根据所得到的条件概率值和对应的条件预测值确定该当前训练样本对应的深层

直接目标因果强度值;根据所得到的深层

直接目标因果强度值和相应的目标预测值,确定该当前训练样本对应的深层目标预测值;根据各个当前训练样本的深层目标预测值和对应的标签数据之间的差异,确定当前模型训练过程的损失值;以及响应于不满足训练结束条件,根据所述损失值调整当前预测模型的模型参数,其中,经过模型参数调整后的预测模型充当下一模型训练过程的当前预测模型

[0005]根据本说明书的实施例的另一个方面,提供一种信息推荐方法,包括:根据目标用户的相关信息和待推荐信息集,生成用户

信息对特征集,其中,所述用户

信息对特征集中的各个用户

信息对特征包括基于所述目标用户的相关信息和待推荐信息生成的用户特征

物品特征和历史交互特征;将所述用户

信息对特征集提供给预测模型,得到与各个用户

信息对特征对应的至少一个预测值,其中,所述预测模型通过如上所述的基于深层训练目标优化的模型训练方法训练得到,各个预测值与直接训练目标或基于直接训练目标的深层训练目标相对应;根据所得到的至少一个预测值,从所述待推荐信息集中确定目标推荐
信息;以及将所述目标推荐信息提供给所述目标用户

[0006]根据本说明书的实施例的又一个方面,提供一种基于深层目标优化的模型训练装置,所述装置被配置为由训练单元利用训练样本集循环执行模型训练过程,直到满足训练结束条件,所述训练样本集中的每个训练样本包括特征数据和与训练目标相匹配的标签数据,其中,所述训练目标包括直接训练目标和基于直接训练目标的深层训练目标,所述特征数据包括用户特征

物品特征和历史交互特征,所述历史交互特征用于指示在过去一段时间内用户与物品之间是否存在与训练目标相匹配的交互,所述训练单元包括:条件概率确定模块,被配置为根据该当前训练样本的用户特征和历史交互特征,得到各个训练目标之间的条件概率值;初始预测模块,被配置为将该当前训练样本的特征数据提供给当前预测模型,得到与各个训练目标对应的目标预测值,其中,与训练目标对应的目标预测值包括涉及其他具有因果关联的训练目标的条件预测值;因果强度确定模块,被配置为根据所得到的条件概率值和对应的条件预测值确定该当前训练样本对应的深层

直接目标因果强度值;深层目标预测模块,被配置为根据所得到的深层

直接目标因果强度值和相应的目标预测值,确定该当前训练样本对应的深层目标预测值;损失值确定模块,被配置为根据各个当前训练样本的深层目标预测值和对应的标签数据之间的差异,确定当前模型训练过程的损失值;以及所述装置还包括:参数调整单元,被配置为响应于不满足训练结束条件,根据所述损失值调整当前预测模型的模型参数,其中,经过模型参数调整后的预测模型充当下一模型训练过程的当前预测模型

[0007]根据本说明书的实施例的再一个方面,提供一种信息推荐装置,包括:特征提取单元,被配置为根据目标用户的相关信息和待推荐信息集,生成用户

信息对特征集,其中,所述用户

信息对特征集中的各个用户

信息对特征包括基于所述目标用户的相关信息和待推荐信息生成的用户特征

物品特征和历史交互特征;概率预测单元,被配置为将所述用户

信息对特征集提供给预测模型,得到与各个用户

信息对特征对应的至少一个预测值,其中,所述预测模型通过如上所述的基于深层训练目标优化的模型训练装置训练得到,各个预测值与直接训练目标或基于直接训练目标的深层训练目标相对应;信息推荐单元,被配置为根据所得到的至少一个预测值,从所述待推荐信息集中确定目标推荐信息;以及将所述目标推荐信息提供给所述目标用户

[0008]根据本说明书的实施例的另一方面,提供一种基于深层目标优化的模型训练装置,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的基于深层目标优化的模型训练方法

[0009]根据本说明书的实施例的另一方面,提供一种信息推荐装置,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的信息推荐方法

[0010]根据本说明书的实施例的另一方面,提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于深层目标优化的模型训练方法和
/
或信息推荐方法

[0011]根据本说明书的实施例的另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如上所述的基于深层目标优化的模型训练方法和<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深层目标优化的模型训练方法,包括:利用训练样本集循环执行下述模型训练过程,直到满足训练结束条件,所述训练样本集中的每个训练样本包括特征数据和与训练目标相匹配的标签数据,其中,所述训练目标包括直接训练目标和基于直接训练目标的深层训练目标,所述特征数据包括用户特征

物品特征和历史交互特征,所述历史交互特征用于指示在过去一段时间内用户与物品之间是否存在与训练目标相匹配的交互:针对当前训练样本集中的各个当前训练样本,根据该当前训练样本的用户特征和历史交互特征,得到各个训练目标之间的条件概率值;将该当前训练样本的特征数据提供给当前预测模型,得到与各个训练目标对应的目标预测值,其中,与训练目标对应的目标预测值包括涉及其他具有因果关联的训练目标的条件预测值;根据所得到的条件概率值和对应的条件预测值确定该当前训练样本对应的深层

直接目标因果强度值;根据所得到的深层

直接目标因果强度值和相应的目标预测值,确定该当前训练样本对应的深层目标预测值;根据各个当前训练样本的深层目标预测值和对应的标签数据之间的差异,确定当前模型训练过程的损失值;以及响应于不满足训练结束条件,根据所述损失值调整当前预测模型的模型参数,其中,经过模型参数调整后的预测模型充当下一模型训练过程的当前预测模型
。2.
如权利要求1所述的方法,其中,所述根据该当前训练样本的用户特征和历史交互特征,得到各个训练目标之间的条件概率值包括:将该当前训练样本的用户特征和历史交互特征提供给自编码器中的编码结构,得到编码结果,其中,所述自编码器基于历史交互特征的预测差异通过训练得到;以及根据所述编码结果,生成用于指示各个训练目标之间的条件概率值的矩阵
。3.
如权利要求1所述的方法,其中,所述训练样本集中的每个训练样本的特征数据还包括推荐域特征,所述当前预测模型包括当前域感知模型和当前预测值生成模型,所述将该当前训练样本的特征数据提供给当前预测模型,得到与各个训练目标对应的目标预测值包括:将该当前训练样本的推荐域特征提供给当前域感知模型,得到该当前训练样本的域感知特征;将所得到的域感知特征和对应的用户特征

物品特征以及历史交互特征提供给当前预测值生成模型,得到与各个训练目标对应的初始目标预测值;以及根据与该当前训练样本对应的推荐域特征相匹配的其他当前训练样本对应的各个初始目标预测值对相应的该当前训练样本对应的初始目标预测值进行修正,将修正后的初始目标预测值作为对应的目标预测值
。4.
如权利要求1所述的方法,其中,所述直接训练目标包括第一目标和第二目标所述深层训练目标包括基于所述第一目标和第二目标的第三目标,所述条件概率值包括用于表征所述直接训练目标与所述深层训练目标之间的条件概率的第一条件概率值和第二条件概
率值,所述与各个训练目标对应的目标预测值包括第一目标和第二目标之间的条件预测值,所述根据所得到的条件概率值和对应的条件预测值确定该当前训练样本对应的深层

直接目标因果强度值包括:根据所得到的条件概率值和所述目标预测值以及对应的直接训练目标向深层训练目标转化的路径,确定该当前训练样本对应的因果条件权重值;以及根据所确定的因果条件权重值和1之间的大小关系,确定该当前训练样本对应的深层

直接目标因果强度值
。5.
如权利要求4所述的方法,其中,所述与各个训练目标对应的目标预测值还包括第一目标预测值

在满足直接训练目标的基础上满足深度训练目标的条件预测值

在不满足直接训练目标的基础上仍满足深度训练目标的条件预测值,所述根据所得到的深层

直接目标因果强度值和相应的目标预测值,确定该当前训练样本对应的深层目标预测值包括:基于全概率展开公式根据所得到的深层

直接目标因果强度值和相应的目标预测值进行计算,得到该当前训练样本对应的深层目标预测值
。6.
如权利要求1到5中任一所述的方法,其中,所述根据各个当前训练样本的深层目标预测值和对应的标签数据之间的差异,确定当前模型训练过程的损失值包括:根据各个...

【专利技术属性】
技术研发人员:王昊文杜宇亮
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1