基于深层目标优化的模型训练方法技术

技术编号：39581291 阅读：7 留言：0更新日期：2023-12-03 19:31

本说明书的实施例提供了一种基于深层目标优化的模型训练方法

全部详细技术资料下载

【技术实现步骤摘要】
基于深层目标优化的模型训练方法、信息推荐方法和装置

[0001]本说明书实施例通常涉及计算机
，尤其涉及基于深层目标优化的模型训练方法
、
信息推荐方法和装置
。

技术介绍

[0002]随着互联网技术的飞速发展，基于多目标组合优化的信息推荐技术也取得了越来越广泛的应用
。
但由于推荐系统中广泛存在数据的偏差
(bias)
，例如构建推荐系统所依赖的交互数据不可避免地受到曝光机理和用户选择的影响，推荐数据呈现出长尾特征，推荐数据存在反馈闭环加重数据的偏差等，因而如何去偏
(debias)
从而构建更加有效的多目标推荐系统具有重要意义
。

技术实现思路

[0003]鉴于上述，本说明书实施例提供了一种基于深层目标优化的模型训练方法
、
信息推荐方法和装置
。
利用该方法
、
装置，可以实现更有效的多目标推荐系统
。
[0004]根据本说明书的实施例的一个方面，提供一种基于深层目标优化的模型训练方法，包括：利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括特征数据和与训练目标相匹配的标签数据，其中，所述训练目标包括直接训练目标和基于直接训练目标的深层训练目标，所述特征数据包括用户特征
、
物品特征和历史交互特征，所述历史交互特征用于指示在过去一段时间内用户与物品之间是否存在与训练目标相匹配的交互：针对...

【技术保护点】

【技术特征摘要】
1.
一种基于深层目标优化的模型训练方法，包括：利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括特征数据和与训练目标相匹配的标签数据，其中，所述训练目标包括直接训练目标和基于直接训练目标的深层训练目标，所述特征数据包括用户特征
、
物品特征和历史交互特征，所述历史交互特征用于指示在过去一段时间内用户与物品之间是否存在与训练目标相匹配的交互：针对当前训练样本集中的各个当前训练样本，根据该当前训练样本的用户特征和历史交互特征，得到各个训练目标之间的条件概率值；将该当前训练样本的特征数据提供给当前预测模型，得到与各个训练目标对应的目标预测值，其中，与训练目标对应的目标预测值包括涉及其他具有因果关联的训练目标的条件预测值；根据所得到的条件概率值和对应的条件预测值确定该当前训练样本对应的深层
‑
直接目标因果强度值；根据所得到的深层
‑
直接目标因果强度值和相应的目标预测值，确定该当前训练样本对应的深层目标预测值；根据各个当前训练样本的深层目标预测值和对应的标签数据之间的差异，确定当前模型训练过程的损失值；以及响应于不满足训练结束条件，根据所述损失值调整当前预测模型的模型参数，其中，经过模型参数调整后的预测模型充当下一模型训练过程的当前预测模型
。2.
如权利要求1所述的方法，其中，所述根据该当前训练样本的用户特征和历史交互特征，得到各个训练目标之间的条件概率值包括：将该当前训练样本的用户特征和历史交互特征提供给自编码器中的编码结构，得到编码结果，其中，所述自编码器基于历史交互特征的预测差异通过训练得到；以及根据所述编码结果，生成用于指示各个训练目标之间的条件概率值的矩阵
。3.
如权利要求1所述的方法，其中，所述训练样本集中的每个训练样本的特征数据还包括推荐域特征，所述当前预测模型包括当前域感知模型和当前预测值生成模型，所述将该当前训练样本的特征数据提供给当前预测模型，得到与各个训练目标对应的目标预测值包括：将该当前训练样本的推荐域特征提供给当前域感知模型，得到该当前训练样本的域感知特征；将所得到的域感知特征和对应的用户特征
、
物品特征以及历史交互特征提供给当前预测值生成模型，得到与各个训练目标对应的初始目标预测值；以及根据与该当前训练样本对应的推荐域特征相匹配的其他当前训练样本对应的各个初始目标预测值对相应的该当前训练样本对应的初始目标预测值进行修正，将修正后的初始目标预测值作为对应的目标预测值
。4.
如权利要求1所述的方法，其中，所述直接训练目标包括第一目标和第二目标所述深层训练目标包括基于所述第一目标和第二目标的第三目标，所述条件概率值包括用于表征所述直接训练目标与所述深层训练目标之间的条件概率的第一条件概率值和第二条件概
率值，所述与各个训练目标对应的目标预测值包括第一目标和第二目标之间的条件预测值，所述根据所得到的条件概率值和对应的条件预测值确定该当前训练样本对应的深层
‑
直接目标因果强度值包括：根据所得到的条件概率值和所述目标预测值以及对应的直接训练目标向深层训练目标转化的路径，确定该当前训练样本对应的因果条件权重值；以及根据所确定的因果条件权重值和1之间的大小关系，确定该当前训练样本对应的深层
‑
直接目标因果强度值
。5.
如权利要求4所述的方法，其中，所述与各个训练目标对应的目标预测值还包括第一目标预测值
、
在满足直接训练目标的基础上满足深度训练目标的条件预测值
、
在不满足直接训练目标的基础上仍满足深度训练目标的条件预测值，所述根据所得到的深层
‑
直接目标因果强度值和相应的目标预测值，确定该当前训练样本对应的深层目标预测值包括：基于全概率展开公式根据所得到的深层
‑
直接目标因果强度值和相应的目标预测值进行计算，得到该当前训练样本对应的深层目标预测值
。6.
如权利要求1到5中任一所述的方法，其中，所述根据各个当前训练样本的深层目标预测值和对应的标签数据之间的差异，确定当前模型训练过程的损失值包括：根据各个...

【专利技术属性】
技术研发人员：王昊文，杜宇亮，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人