内容推荐方法、模型训练方法、装置及电子设备制造方法及图纸

技术编号:35104119 阅读:20 留言:0更新日期:2022-10-01 17:13
本申请实施例公开了一种内容推荐方法、模型训练方法、装置及电子设备,通过引入价值评估模型来得到样本推荐分值,使得决策模型与价值评估模型形成强化学习架构,可以提升决策模型的训练效果,提升利用决策模型在目标推荐位置进行内容推荐的准确性;并且,通过进一步引入点击率预测模型,即便是针对未被推荐过的样本内容,也能够更加准确地对样本内容被推荐后的点击率进行预测,提升对价值评估模型的训练效果,提升强化学习的效果,从而进一步提升决策模型的模型性能。后续在利用决策模型对目标对象进行内容推荐时,即便是针对未被推荐过的内容也能够有效地提升推荐的准确率,可以广泛应用于云技术、人工智能等领域。人工智能等领域。人工智能等领域。

【技术实现步骤摘要】
内容推荐方法、模型训练方法、装置及电子设备


[0001]本申请涉及人工智能
,特别是涉及一种内容推荐方法、模型训练方法、装置及电子设备。

技术介绍

[0002]随着互联网技术的发展,通过互联网能够提供多种内容服务。与此对应的,服务提供商能够通过推荐系统来推荐可能感兴趣的内容,如商品、新闻等等。在一种常见的场景下,会通过多个排列的推荐位置来进行内容推荐,因此,需要确定不同内容的推荐顺序。相关技术中,一般通过统计已经被推荐过的内容的点击率来确定不同推荐位置上对应的待推荐的内容,这种方式并不适用于未被推荐过的内容,因而推荐准确率有待提高。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]本申请实施例提供了一种内容推荐方法、模型训练方法、装置及电子设备,能够提升内容推荐的准确率。
[0005]一方面,本申请实施例提供了一种内容推荐方法,包括:
[0006]获取在目标推荐位置对样本对象进行内容推荐时所述样本对象的状态数据;
[0007]将所述样本对象的状态数据输入至决策模型,得到在所述目标推荐位置向所述样本对象推荐的样本内容;
[0008]将所述样本对象的状态数据和所述样本内容输入至价值评估模型,得到样本推荐分值,其中,所述样本推荐分值用于指示所述决策模型的训练目标;
[0009]将所述样本对象的状态数据和所述样本内容输入至点击率预测模型,得到所述样本内容的样本点击分值,其中,所述样本点击分值用于指示所述价值评估模型的训练目标;
[0010]根据所述样本推荐分值和所述样本点击分值,调整所述决策模型和所述价值评估模型的参数;
[0011]获取目标对象的状态数据,将所述目标对象的状态数据输入至调整参数后的所述决策模型,得到在所述目标推荐位置向所述目标对象推荐的目标内容。
[0012]另一方面,本申请实施例还提供了一种模型训练方法,包括:
[0013]获取在目标推荐位置对样本对象进行内容推荐时所述样本对象的状态数据;
[0014]将所述样本对象的状态数据输入至决策模型,得到在所述目标推荐位置向所述样本对象推荐的样本内容;
[0015]将所述样本对象的状态数据和所述样本内容输入至价值评估模型,得到样本推荐分值,其中,所述样本推荐分值用于指示所述决策模型的训练目标;
[0016]将所述样本对象的状态数据和所述样本内容输入至点击率预测模型,得到所述样本内容的样本点击分值,其中,所述样本点击分值用于指示所述价值评估模型的训练目标;
[0017]根据所述样本推荐分值和所述样本点击分值,调整所述决策模型和所述价值评估模型的参数。
[0018]另一方面,本申请实施例还提供了一种内容推荐装置,包括:
[0019]第一状态数据获取模块,用于获取在目标推荐位置对样本对象进行内容推荐时所述样本对象的状态数据;
[0020]第一内容确定模块,用于将所述样本对象的状态数据输入至决策模型,得到在所述目标推荐位置向所述样本对象推荐的样本内容;
[0021]第一样本推荐分值确定模块,用于将所述样本对象的状态数据和所述样本内容输入至价值评估模型,得到样本推荐分值,其中,所述样本推荐分值用于指示所述决策模型的训练目标;
[0022]第一样本点击分值确定模块,用于将所述样本对象的状态数据和所述样本内容输入至点击率预测模型,得到所述样本内容的样本点击分值,其中,所述样本点击分值用于指示所述价值评估模型的训练目标;
[0023]第一参数调整模块,用于根据所述样本推荐分值和所述样本点击分值,调整所述决策模型和所述价值评估模型的参数;
[0024]推荐模块,用于获取目标对象的状态数据,将所述目标对象的状态数据输入至调整参数后的所述决策模型,得到在所述目标推荐位置向所述目标对象推荐的目标内容。
[0025]进一步,所述目标推荐位置为多个按照预设方式排列的候选推荐位置中的其中一个推荐位置,上述第一样本点击分值确定模块具体用于:
[0026]获取所述目标推荐位置在多个所述候选推荐位置中的目标位置标识;
[0027]将所述样本对象的状态数据、所述样本内容和所述目标位置标识输入至点击率预测模型,得到所述样本内容的样本点击分值。
[0028]进一步,上述第一状态数据获取模块具体用于:
[0029]获取所述样本对象的属性信息;
[0030]获取在历史推荐位置向所述样本对象推荐的历史内容,其中,所述历史推荐位置为排列在所述目标推荐位置之前的所述候选推荐位置;
[0031]根据所述属性信息和所述历史内容,得到在目标推荐位置对样本对象进行内容推荐时所述样本对象的状态数据。
[0032]进一步,上述第一内容确定模块具体用于:
[0033]将所述样本对象的状态数据输入至决策模型,对所述样本对象的状态数据进行编码,得到决策结果向量;
[0034]获取多个候选内容的候选内容向量,其中,所述候选内容向量基于编码模型对所述候选内容进行编码得到;
[0035]根据所述决策结果向量与所述候选内容向量之间的向量相似度,从多个所述候选内容中得到在所述目标推荐位置向所述样本对象推荐的样本内容。
[0036]进一步,上述第一内容确定模块具体用于:
[0037]获取多个候选内容的内部文档标识符、内容标签或者内容类别中的至少一种;
[0038]将所述内部文档标识符、所述内容标签或者所述内容类别中的至少一种输入至所述编码模型,得到对应的所述候选内容的候选内容向量。
[0039]进一步,上述第一参数调整模块还用于:
[0040]获取在参考推荐位置对所述参考对象进行推荐时所述参考对象的状态数据,其中,所述参考推荐位置为多个所述候选推荐位置中的其中一个推荐位置;
[0041]获取在所述参考推荐位置对参考对象推荐的参考内容、所述参考推荐位置在多个所述候选推荐位置中的参考位置标识、所述参考内容对应的参考点击率;
[0042]将所述参考对象的状态数据、所述参考内容和所述参考位置标识输入至所述点击率预测模型,得到所述参考内容的参考点击分值;
[0043]根据所述参考点击分值和所述参考点击率确定所述点击率预测模型的第三损失值,根据所述第三损失值调整所述点击率预测模型的参数。
[0044]进一步,上述第一参数调整模块具体用于:
[0045]根据所述样本推荐分值确定所述决策模型的第一损失值;
[0046]根据所述样本点击分值和所述样本推荐分值确定所述价值评估模型的第二损失值;
[0047]根据所述第一损失值和所述第二损失值,调整所述决策模型和所述价值评估模型的参数。
[0048]进一步,上述第一参数调整模块具体用于:
[0049]确定所述样本内容对应的多样性分值,其中,所述多样性分值用于表征所述样本内容与历史内容之间的多样性,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内容推荐方法,其特征在于,包括:获取在目标推荐位置对样本对象进行内容推荐时所述样本对象的状态数据;将所述样本对象的状态数据输入至决策模型,得到在所述目标推荐位置向所述样本对象推荐的样本内容;将所述样本对象的状态数据和所述样本内容输入至价值评估模型,得到样本推荐分值,其中,所述样本推荐分值用于指示所述决策模型的训练目标;将所述样本对象的状态数据和所述样本内容输入至点击率预测模型,得到所述样本内容的样本点击分值,其中,所述样本点击分值用于指示所述价值评估模型的训练目标;根据所述样本推荐分值和所述样本点击分值,调整所述决策模型和所述价值评估模型的参数;获取目标对象的状态数据,将所述目标对象的状态数据输入至调整参数后的所述决策模型,得到在所述目标推荐位置向所述目标对象推荐的目标内容。2.根据权利要求1所述的内容推荐方法,其特征在于,所述目标推荐位置为多个按照预设方式排列的候选推荐位置中的其中一个推荐位置,所述将所述样本对象的状态数据和所述样本内容输入至点击率预测模型,得到所述样本内容的样本点击分值,包括;获取所述目标推荐位置在多个所述候选推荐位置中的目标位置标识;将所述样本对象的状态数据、所述样本内容和所述目标位置标识输入至点击率预测模型,得到所述样本内容的样本点击分值。3.根据权利要求2所述的内容推荐方法,其特征在于,所述获取在目标推荐位置对样本对象进行内容推荐时所述样本对象的状态数据,包括:获取所述样本对象的属性信息;获取在历史推荐位置向所述样本对象推荐的历史内容,其中,所述历史推荐位置为排列在所述目标推荐位置之前的所述候选推荐位置;根据所述属性信息和所述历史内容,得到在目标推荐位置对样本对象进行内容推荐时所述样本对象的状态数据。4.根据权利要求1至3任意一项所述的内容推荐方法,其特征在于,所述将所述样本对象的状态数据输入至决策模型,得到在所述目标推荐位置向所述样本对象推荐的样本内容,包括:将所述样本对象的状态数据输入至决策模型,对所述样本对象的状态数据进行编码,得到决策结果向量;获取多个候选内容的候选内容向量,其中,所述候选内容向量基于编码模型对所述候选内容进行编码得到;根据所述决策结果向量与所述候选内容向量之间的向量相似度,从多个所述候选内容中得到在所述目标推荐位置向所述样本对象推荐的样本内容。5.根据权利要求4所述的内容推荐方法,其特征在于,所述获取多个候选内容的候选内容向量,包括:获取多个候选内容的内部文档标识符、内容标签或者内容类别中的至少一种;将所述内部文档标识符、所述内容标签或者所述内容类别中的至少一种输入至所述编码模型,得到对应的所述候选内容的候选内容向量。
6.根据权利要求1所述的内容推荐方法,其特征在于,所述点击率预测模型通过以下步骤进行参数调整:获取在参考推荐位置对参考对象进行推荐时所述参考对象的状态数据,其中,所述参考推荐位置为多个候选推荐位置中的其中一个推荐位置;获取在所述参考推荐位置对参考对象推荐的参考内容、所述参考推荐位置在多个所述候选推荐位置中的参考位置标识、所述参考内容对应的参考点击率;将所述参考对象的状态数据、所述参考内容和所述参考位置标识输入至所述点击率预测模型,得到所述参考内容的参考点击分值;根据所述参考点击分值和所述参考点击率确定所述点击率预测模型的第三损失值,根据所述第三损失值调整所述点击率预测模型的参数。7.根据权利要求1所述的内容推荐方法,其特征在于,所述根据所述样本推荐分值和所述样本点击分值,调整所述决策模型和所述价值评估模型的参数,包括:根据所述样本推荐分值确定所述决策模型的第一损失值;根据所述样本点击分值和所述样本推荐分值确定所述价值评估模型的第二损失值;根据所述第一损失值和所述第二损失值,调整所述决策模型和所述价值评估模型的参数。8.根据权利要求7所述的内容推荐方法,其特征在于,所述根据所述样本点击分值和所述样本推荐分值确定所述价值评估模型的第二损失值,包括:确定所述样本内容对应的多样性分值,其中,所述多样性分值用于表征所述样本内容与历史内容之间的多样性,所述目标推荐位置为多个按照预设方式排列的候选推荐位置中的其中一个推荐位置,所述历史内容为在历史推荐位置向所述样本对象推荐的内容,所述历史推荐位置为排列在所述目标推荐位置之前的所述候选推荐位置;对所述样本点击分值与所述多样性分值进行加权,得到目标收益分值;根据所述目标收益分值和所述样本推荐分值确定所述价值评估模型的第二损失值。9.根据权利要求8所述的内容推荐方法,其特征在于,所述确定所述样本内容对应的多样性分值,包括:确定任意两个所述历史内容之间的第一特征相似度,根据所述第一特征相似度构建第一核矩阵;确定所述样本内容与各个所述历史内容之间的第二特征相似度,将所述第二特征相似度添加至所述第一核矩阵,得到第二核矩阵;计算所述第一核矩阵的第一行列式和所述第二核矩阵的第二行列式;根据所述第二行列式和所述第一行列式之差得到所述样本内容对应的多样性分值。10.根据权利要求9所述的内容推荐方法,其特征在于:所述根据所述第一特征相似度构建第一核矩阵,包括:获取在所述历史推荐位置对所述样本对象推荐所述历史内容时所述样本对象的历史对象的状态数据,获取所述历史推荐位置在多个所述候选推荐位置中的历史位置标识,将所述历史对象的状态数据、所述历史内容和所述历史位置标识输入至所述点击率预测模型,得到所述历史内容...

【专利技术属性】
技术研发人员:叶永洪
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1