考虑时间效应的产品组合推荐方法和系统技术方案

技术编号:35260767 阅读:23 留言:0更新日期:2022-10-19 10:20
本发明专利技术提供了一种考虑时间效应的产品组合推荐方法和系统,涉及产品推荐技术领域。本发明专利技术首先构建集成分类树和集成生存树分别预测用户点击概率以及用户在不同时间的点击概率;然后计算用户响应度并排序生成Top

【技术实现步骤摘要】
考虑时间效应的产品组合推荐方法和系统


[0001]本专利技术涉及产品推荐
,具体涉及一种考虑时间效应的产品组合推荐方法和系统。

技术介绍

[0002]随着互联网技术的发展,通过利用大数据、算法为用户推荐合适产品能够帮助客户在海量的商品中快速找到需要产品,进而有效提高成交率和用户体验。
[0003]现有的推荐方法大多基于协同过滤,利用用户或产品的相似度来衡量待推荐产品的预测评分。
[0004]但现有方法存在推荐准确度低且仅针对单一产品进行推荐的问题。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种考虑时间效应的产品组合推荐方法和系统,解决了现有方法存在准确度低且仅针对单一产品进行推荐的问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]第一方面,提供了一种考虑时间效应的产品组合推荐方法,该方法包括:
[0010]获取观测时间内的产品属性数据、删失状态数据与用户点击状态数据作为产品数据集;
[0011]基于产品数据集构建用户点击概率预测模型和用户在不同时间的条件点击概率预测模型;
[0012]基于用户点击概率预测模型和用户在不同时间的条件点击概率预测模型分别对若干待推荐产品的用户点击概率和用户在不同时间的条件点击概率进行预测;
[0013]基于若干待推荐产品的用户点击概率和用户在不同时间的条件点击概率计算若干待推荐产品的用户响应度;
[0014]基于若干待推荐产品的用户响应度构建产品组合推荐强度优化模型,并求解产品组合推荐强度优化模型得到产品组合推荐方案。
[0015]进一步的,所述删失状态数据包括:在观测时间内未能观测到产品被用户点击数据和在观测时间内观测到产品被用户点击数据;
[0016]所述用户点击状态数据包括:产品被用户点击数据和产品没有被用户点击数据。
[0017]进一步的,所述用户点击概率预测模型为基于集成分类树的预测模型;所述用户在不同时间的条件点击概率预测模型为基于集成生存树的预测模型。
[0018]进一步的,所述用户点击概率预测模型的构建步骤包括:
[0019]Q11、从产品数据集中抽取样本构建子数据集D
*
,并将D
*
输入到二元分类树Ctree的根节点;
[0020]Q12、从产品属性数据中的K个特征中随机选择L个候选特征K>L,采用二分法将特征F
k
分组,k=1,2,...,L,并计算其条件基尼指数:
[0021][0022]其中,
[0023]|D
*
|表示子数据集D
*
的样本量;
[0024]表示特征F
k
属于q组的样本量,k=1,2,...L,q=1或2,分别表示特征的两个分组;
[0025]表示q组中属于c类的样本量;c=1或2,分别表示产品被点击或产品未被点击;
[0026]Q13、选择具有最小基尼指数的候选特征分割节点;
[0027]Q14、重复Q12~Q13,不断构造新的树子节点,直至叶子结点的样本都属于同一类,生成一颗完整的分类树Ctree;
[0028]Q15、迭代Q11~Q14,生成G棵分类树作为用户点击概率预测模型;
[0029]且基于用户点击概率预测模型对若干待推荐产品的用户点击概率进行预测包括:
[0030]将待推荐产品的特征向量输入到训练好的用户点击概率预测模型中,计算分类结果为产品被用户点击的分类树占树总数的比例作为用户点击概率。
[0031]进一步的,所述用户在不同时间的条件点击概率预测模型的构建步骤,包括:
[0032]Q21、从产品数据集中抽取样本构建作为子数据集D',并将D'输入到二元递归生存树Stree的根节点;
[0033]Q22、从产品属性数据中的K个特征中随机选择M个候选特征K>M,根据Log

rank生存分裂准则,选择使子结点生存值差异最大的特征作为该节点的分裂条件;
[0034]Q23、重复步骤Q22,不断构造新的树子节点,直至每个终结点h的样本数不小于最小的默认值d0,生成一棵生存树Stree;
[0035]Q24、重复步骤Q21~Q23,生成B棵生存树
[0036]Q25、基于训练样本在生存树Stree
b
,b=1,2,...,B的叶节点h∈H处的生存时间与删失信息,构建叶节点h的累积风险函数;
[0037]其中,{(T
1_h

1_h
),(T
2_h

2_h
),

,(T
m_h

m_h
)}表示m个训练样本在叶节点h∈H处的生存时间与删失信息;
[0038]H表示所有叶节点;
[0039]δ
i_h
=0表示样本i在T
i_h
时刻右删失;
[0040]δ
i_h
=1表示样本i在T
i_h
时刻被用户点击;
[0041]t
1_h
<t
2_h
<

<t
N(h)_h
表示训练样本被点击的不同时刻,共有N(h)个;
[0042]且叶节点h在时间t下的累积风险函数为:
[0043][0044]d
l_h
和Y
l_h
分别表示为t
l_h
时刻被点击的产品数量和没有被点击的产品数量;
[0045]t
l_h
表示叶节点h上训练样本被点击的第l个时刻,l=1,2,

,N(h);
[0046]且基于用户在不同时间的条件点击概率预测模型对若干待推荐产品的用户在不同时间的条件点击概率进行预测,包括:
[0047]Q26、基于待推荐产品的特征向量z
i
计算其累计风险函数:
[0048][0049]Q27、根据累积风险函数与生存函数之间的数学关系,计算待推荐产品的生存函数S
b
(t|y=1,z
i
),且y=1表示产品被用户点击;
[0050]Q28、对B棵生存树的生存函数进行平均,得到用户在不同时间t下的条件点击概率,且计算公式如下:
[0051][0052]进一步的,所述用户响应度的计算公式为:
[0053][0054]其中,
[0055]S
i
表示产品i的用户响应度;
[0056]P(z
i
)表示产品i的用户点击概率;
[005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种考虑时间效应的产品组合推荐方法,其特征在于,该方法包括:获取观测时间内的产品属性数据、删失状态数据与用户点击状态数据作为产品数据集;基于产品数据集构建用户点击概率预测模型和用户在不同时间的条件点击概率预测模型;基于用户点击概率预测模型和用户在不同时间的条件点击概率预测模型分别对若干待推荐产品的用户点击概率和用户在不同时间的条件点击概率进行预测;基于若干待推荐产品的用户点击概率和用户在不同时间的条件点击概率计算若干待推荐产品的用户响应度;基于若干待推荐产品的用户响应度构建产品组合推荐强度优化模型,并求解产品组合推荐强度优化模型得到产品组合推荐方案。2.如权利要求1所述的一种考虑时间效应的产品组合推荐方法,其特征在于,所述删失状态数据包括:在观测时间内未能观测到产品被用户点击数据和在观测时间内观测到产品被用户点击数据;所述用户点击状态数据包括:产品被用户点击数据和产品没有被用户点击数据。3.如权利要求2所述的一种考虑时间效应的产品组合推荐方法,其特征在于,所述用户点击概率预测模型为基于集成分类树的预测模型;所述用户在不同时间的条件点击概率预测模型为基于集成生存树的预测模型。4.如权利要求3所述的一种考虑时间效应的产品组合推荐方法,其特征在于,所述用户点击概率预测模型的构建步骤包括:Q11、从产品数据集中抽取样本构建子数据集D
*
,并将D
*
输入到二元分类树Ctree的根节点;Q12、从产品属性数据中的K个特征中随机选择L个候选特征采用二分法将特征F
k
分组,k=1,2,...,L,并计算其条件基尼指数:其中,|D
*
|表示子数据集D
*
的样本量;表示特征F
k
属于q组的样本量,k=1,2,...L,q=1或2,分别表示特征的两个分组;表示q组中属于c类的样本量;c=1或2,分别表示产品被点击或产品未被点击;Q13、选择具有最小基尼指数的候选特征分割节点;Q14、重复Q12~Q13,不断构造新的树子节点,直至叶子结点的样本都属于同一类,生成一颗完整的分类树Ctree;Q15、迭代Q11~Q14,生成G棵分类树作为用户点击概率预测模型;且基于用户点击概率预测模型对若干待推荐产品的用户点击概率进行预测,包括:
将待推荐产品的特征向量输入到训练好的用户点击概率预测模型中,计算分类结果为产品被用户点击的分类树占树总数的比例作为用户点击概率。5.如权利要求3所述的一种考虑时间效应的产品组合推荐方法,其特征在于,所述用户在不同时间的条件点击概率预测模型的构建步骤,包括:Q21、从产品数据集中抽取样本构建作为子数据集D',并将D'输入到二元递归生存树Stree的根节点;Q22、从产品属性数据中的K个特征中随机选择M个候选特征根据Log

rank生存分裂准则,选择使子结点生存值差异最大的特征作为该节点的分裂条件;Q23、重复步骤Q22,不断构造新的树子节点,直至每个终结点h的样本数不小于最小的默认值d0,生成一棵生存树Stree;Q24、重复步骤Q21~Q23,生成B棵生存树Q25、基于训练样本在生存树Stree
b
,b=1,2,...,B的叶节点h∈H处的生存时间与删失信息,构建叶节点h的累积风险函数;其中,{(T
1_h

1_h
),(T
2_h

2_h
),

,(T
m_h

m_h
)}表示m个训练样本在叶节点h∈H处的生存时间与删失信息;H表示所有叶节点;δ
i_h
=0表示样本i在T
i_h
时刻右删失;δ
i_h
=1表示样本i在T
i_h

【专利技术属性】
技术研发人员:王钊张顾凯蒋翠清张化雨陈梦春
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1