一种基于图片曝光转化率预测模型的图片推荐方法技术

技术编号:36388860 阅读:17 留言:0更新日期:2023-01-18 09:52
本发明专利技术涉及一种基于图片曝光转化率预测模型的图片推荐方法,属于互联网图片电商搜索技术领域,解决了现有多目标优化方法效果不佳的问题。获取用户注册信息、用户输入的检索词、与检索词匹配的图片信息、用户历史点击图片信息、历史购买图片信息,形成训练样本集。建立图片的曝光转化率预测模型CTCVR并训练,根据损失函数进行反向传播直至收敛。利用模型对所有图片进行处理,得到每张图片的点击率CTR、CVR、CTCVR以及图文相关值IMR,选取IMR值大于阈值的图片,并将选的图片按照CTCVR值由大至小的顺序推荐给用户。实现了一个模型完成多任务多目标的预测,使多个任务目标之间相互促进和约束,提高了模型的泛化性能,解决了深度转化过程中的样本偏差和数据稀疏问题。程中的样本偏差和数据稀疏问题。程中的样本偏差和数据稀疏问题。

【技术实现步骤摘要】
一种基于图片曝光转化率预测模型的图片推荐方法


[0001]本专利技术涉及互联网图片电商搜索
,尤其涉及一种基于图片曝光转化率预测模型的图片推荐方法。

技术介绍

[0002]随着自媒体等信息行业的发展及版权保护的推进,国内发展了一批以授权图片使用为主体业务的公司。一方面仅使用图片的描述文本信息准确度不高,需要利用图像信息来进一步优化结果和输入词的相关性。另一方面图片搜索的用户兴趣和用户行为强相关,如何在保证相关性的前提下引入个性化。比如金融领域的作者和娱乐领域的作者同时搜索“北京”,金融领域作者对北京金融峰会的现场图片有更高的意愿,娱乐领域的作者对某明星现身北京的路透图片有更高的意愿。因此需要引入个性化在保证结果相关性的前提下进一步提升用户的付费率。用户付费是一个深度转化场景,存在曝光展现,用户点击,加入购物车,付款成单等多个阶段。具体而言这是一个多目标优化问题,存在多个目标之间相互关联的情况。以互联网图片电商搜索领域中图片的点击率CTR(Click

Through

Rate)、转化率CVR(Conversion Rate)和曝光转化率CTCVR(Click

Through&ConVersion Rate)为例,这几个目标存在关联关系。多模型融合是进行多目标优化的传统方式,对每个目标训练一个模型,每个模型算出一个分数,然后根据自身业务的特点,通过某种方式将这些分数综合起来,计算出一个总的分数再进行排序,综合分数的计算通常会根据不同目标的重要性设定相应的参数来调节。在实际操作中的主要问题有1)样本选择偏差(SSB)问题;2)数据稀疏(DS)问题,3)在线服务计算量大,多个目标间重要性难以量化等,导致传统多目标优化方法效果不佳。

技术实现思路

[0003]鉴于上述的分析,本专利技术实施例旨在提供一种基于图片曝光转化率预测模型的图片推荐方法,用以解决现有的数据稀疏导致模型准确率低,在线服务计算量大,多个目标间重要性难以量化的问题。
[0004]本专利技术实施例一方面提供了一种基于图片曝光转化率预测模型的图片推荐方法,包括如下步骤:
[0005]获取用户注册信息、用户输入的检索词、与检索词匹配的图片信息、用户历史点击图片信息、历史购买图片信息,形成训练样本集;
[0006]建立图片曝光转化率预测模型,所述预测模型包括第一DeepFM模型、第二DeepFM模型、NN模型,其中第一DeepFM模型和NN模型用于预测图片的曝光点击率CTR,第二DeepFM和NN模型用于预测图片的点击购买率CVR,所述NN模型还用于预测图片的图文相关性IMR;模型基于图片CTR和CVR得到图片的曝光转化率CTCVR;
[0007]基于所述训练样本集对图片曝光转化率预测模型进行训练,根据损失函数进行反向传播,并利用AdaGRad算法更新模型中各参数的步长,直至损失函数收敛,得到训练好的
图片曝光转化率预测模型;
[0008]将用户输入的检索词输入至所述预测模型,利用所述预测模型对图片库中所有图片进行处理,得到每张图片的CTR、CVR、CTCVR以及IMR,选取IMR值大于阈值的图片,并将选的图片按照CTCVR值由大至小的顺序推荐给用户。
[0009]进一步的,所述预测模型还包括输入层、Embedding层;所述输入层用于接收训练样本集中的数据,并将数据编码成维度相同的特征向量后送入Embedding层;所述Embedding层将所有的特征向量进行分域,形成第一独立特征域、第二独立特征域以及共享特征域;
[0010]所述的第一独立特征域为用户的历史点击图片信息对应的特征向量;所述的第二独立特征域为用户的历史购买图片信息对应的特征向量;
[0011]所述的共享特征域包括用户的注册信息、用户输入的检索词、与检索词匹配的图片信息对应的特征向量。
[0012]进一步的,对所述预测模型进行训练时,将第一独立特征域和共享特征域的特征向量输入至第一DeepFM模型,将第二独立特征与和共享特征域中的特征向量输入至第二DeepFM模型,将第一独立特征域、第二独立特征与和共享特征域中的特征向量输入至NN模型。
[0013]进一步的,所述第一DeepFM模型的输出表示为:
[0014][0015]其中,其中,w∈R
d
,R
d
为d维实数空间,V
i
∈R
k
,R
k
为k维实数空间,k为embedding向量长度,w为d维权重向量,d表示特征总数,V
i
是第i个特征的特征向量,<w,x>表示向量w和特征x做内积,用于计算一阶特征的重要性,<V
i
,V
j
>表示第i个特征的特征向量和第j个特征的特征向量做内积。
[0016]进一步的,所述NN模型的输出表示为:
[0017][0018][0019][0020]其中,y
NNIMR
为NN模型输出的IMR值,y
NNCTR
为NN模型输出的CTR值,y
NNCVR
为NN模型输出的CVR值;σ表示激活函数;
[0021]|H|是隐层数,α
H
为最后一层隐层的输出,分别为NN模型中IMR部分、CTR部分、CVR部分的权重,分别为NN模型中IMR部分、CTR部分、CVR部分的偏差。
[0022]进一步的,所述图片的曝光点击率CTR、点击购买率CVR通过如下公式得到:
[0023][0024][0025]sigmiod是激活函数。
[0026]进一步的,所述的损失函数表示为:
[0027][0028]θ
imr

ctr

ctcvr
是NN模型、第一DeepFM模型和第二DeepFM模型的IMR、CTR、CTCVR的网络参数,l(
·
)是交叉熵损失函数,N是训练集样本数;d
ctr
是CTR任务特征个数、d
cvr
是CVR任务特征个数。
[0029]进一步的,所述历史点击图片信息包括图片的文字描述信息和图片的RGB信息;所述历史购买图片信息包括图片文字描述信息和图片RGB信息;所述与检索词匹配的图片信息包括图片供应商、图片关键词、图片文字描述信息、图片的RGB信息。
[0030]进一步的,所述历史点击图片信息、历史购买图片信息以及与检索词匹配的图片信息中的图片RGB信息经过Resenet50编码得到维度相同的特征向量;
[0031]历史点击图片信息、历史购买图片信息中的图片文字描述信息通过Transformer编码得到维度相同的特征向量;
[0032]所述用户注册信息、用户输入的检索词以及与检索词匹配的图片信息中的图片供应商、图片关键词通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图片曝光转化率预测模型的图片推荐方法,其特征在于,所述方法包括如下步骤:获取用户注册信息、用户输入的检索词、与检索词匹配的图片信息、用户历史点击图片信息、历史购买图片信息,形成训练样本集;建立图片曝光转化率预测模型,所述预测模型包括第一DeepFM模型、第二DeepFM模型、NN模型,其中第一DeepFM模型和NN模型用于预测图片的曝光点击率CTR,第二DeepFM和NN模型用于预测图片的点击转化率CVR,所述NN模型还用于预测图片的图文相关性IMR;模型基于图片CTR和CVR得到图片的曝光转化率CTCVR;基于所述训练样本集对图片曝光转化率预测模型进行训练,根据损失函数进行反向传播,并利用AdaGRad算法更新模型中各参数的步长,直至损失函数收敛,得到训练好的图片曝光转化率预测模型;将用户输入的检索词输入至所述预测模型,利用所述预测模型对图片库中所有图片进行处理,得到每张图片的CTR、CVR、CTCVR以及IMR,选取IMR值大于阈值的图片,并将选的图片按照CTCVR值由大至小的顺序推荐给用户。2.根据权利要求1的方法,其特征在于,所述预测模型还包括输入层、Embedding层;所述输入层用于接收训练样本集中的数据,并将数据编码成维度相同的特征向量后送入Embedding层;所述Embedding层将所有的特征向量进行分域,形成第一独立特征域、第二独立特征域以及共享特征域;所述的第一独立特征域为用户的历史点击图片信息对应的特征向量;所述的第二独立特征域为用户的历史购买图片信息对应的特征向量;所述的共享特征域包括用户的注册信息、用户输入的检索词、与检索词匹配的图片信息对应的特征向量。3.根据权利要求2的方法,其特征在于,对所述预测模型进行训练时,将第一独立特征域和共享特征域的特征向量输入至第一DeepFM模型,将第二独立特征与和共享特征域中的特征向量输入至第二DeepFM模型,将第一独立特征域、第二独立特征与和共享特征域中的特征向量输入至NN模型。4.根据权利要求3的方法,其特征在于所述第一DeepFM模型的输出表示为:其中,w∈R
d
,R
d
为d维实数空间,V
i
∈R
k
,R
k
为k维实数空间,k为embedding向量长度,,w为d维权重向量,d表示特征总数,V
i
是第i个特征的特征向量,<w,x>表示向量w和特征x做内积,用于计算一阶特征的重要性,<V
i
,V
j
>表示第i个特征的特征向量和第j个特征的特征向量做内积,x
j1
、x
j2
代表第j1、j2个特征取值。5.根据权利要求4的方法,其特征在于所述NN模型的输出表示为:5.根据权利要求4的方法,其特征在于所述NN模型的输出表示为:5.根据权利要求4的方法,其特征在于所述NN模型的输出表示为:
其中,y
...

【专利技术属性】
技术研发人员:宇文瑾薛铸鑫郝创博徐锋史小龙李子博邓大伟王宇浩隋悦
申请(专利权)人:北京京航计算通讯研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1