一种基于时间序列填补的商品点击率预测方法技术

技术编号:23767715 阅读:71 留言:0更新日期:2020-04-11 20:44
本发明专利技术公开了一种基于时间序列填补的商品点击率预测方法,包括以下步骤:获取商品点击率相关数据,并对其数据进行预处理;对商品点击率相关数据进行特征提取并融合,得到商品特征;通过商品特征进行相似度计算;将相似度高的商品在相应时间段商品点击率数据进行填补序列缺失值,得到点击率完整时间序列;利用点击率完整时间序列,通过长短期记忆网络进行商品点击率预测,最后输出商品点击率预测值;本发明专利技术采用时间序列填补的方法,结合多种有效特征,对多模特征进行融合,使用商品的多模态特征进行相似商品的查找和数据替代,填补完整的时间序列,更接近真实值,解决时间序列的非连续性问题,进而准确预测商品点击率。

A forecasting method of commodity click through rate based on time series filling

【技术实现步骤摘要】
一种基于时间序列填补的商品点击率预测方法
本专利技术涉及数据挖掘和推荐的研究领域,特别涉及一种基于时间序列填补的商品点击率预测方法。
技术介绍
随着计算机技术,物流工程等技术的发展和完善,互联网电商在全球范围内得到了迅速普及和发展。无论是从提高电商平台的收益角度来考虑,还是从进一步完善网上购物的用户体验而言,进行科学的数据分析和数据挖掘,对每个用户提供精准的个性化推荐对于电商平台的发展至关重要。对于电商平台而言,商品点击率从某种角度而言直接反应了消费市场流行趋势的倾向,是非常重要的一个参考指标。因此,充分利用电商平台庞大的历史浏览和交易数据,准确预测售卖商品的点击率,有助于运营部门及时调整商业决策。目前基于时间序列的深度学习方法运用在连续的时间序列的商品点击率预测问题中已经获得了较好效果,但由于部分电商平台的特性,限时特卖商品的历史售卖数据并非时间连续的,这就导致了时序模型不可直接用于处理此类数据。目前的普遍做法是分别考虑每一段连续的时间序列,基于这些分段数据建模并训练,但这种处理方式有可能会导致在序列中时间周期较长的历史数据无法充分考本文档来自技高网...

【技术保护点】
1.一种基于时间序列填补的商品点击率预测方法,其特征在于,包括以下步骤:/n获取商品点击率相关数据,并对其数据进行预处理;所述商品点击率相关数据包括商品图片、商品品牌、商品价格、商品点击率、文本标题;/n对商品点击率相关数据进行特征提取并融合,得到商品特征,所述特征包括商品图片特征、文本标题特征、商品品牌特征、商品价格特征;/n通过商品特征进行相似度计算,即进行商品两两之间的相似性计算;/n将相似度高的商品在相应时间段商品点击率数据进行填补序列缺失值,得到点击率完整时间序列;/n利用点击率完整时间序列,通过长短期记忆网络进行商品点击率预测;其中模型构建:将填补完成的点击率完整时间序列输入长短期...

【技术特征摘要】
1.一种基于时间序列填补的商品点击率预测方法,其特征在于,包括以下步骤:
获取商品点击率相关数据,并对其数据进行预处理;所述商品点击率相关数据包括商品图片、商品品牌、商品价格、商品点击率、文本标题;
对商品点击率相关数据进行特征提取并融合,得到商品特征,所述特征包括商品图片特征、文本标题特征、商品品牌特征、商品价格特征;
通过商品特征进行相似度计算,即进行商品两两之间的相似性计算;
将相似度高的商品在相应时间段商品点击率数据进行填补序列缺失值,得到点击率完整时间序列;
利用点击率完整时间序列,通过长短期记忆网络进行商品点击率预测;其中模型构建:将填补完成的点击率完整时间序列输入长短期记忆网络,训练模型,利用随机梯度下降进行模型参数学习与更新,最后输出商品点击率预测值。


2.根据权利要求1所述的一种基于时间序列填补的商品点击率预测方法,其特征在于,所述预处理具体如下,其中对于商品图片,缩放到统一大小K;对于文本标标题,利用结巴分词工具进行分词,并过滤掉停用词以及低频词;对于商品点击率,对其进行变换,即对商品点击率加1后再取其对数得到新的商品点击率,新的商品点击率用于获取完整的时间序列。


3.根据权利要求2所述的一种基于时间序列填补的商品点击率预测方法,其特征在于,所述同一大小K为224×224×3。


4.根据权利要求1所述的一种基于时间序列填补的商品点击率预测方法,其特征在于,所述特征提取具体如下:对于商品图片特征提取,通过预训练好的VGGNet16网络参数,对商品图片特征进行提取,即取VGGNet16网络最后一层池化层的输出作为特征,并变换到49×512大小的特征矩阵,记为:
V=[v1,…,vM],
其中,d为特征维度,M为图片区域个数;
对于文本标题特征的提取,将文本标题数据表示为,



其中,wt为第t位置上的词的独热编码,l为文本标题长度;
将所有文本标题中词的编码拼接得到文本标题特征:
W=[w1,…,wl],
其中,L为词的总个数;
使用结巴分词对文本标题进行中文分词,对文本标题进行词嵌入,得到每个词的向量表示,再利用word2vec模型对文本进行编码,取其网络的输出层作为文本标题特征;
对于商品品牌特征和商品价格特征,把商品按照品牌...

【专利技术属性】
技术研发人员:许勇王楚然吴斯
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1