一种基于规则与层级融合的个性推荐方法技术

技术编号:16457967 阅读:24 留言:0更新日期:2017-10-25 22:37
本发明专利技术提供一种基于规则与层级融合的个性推荐方法,包括以下步骤:步骤1:“用户—物品”行为信息数据采集;步骤2:数据预处理与特征提取;步骤3:使用人工规则对步骤2处理后的初始数据集进行筛选,符合预测集的“用户—物品”对加入到预测集,全部筛选完后得到预测集Set1;步骤4:基于Bagging算法的二级融合模型对“用户—物品”对进行预测,预测用户可能会购买的物品,得到预测集Set2;步骤5:步骤3和步骤4的预测集取并集得到最终推荐给用户商品集。本发明专利技术基于Bagging算法的两级模型融合的方法解决了单模型的推荐效果较低的问题;使用一定的人工规则进行预测,预测出了一些算法不能解释的购买情况,使推荐结果的召回率大大提高,综合效果较为显著。

A personalized recommendation method based on rule and hierarchical fusion

The invention provides a recommended method of fusion rules and hierarchy based on personality, which comprises the following steps: Step 1: \user - item\ behavior information data acquisition; step 2: data preprocessing and feature extraction; step 3: the use of artificial rules on step 2 after the initial data set were selected in accordance with the prediction set the \user - item\ to the prediction set to join Set1, the prediction set all after screening; step 4: Bagging algorithm for two level fusion model of \user - item\ to predict based on prediction of users may purchase items, get the prediction set Set2; step 5: steps 3 and 4 set to get the final prediction and recommended to the user set of goods. The method of the invention the two level fusion model based on Bagging algorithm to solve the recommended effect of single model of the problem of low; prediction using artificial rules to predict some algorithms can not explain the purchase situation, the recommended results recall rate is greatly improved, the comprehensive effect is significant.

【技术实现步骤摘要】
一种基于规则与层级融合的个性推荐方法
本专利技术涉及个性化推荐领域,特别涉及一种基于规则与层级融合的个性推荐方法。
技术介绍
电子商务的个性推荐一直以来是数据挖掘领域的热点问题,使用最为广泛且较为成熟的方法是协同过滤算法,协同过滤算法不需要领域知识,并且能够推荐出“新产品”。但是协同过滤算法的不足也随着时间的推移显现出来,其稀疏性问题,响应时间较长等问题都制约了推荐系统的性能。虽然近几年有不少学者提出了各种协同过滤算法的改进方法,如基于用户购买记录的改进协同过滤推荐,使用用户的购买记录进行偏好挖掘,并改进相似度计算方法(参见文献何有世,宋翠莉.基于用户购买记录的改进协同过滤推荐[J].计算机工程与设计,2014,35(9):3091-3094)。但是在电子商务问题的推荐上,协同过滤算法在相似度上仍有较大的不足。(1)当用户购买了多个物品时,这些物品在相似度计算时的权值如何确定,都取“1”不合适,会对推荐结果带来不同的影响。(2)基于相似度的推荐结果不对称,例如用户购买了手机,为其推荐手机壳是比较理想的推荐结果,但是当用户购买了手机壳,为其推荐手机则是不合常理的。(3)计算相似度矩阵时,用户的点击、收藏等多种行为无法刻画,只使用购买记录对信息则会造成巨大的浪费。(4)当相似度矩阵极度稀疏时,算法的效率较低。
技术实现思路
为了解决传统的推荐方法响应时间较长,因稀疏性、用户数据信息利用率不高等导致推荐效果不理想的问题,本专利技术提供一种基于规则与层级融合的个性推荐方法,使推荐结果更符合用户期望。为了解决上述技术问题,其技术解决方案为:一种基于规则与层级融合的个性推荐方法,包括以下步骤:步骤1:“用户—物品”行为信息数据采集,采集用户在电子商务网站的对各个物品的行为信息,包括时间、用户ID、商品ID和行为,所述行为包括点击、收藏、加入购物车和购买;步骤2:对步骤1得到的数据进行预处理与特征提取,所述数据预处理即对数据进行归一化处理,采用离差标准化方法,对步骤1得到的原始数据进行线性变换,使结果值映射到[0-1]之间,转换函数如下:其中,x为样本原数据,max为样本数据的最大值,min为样本数据的最小值,x*为归一化后的新值;所述特征提取通过选取最能反映用户购买导向的特征进行提取计算;步骤3:使用人工规则筛选经过步骤2处理后的初始数据集得到预测结果集Set1;步骤4:采用二级融合模型对“用户—物品”进行预测,预测用户可能会购买的物品,预测会购买,则将物品标记为1,否则为0;二级融合模型的第一级模型采用逻辑斯蒂回归模型对经过步骤2处理后的初始数据进行预测,将其预测结果保留;将第一级模型的预测结果作为一个特征加入到经过步骤2处理后的初始数据构成新数据,第二级模型利用此新数据采用随机森林、最近邻、逻辑斯蒂模型分别训练出模型model_1,model_2,model_3,三个模型进行融合,投票得到最终的融合模型,通过融合模型预测得到预测集Set2;步骤5:步骤3的预测集Set1和步骤4的预测集Set2取并集得到最终推荐给用户的商品集。进一步,所述步骤2中提取的特征包括用户对物品a在某一时间段的点击次数、购买次数、收藏次数、加入购物车次数、用户与物品a的交互率、用户对物品a的购买转化率、用户对物品a的购买所占比例。进一步,所述步骤2中去掉包含电商活动日的数据信息。进一步,所述步骤2中去掉包含电商活动日及前后1至3天的数据信息。进一步,所述步骤2中删除含有缺失值的数据。采用人工规则与基于Bagging改进的层级融合模型相结合的方法,将推荐问题转换为预测是否购买的二分类问题,进而对用户进行推荐。本专利技术将问题转换成二分类问题,基于Bagging算法,提出了两级模型融合的方法,解决了单模型的推荐效果较低的问题;本专利技术提出使用一定的人工规则进行预测,预测出了一些算法不能解释的购买情况,使推荐结果的召回率大大提高,综合效果较为显著。附图说明图1为本专利技术一种基于规则与层级融合的个性推荐方法的总体流程图。图2为本专利技术一种基于规则与层级融合的个性推荐方法中涉及的交叉特征。图3为本专利技术一种基于规则与层级融合的个性推荐方法的二级模型图。具体实施方式下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,一种基于规则与层级融合的个性推荐方法包括以下步骤:步骤1:“用户—物品”行为信息数据采集;步骤2:对步骤1得到的数据进行预处理与特征提取;步骤3:使用人工规则对经过步骤2处理后的初始数据集进行筛选,符合预测集的“用户—物品”对加入到预测集,全部筛选完后得到预测集Set1;步骤4:二级融合模型对“用户—物品”对进行预测,预测用户可能会购买的物品,预测会购买,则将物品标记为1,否则为0;步骤5:步骤3和步骤4的预测集取并集得到最终推荐给用户商品集。步骤1中,采集“用户—物品”行为信息数据即采集用户在电子商务网站的对各个物品的行为信息,包括时间、用户ID、商品ID和行为,其中行为包括点击、收藏、加入购物车、购买。步骤2中包括数据预处理与特征提取。步骤2.1数据预处理为了避免因为用户对某一物品的点击、购买次数过高,对模型带来偏差,因此对数据进行归一化处理,采用离差标准化方法对对步骤1得到的数据进行线性变换,使结果值映射到[0-1]之间。转换函数如下:其中,x为样本原数据,max为样本数据的最大值,min为样本数据的最小值,x*为归一化后的新值。数据预处理还包括对异常值处理,考虑到电商有搞活动的情况(如:双十一,唯品会418等),用户在活动当天及前后几天的购买情况均会受到影响,因此此阶段数据不具有说服力,去掉包含活动日及前后1至3天的数据信息。数据预处理还包括处理空值的情况,将含有缺失值的数据删除,以免对推荐效果带来影响。步骤2.2特征提取如图2所示,特征提取即为统计用户对物品a在某一时间段的点击次数、购买次数、收藏次数、加入购物车次数,以及用户与物品a的交互率、用户对物品a的购买转化率和用户对物品a的购买所占比例,将这些特征作为训练集的特征。用户与物品a的交互率=用户对物品a的行为次数/用户总行为次数,反应用户对此物品的喜爱偏好。用户对物品a的购买转化率=用户对物品a的购买次数/用户对a的点击次数,反应用户对此物品的购买欲。用户对物品a的购买所占比例=用户对物品a的购买次数/用户总购买次数,反应该物品是否是用户经常需要的。通过大量的实验和研究对比,虽然可将问题转换成二分类问题进行预测,但是仍有较大数量的物品在预测的用户非购买列表中,但是用户最终却购买了,这也是推荐系统总体召回率不高的原因。因此步骤3中采用了人工规则。利用条件概率的知识,假定一些条件,如:1、用户a在1天前把物品b加入购物车;2、用户a在前几天频繁浏览物品b。基于以上条件,我们可以推出,用户a很有可能在接下来的时间购买物品b。因此,我们制定了一些人工规则,对数据集进行规则筛选,选出符合规则的“用户—物品”对,形成一个初步的预测集Set1。另外,把人工预测的数据集范围缩小,越靠近预测日的用户行为越有参考价值。本专利技术最终使用的人工规则有:1、如果某用户在在预测日前一天将某物品加入购物车,那么将此类物品推荐给该用户;2、如果某用户在前一段时间经常购买的某物品,购买次数超过10次,本文档来自技高网...
一种基于规则与层级融合的个性推荐方法

【技术保护点】
一种基于规则与层级融合的个性推荐方法,其特征在于,包括以下步骤:步骤1:“用户—物品”行为信息数据采集,采集用户在电子商务网站的对各个物品的行为信息,包括时间、用户ID、商品ID和行为,所述行为包括点击、收藏、加入购物车和购买;步骤2:对步骤1得到的数据进行预处理与特征提取,所述数据预处理即对数据进行归一化处理,采用离差标准化方法,对步骤1得到的原始数据进行线性变换,使结果值映射到[0‑1]之间,转换函数如下:

【技术特征摘要】
1.一种基于规则与层级融合的个性推荐方法,其特征在于,包括以下步骤:步骤1:“用户—物品”行为信息数据采集,采集用户在电子商务网站的对各个物品的行为信息,包括时间、用户ID、商品ID和行为,所述行为包括点击、收藏、加入购物车和购买;步骤2:对步骤1得到的数据进行预处理与特征提取,所述数据预处理即对数据进行归一化处理,采用离差标准化方法,对步骤1得到的原始数据进行线性变换,使结果值映射到[0-1]之间,转换函数如下:其中,x为样本原数据,max为样本数据的最大值,min为样本数据的最小值,x*为归一化后的新值;所述特征提取通过选取最能反映用户购买导向的特征进行提取计算;步骤3:使用人工规则筛选经过步骤2处理后的初始数据集得到预测结果集Set1;步骤4:采用二级融合模型对“用户—物品”进行预测,预测用户可能会购买的物品,预测会购买,则将物品标记为1,否则为0;二级融合模型的第一级模型采用逻辑斯蒂回归模型对经过步骤2处理后的初始数据进...

【专利技术属性】
技术研发人员:王雨商锦
申请(专利权)人:武汉科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1