一种基于智慧社区大数据的商品推荐方法技术

技术编号:14032798 阅读:89 留言:0更新日期:2016-11-20 11:22
本发明专利技术公开了一种基于智慧社区大数据的商品推荐方法,涉及互联网信息处理技术领域,包括如下步骤:首先,进行数据预处理;其次,进行样本集构建;再次,进行特征工程处理;然后,进行模型融合;最后,为用户推荐个性化商品信息;其中,样本集构建为:提取最近n天内的一级交互行为样本和二级行为样本,提取最近n+m天内的一级行为样本,并形成抽样样本;样本集数据的特征包含基础特征、交叉特征。本发明专利技术有益之处在于:降低负样本在样本集的含量,提高商品购买预测准确率,为用户提供更准确、更可信的商品推荐服务。同时,采用交叉特征用于描述样本集的数据特征,用于预测特定含义的用户行为。

Commodity recommendation method based on Intelligent Community large data

The invention discloses a recommendation method of big data items based on the wisdom of the community, relates to the technical field of Internet information processing, which comprises the following steps: firstly, preprocessing the data; secondly, the sample set is constructed; again, the features of engineering treatment; then, the model fusion; finally, the personalized recommendation for users including commodity information; sample set construction: extraction, sample level interaction behavior of the last n days and two behavior sample, sample level behavior of the last n+m days, and the formation of the sample; the sample data set contains the basic features and characteristics of cross feature. The invention has the advantages that the content of the negative sample in the sample set is reduced, the accuracy of the commodity purchase forecast is improved, and the more accurate and credible commodity recommendation service is provided for the user. At the same time, the cross feature is used to describe the data characteristics of the sample set, which is used to predict the user behavior of the specific meaning.

【技术实现步骤摘要】

本专利技术涉及互联网信息处理
,尤其涉及一种基于智慧社区大数据的商品推荐方法
技术介绍
随着计算机技术和电子商务的飞速发展,商品个数和种类快速增长,用户也越来越热衷于网上购物。而在城市化进程中,发展智慧城市逐渐成为了城市建设的主流趋势,在此过程中,作为智慧城市的重要组成部分,智慧社区也得到了大力发展。因此,随着用户在互联网购物比例逐年增长,如何在智慧社区中快速便捷、精确地为用户进行商品推荐已成为业内人士和专家们关注的焦点。面对琳琅满目的商品,用户需要花费大量的时间才能找到自身想购买的商品。为了解决这个问题,个性化推荐系统应运而生。在真实的业务场景下,往往需要对所有的商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,不仅需要利用用户在这个商品子集上的行为数据,同时还需要利用更丰富的用户行为数据等。因此,需要有效地构建个性化推荐系统从这些海量用户购物数据中挖掘、分析、整合出有用数据,为用户提供完全个性化的决策支持和信息服务。目前常见的推荐算法主要有基于内容推荐、基于协同过滤推荐、以及基于知识推荐。基于内容推荐其推荐结果直观,容易解析,不需要领域知识,但是对于复杂属性不易处理,并且需要足够数据构造分类器;基于协同过滤推荐其具有推荐个性化、自动化程度高,能够处理复杂的非结构化对象等优点,但不能很好的解决新使用者问题、新项目问题、稀疏性问题,以及系统延伸性问题;基于知识推荐在某种程度上可视为一种推理技术,其不是建立在用户需要和偏好基础上推荐的。由于各种推荐方法都有优缺点,因此实际中,组合推荐经常被采用。即通过组合后能在一定程度上避免或弥补各自推荐技术的弱点。基于此背景下,本专利技术提出了一种基于智慧社区大数据的商品推荐方法,可利用智慧社区的大数据,结合社区用户行为,对用户互联网进行服务推荐。通过数据预处理,对异常数据和无用数据进行清除。针对不平衡情况,采用经典过采样算法或将正样本翻倍,或使用欠采样,减少部分负样本。并进一步提取出基础特征和交叉特征,采用XGBoost多模型融合得到最终推荐结果。本专利技术具有更高的准确性和稳定性,同时使用多样性特征融合技术,能进一步提高推荐的准确率和召回率,可为网购用户提供更准确、更可信的商品推荐服务。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提供一种基于智慧社区大数据的商品推荐方法,为用户提供更准确、更可信的商品推荐服务。一方面,对不同等级交互行为,设定不同的样本采集的时间范围,构建成样本集,降低负样本在样本集的含量。另一方面,本专利技术还采用交叉特征用于描述样本集的数据特征,用于预测特定含义的用户行为,如预测一个用户购买同类商品下的大量不同物品、预测出用户最想购买的商品、预测出用户最想购买的类别。为实现上述目的,本专利技术提供了一种基于智慧社区大数据的商品推荐方法,其特征在于,包括如下步骤:S1、数据预处理:清除异常数据和无用数据,形成初始样本;S2、样本集构建:用于提取初始样本,构建样本集;S3、特征工程:用于提取样本集数据的特征;S4、模型融合:使用提取的特征构建模型,并进行模型融合;S5、结果推荐:为用户推荐个性化商品信息;其中,所述步骤S2中,所述样本集构建为:提取最近n天内的一级交互行为样本和二级行为样本,提取最近n+m天内的一级行为样本,并形成抽样样本;其中,n≥0,m≥0;所述步骤S3中,所述样本集数据的特征包含基础特征、交叉特征。在该技术方案中,数据预处理有益效果在于:有效减少样本量;在样本集构建中,一级交互行为样本、二级交互行为样本的提取时间范围不同,有益效果在于:进一步减少负样本量;在特征工程中,包含基础特征、交叉特征,有益效果在于:提供特定含义的交叉特征,用于预测特定含义的用户行为,如预测一个用户购买同类商品下的大量不同物品、预测出用户最想购买的商品、预测出用户最想购买的类别。进一步而言,一级交互行为样本包括:商品的收藏行为样本、加购物车行为样本、购买行为样本;所述二级交互行为样本包括:商品的浏览行为样本;本技术方案有益之处在于:对商品进行收藏行为、加购物车行为、购买行为的用户,有更大的几率购买该商品,并将其设定为一级交互行为样本;对商品浏览的购买概率较小,设定为二级交互行为样本。进一步而言,基础特征包括用户特征、商品特征、类别特征;所述交叉特征包括用户商品特征、用户类别特征、商品类别特征以及三者的交叉特征;进一步而言,在所述步骤S3中还包含有所述样本数据的变换与平滑处理;所述变换与平滑处理包括如下步骤:S31数据变换:根据公式X=ln(1+x),对特征数据进行变换;其中,x为变换前数据,所述X为变换后数据;S32平滑处理:对变换后数据进行平滑处理;本技术方案采用对特征数据进行平滑化处理,从而减弱异常数据的影响;平滑化处理不仅包括,对在步骤S3中干扰的样本数据删除之后的平滑处理,还包括对在步骤S1中已经删除的异常数据的平滑处理,特别是已删除的双11、双12等大型节假期数据的平滑处理。进一步而言,模型融合是采用XGBoost模型对提取到的特征进行重要性排序,并进行分组,再进行XGBoost模型平均融合。本技术方案有益之处在于,避免过拟合,保证模型的稳定性。进一步而言,在所述步骤S5中,包括:S51、验证推荐算法的准确率Precision和召回率Recall;S52、调整预测结果的阈值,使F1值最大,并获取推荐结果;S53、根据所述推荐结果,为用户推荐个性化商品信息;其中,PrecesionSet为算法预测的购买数据集合,ReferenceSet为真实答案购买数据集合;所述所述所述本技术方案有益之处在于:验证推荐算法的有效性,调整预测结果的阈值取推荐结果,使准确率和召回率达到平衡。本专利技术的有益效果是:提供一种基于智慧社区大数据的商品推荐方法,为用户提供更准确、更可信的商品推荐服务。一方面,对不同等级交互行为,设定不同的样本采集的时间范围,构建成样本集,降低负样本在样本集的含量。另一方面,本专利技术还采用交叉特征用于描述样本集的数据特征,用于预测特定含义的用户行为,如预测一个用户购买同类商品下的大量不同物品、预测出用户最想购买的商品、预测出用户最想购买的类别。附图说明图1为本专利技术实施例一提供的智慧社区移动推荐算法流程图;图2为本专利技术实施例一提供的样本选择图;图3为本专利技术实施例一提供的购买转化率图;图4为本专利技术实施例一提供的前n天交互对象为考察日负样本分布图;图5为本专利技术实施例一提供的基础特征图;图6为本专利技术实施例一提供的交叉特征图;图7为本专利技术实施例一提供的特征选择方法对比图;图8为本专利技术实施例一提供的基于XGBoost推荐算法流程图。具体实施方式下面结合附图和实施例对本专利技术作进一步说明:如图1所示,图1为本专利技术实施例提供的一种基于智慧社区大数据的商品推荐方法的流程图,具体包括:S1、数据预处理:清除异常数据和无用数据,形成初始样本;S2、样本集构建:用于提取初始样本,构建样本集;S3、特征工程:用于提取样本集数据的特征;S4、模型融合:使用提取的特征构建模型,并进行模型融合;S5、结果推荐:为用户推荐个性化商品信息;本实施例中,主要采用智慧社区的电商购物大数据来展开讨论。在本实施例中,初始数据中包含了抽样出来的一定量用户在一个月本文档来自技高网
...

【技术保护点】
一种基于智慧社区大数据的商品推荐方法,其特征在于,包括如下步骤:S1、数据预处理:清除异常数据和无用数据,形成初始样本;S2、样本集构建:用于提取初始样本,构建样本集;S3、特征工程:用于提取样本集数据的特征;S4、模型融合:使用提取的特征构建模型,并进行模型融合;S5、结果推荐:为用户推荐个性化商品信息;其中,所述步骤S2中,所述样本集构建为:提取最近n天内的一级交互行为样本和二级行为样本,提取最近n+m天内的一级行为样本,并形成抽样样本;其中,n≥0,m≥0;所述步骤S3中,所述样本集数据的特征包含基础特征、交叉特征。

【技术特征摘要】
1.一种基于智慧社区大数据的商品推荐方法,其特征在于,包括如下步骤:S1、数据预处理:清除异常数据和无用数据,形成初始样本;S2、样本集构建:用于提取初始样本,构建样本集;S3、特征工程:用于提取样本集数据的特征;S4、模型融合:使用提取的特征构建模型,并进行模型融合;S5、结果推荐:为用户推荐个性化商品信息;其中,所述步骤S2中,所述样本集构建为:提取最近n天内的一级交互行为样本和二级行为样本,提取最近n+m天内的一级行为样本,并形成抽样样本;其中,n≥0,m≥0;所述步骤S3中,所述样本集数据的特征包含基础特征、交叉特征。2.如权利要求1所述的一种基于智慧社区大数据的商品推荐方法,其特征在于,所述一级交互行为样本包括:商品的收藏行为样本、加购物车行为样本、购买行为样本;所述二级交互行为样本包括:商品的浏览行为样本。3.如权利要求1所述的一种基于智慧社区大数据的商品推荐方法,其特征在于,所述基础特征包括用户特征、商品特征、类别特征;所述交叉特征包括用户商品特征、用户类别特征、商品类别特征...

【专利技术属性】
技术研发人员:舒海东胡峰
申请(专利权)人:重庆房慧科技有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1