当前位置: 首页 > 专利查询>清华大学专利>正文

基于线性回归的推荐方法及系统技术方案

技术编号:10255581 阅读:192 留言:0更新日期:2014-07-24 22:48
本发明专利技术公开了推荐技术领域的一种基于线性回归的推荐方法及系统,用以解决目前推荐系统的研究存在的问题。该方法包括:遍历当前网络系统中的所有用户和物品,获得所有用户和物品的历史评分数据;根据历史评分数据建立基于用户的线性回归模型;根据历史评分数据建立基于物品的线性回归模型;利用用户和物品的线性回归模型预测用户对未评过分的物品的评分;根据用户对所有未评过物品的预测评分排序,将排名较高的物品作为候选推荐给用户。本发明专利技术克服了传统协同过滤算法中实时性差、无法直接做增量更新的等在实际应用中的局限性,有效实现了基于线性回归的推荐方法及系统。

【技术实现步骤摘要】

本专利技术涉及推荐
,特别涉及一种基于线性回归的推荐方法及系统
技术介绍
随着互联网技术的迅猛发展,大数据已然降临。形如社交网络、电子商务和移动通信的发展使人们摆脱了信息匮乏的境况,进入了以千万亿字节(PateByte,PB)为单位的海量数据时代。新浪微博的日活跃用户超过6千万,日均发布微博数量已经增至1.3亿条;百度日处理查询量超十亿次;淘宝“双十一”单日交易量则高达1.7亿次。随着数据爆炸式的增长,问题也随之而来:如何从庞大的数据量中挖掘出对自身最有价值信息,实现信息与用户的最佳匹配?这无论对于信息消费者,还是服务提供者都是严峻的挑战。针对上述问题,推荐系统提供了一个很好的解决方案。作为21世纪非常有潜力的信息过滤技术之一,推荐系统通过分析历史数据,建立相应的数学模型,挖掘其中的隐含信息,从而为用户提供个性化的推荐服务,成功实现了信息的最佳匹配。它一方面满足了用户的信息需求,另一方面拓展了信息的潜在价值,实现了信息消费者与生产者的双赢。目前推荐系统已经被广泛应用到各行各业,例如亚马逊的图书推荐系统、Facebook的好友推荐系统和Netflix的电影推荐系统,并取得了显著的经济效益。此外,推荐系统的研究还受到了信息科学、计算科学、统计物理学、认知科学等多个学科的关注,同时它与管理科学、消费行为等研究也密切相关。因此,其研究和发展具有很大的学术和实际意义,受到了学术界和业界的高度关注。然而,推荐系统目前仍然面临着很多问题。例如基于协同过滤技术的推荐系统利用用户或者物品之间的共同评分计算相似性,然后将相似性高的作为邻居,利用邻居的评分根据相似性进行线性加权得到预测结果。但是在用户和物品资源如此庞大的在线资源提供网站上用户评分十分稀疏,寻找共同评分需要付出很高的计算代价,从而严重影响了推荐系统的性能。再者,对于一些新加入的用户和物品,由于缺乏必要的评分信息导致难以衡量相似性,从而使得这些物品一直无法被加入推荐列表,影响了推荐系统的覆盖率。另一种基于矩阵分解的推荐系统通过将用户—物品评分矩阵进行奇异值分解,提取出用户和物品的特征向量,然后基于特征向量计算相似性,可以取得比协同过滤技术更好的推荐效果。但是由于矩阵分解本身相当耗时,无法保证应用的实时性,而且其结果无法直接做增量更新,极大地限制了其在工业界中的推广应用。
技术实现思路
本专利技术的目的在于,提出一种基于线性回归的推荐方法及系统,用以解决目前推荐系统研究存在的问题。为实现上述目的,本专利技术提出的技术方案是,一种基于线性回归的推荐方法及系统,其特征是所述方法包括下列步骤:步骤1:遍历当前网络系统中的所有用户和物品,获得所有用户和物品的历史评分数据;步骤2:根据历史评分数据建立基于用户的线性回归模型;步骤3:根据历史评分数据建立基于物品的线性回归模型;步骤4:利用用户和物品的线性回归模型预测用户对未评过分的物品的评分;步骤5:根据用户对所有未评过物品的预测评分排序,将排名较高的物品作为候选推荐给用户。所述根据历史评分数据建立基于用户的线性回归模型具体包括:步骤21:对于每个用户,将该用户对其所评过的物品的历史评分构成一个N维向量Yu,其中N为该用户的评过的物品个数;步骤22:按照向量Yu中物品的顺序,统计该用户评过分的每个物品的历史评分中出现频次最高的评分,并将结果构成一个N维向量Xu;步骤23:假设Xu与Yu之间有如下关系:Yu=auXu+bu利用上述N维向量对此式进行线性回归,利用最小二乘法估计出模型参数au与bu的值。所述根据历史评分数据建立基于物品的线性回归模型具体包括:步骤31:对于每个物品,将所有评过该物品的用户对其的历史评分构成一个M维向量Yi,其中M为评过该物品的用户数;步骤32:按照向量Yi中用户的顺序,统计每个评过该物品的用户的历史评分中出现频次最高的评分,并将结果构成一个M为向量Xi;步骤33:假设Xi与Yi之间满足如下关系:Yi=aiXi+bi利用上述M维向量对此式进行线性回归,利用最小二乘法估计出模型参数ai与bi的值。所述预测用户对未评过的物品的评分并产生物品推荐具体包括:步骤41:预测用户u对其未评过的某个物品i的评分,首先统计用户u的历史评分中频次最高的评分xu和物品i的历史评分中频次最高的评分xi;步骤42:以物品i的历史评分频次最高的评分xi作为基于用户的线性回归模型的输入预测用户u对物品i的评分yu,以用户u的历史评分频次最高的评分xu作为基于物品的线性回归模型的输入预测用户u对物品i的评分yi;步骤43:将步骤42得到预测评分yu和yi加权得到用户u对物品i的最终预测评分值pu,i;步骤44:针对用户u所有未评过的物品,循环步骤41到步骤43,得到用户u对其所有未评过的物品的预测评分。本专利技术实现的基于线性回归的推荐方法及系统,其有益点如下:1.算法性能相比于传统的协同过滤算法有非常大的提升,具有很好的实时性;具体表现在平均绝对误差MAE和均方根误差RMSE两项指标提高20%以上,模型建立所需时间降低100倍以上;2.算法可以实现增量更新,当系统有新的用户行为产生时,可在常数时间内完成模型参数更新,适用于实时推荐系统;3.算法使用统计信息,在一定程度上消除了评分噪声对模型参数估计的影响,具有很好的鲁棒性。附图说明图1是基于线性回归的推荐方法和系统的流程图。图2是基于用户的线性回归模型建立流程图。图3是基于物品的线性回归模型建立流程图。图4是基于线性回归的推荐方法的评分预测流程图。图5是分别采用本专利技术提出的方法和传统基于项目的协同过滤方法的对比结果。具体实施方式下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本专利技术的范围及其应用。本专利技术解决问题的思路是:首先,遍历当前网络系统中的所有用户和物品,获得所有用户和物品的历史评分数据;然后,分别建立基于用户的线性回归模型和基于物品的线性回归模型;接着,根据之前所建立的基于用户和物品线性回归模型,以用户或者物品的历史评分中最高频次评分作为模型输入,预测用户对物品的评分;最后,根据用户对所有未评过物品的预测评分排序,将排名较高的物品作为候选推荐给用户。下面结合附图说明本专利技术的具体实现方本文档来自技高网
...
基于线性回归的推荐方法及系统

【技术保护点】
一种基于线性回归的推荐方法及系统,其特征是所述方法包括:步骤1:遍历当前网络系统中的所有用户和物品,获得所有用户和物品的历史评分数据;步骤2:根据历史评分数据建立基于用户的线性回归模型;步骤3:根据历史评分数据建立基于物品的线性回归模型;步骤4:利用用户和物品的线性回归模型预测用户对未评过分的物品的评分;步骤5:根据用户对所有未评过物品的预测评分排序,将排名较高的物品作为候选推荐给用户。

【技术特征摘要】
1.一种基于线性回归的推荐方法及系统,其特征是所述方法包括:
步骤1:遍历当前网络系统中的所有用户和物品,获得所有用户和物品
的历史评分数据;
步骤2:根据历史评分数据建立基于用户的线性回归模型;
步骤3:根据历史评分数据建立基于物品的线性回归模型;
步骤4:利用用户和物品的线性回归模型预测用户对未评过分的物品的
评分;
步骤5:根据用户对所有未评过物品的预测评分排序,将排名较高的物
品作为候选推荐给用户。
2.根据权利要求1所述的一种基于线性回归的推荐方法及系统,其特
征是所述根据历史评分数据建立基于用户的线性回归模型具体包括:
步骤21:对于每个用户,将该用户对其所评过的物品的历史评分构成
一个N维向量Yu,其中N为该用户的评过的物品个数;
步骤22:按照向量Yu中物品的顺序,统计该用户评过分的每个物品的
历史评分中出现频次最高的评分,并将结果构成一个N维向量Xu;
步骤23:假设Xu与Yu之间有如下关系:
Yu=auXu+bu利用上述N维向量对此式进行线性回归,利用最小二乘法估计出模型
参数au与bu的值。
3.根据权利要求1所述的一种基于线性回归的推荐方法及系统,其特
征是所述根据历史评分数据建立基于物品的线性回归模型具体包括:
步...

【专利技术属性】
技术研发人员:陈震谢峰冯喜伟尚家兴曹军威
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1