当前位置: 首页 > 专利查询>上海大学专利>正文

一种优化用户相似度的协同过滤方法技术

技术编号:21892059 阅读:63 留言:0更新日期:2019-08-17 14:34
本发明专利技术提出了一种优化用户相似度的协同过滤方法。在不增加服务器延时的同时,提高推荐算法的精度。该方法的特点在于:通过对用户评分数据进行标准化预处理,计算Pearson相似度、用户向量距离的评价权重和非对称的相似度权重,进而对Pearson相似度进行优化,从而使得传统的协同过滤算法推荐精度得到提高。本方法适用于用户——项目评分的数据集。

A Collaborative Filtering Method for Optimizing User Similarity

【技术实现步骤摘要】
一种优化用户相似度的协同过滤方法
针对基于协同过滤的推荐系统,本专利技术提出了一种优化用户相似度的协同过滤方法。
技术介绍
互联网的快速发展和普及为用户获取、分享和传播信息提供了极大的便利。与此同时,信息量的大幅增长却降低了信息的利用率,使用户很难及时从网络中获得对自己真正有用的信息,造成信息超载问题。一种能有效应对信息超载问题的方法是设计推荐系统,它根据用户的需求、兴趣等信息,将用户感兴趣的内容和产品推荐给用户。和搜索引擎相比,推荐系统通过研究用户的兴趣、偏好,进行个性化计算,从而发现用户的兴趣点,进而引导用户发现自己的信息需求,并获取对自己有用的信息。好的推荐系统不仅能为用户提供个性化的服务,还能为不同用户建立相互之间的密切关系,让用户对推荐产生依赖。推荐系统主要包括内容过滤和协同过滤。基于内容过滤的推荐系统根据用户以前的浏览或购买记录得到用户关注项目的特征,将最符合用户兴趣特征的新项目推荐给用户。而基于协同过滤的推荐系统是通过计算用户之间历史记录的相似性得到用户间的相似程度,搜寻与目标用户偏好相似的其他用户,将这类用户感兴趣的项目推荐给目标用户。基于内容过滤的推荐系统只考虑目标用户本身,基于协同过滤的推荐系统则充分利用了集体智慧,即在大量的人群的行为和数据中收集答案,推荐的个性化程度更高,所以协同过滤推荐算法是个性化推荐服务中应用最为广泛、有效的推荐算法。基于协同过滤的推荐系统又分为基于模型的协同过滤推荐系统和基于记忆的协同过滤推荐系统。前者主要是利用机器学习、数据挖掘和统计学等方法,对用户的历史数据进行训练,然后构造相对应的用户模型,利用该模型为用户提供预测和推荐,涉及矩阵分解,隐语义分析等技术。后者分为基于用户的协同过滤推荐系统和基于项目的协同过滤推荐系统。传统的基于用户的协同过滤推荐系统虽采用Pearson公式度量相似度,但未对数据集进行预处理、不考虑用户评分向量间的距离、未考虑用户间的相似性关系的不平等性,会使推荐系统的推荐质量下降。为此,本专利技术针对基于用户的协同过滤推荐算法,对上述三点进行优化,提高推荐质量。
技术实现思路
本专利技术致力于降低传统的基于用户的协同过滤推荐算法的平均绝对误差值,有效提高推荐系统的推荐质量,提供一种优化用户相似度的协同过滤方法。为达到上述目的,本专利技术提出如下技术方案:一种优化用户相似度的协同过滤方法,通过将用户的评分向量标准化,结合用户向量距离的评价权重、非对称的相似度权重对Pearson相似度优化,最后进行用户评分的预测,具体步骤如下:1)筹备实验数据库:收集一定数量用户对不同项目的评分值,建立实验数据库;2)标准化预处理:运用Z-score方法对每个用户的评分向量进行标准化,并依据标准化后的用户评分向量,生成用户——项目评分矩阵;3)计算用户的相似度矩阵:根据步骤2)生成的用户——项目评分矩阵,计算Pearson相似度、用户向量距离的评价权重、非对称的相似度权重;结合用户向量距离的评价权重、非对称的相似度权重对Pearson相似度进行优化,得出优化后的相似度公式,根据优化后的相似度公式计算出每个用户与其他用户的相似度,最终生成相似度矩阵;4)预测评分:依据目标用户与其他用户的相似度,计算目标用户的邻居用户集合,通过评分公式对目标用户的未评分项目进行预测。与现有技术相比,本专利技术具有如下的优点:本专利技术方法对协同过滤技术中推荐算法模块进行用户相似度的优化,使得推荐系统在不增加服务器延时的同时,推荐质量得到有效提高。附图说明图1是本专利技术方法的流程图。具体实施方式下面结合附图,对本专利技术的具体实施例做进一步的说明。本实施例针对MovieLens-100k数据集(可从网站https://movielens.org/下载)进行实例分析,该数据集涵盖943个用户对1682部电影的共计10万条评分记录,评分值为1到5之间的整数,其中1代表评价最低,5代表评价最高。每个用户对至少20部电影进行过评分。数据集中80%的数据为训练集,20%的数据为测试集。如图1所示,一种优化用户相似度的协同过滤方法,通过将用户的评分向量标准化,结合用户向量距离的评价权重、非对称的相似度权重对Pearson相似度优化,最后进行用户评分的预测,具体步骤如下:1)筹备实验数据库:收集一定数量用户对不同项目的评分值,建立实验数据库。2)标准化预处理:运用Z-score方法对每个用户的评分向量进行标准化,并依据标准化后的用户评分向量,生成用户——项目评分矩阵,具体步骤如下:设训练集中第u个用户的评分向量为Ru=(r(u,1),r(u,2),…,r(u,m)),其中r(u,m)表示用户u对项目m的评分;如式(1)所示,运用Z-score方法对Ru进行标准化,其中z(u,m)是标准化后用户u对项目m的评分,是Ru各分量的平均值,σu是Ru各分量的标准差:标准化后的用户u的评分向量记为Zu=(z(u,1),z(u,2),…,z(u,m)),Zu均值为0,标准差为1。生成大小为943×1682的用户—项目评分矩阵,其中943是用户数量,1682是项目数量。Zu记录在用户——项目评分矩阵的第u行,将用户u未进行评分的项目的评分值记为0。3)计算用户的相似度矩阵:根据步骤2)生成的用户——项目评分矩阵,计算Pearson相似度、用户向量距离的评价权重、非对称的相似度权重;结合用户向量距离的评价权重、非对称的相似度权重对Pearson相似度进行优化,得出优化后的相似度公式,根据优化后的相似度公式计算出每个用户与其他用户的相似度,最终生成相似度矩阵。以MovieLens-100k的训练集中任意两个用户u和用户v为例,计算用户u对用户v的相似度,具体步骤如下:3.1)计算Pearson相似度:如式(2)所示,用Pearson相似度公式度量用户u和用户v的Pearson相似度sim(u,v),其中集合S是用户u和用户v的共同评分过的项目集合:3.2)计算用户向量距离的评价权重:如式(3)所示,计算Zu和Zv的用户向量距离的评价权重D(u,v),其中S是用户u和用户v的共同评分项目集合,N(S)为集合S的元素个数,α表示单独一个项目的评分差距的阈值,如果α越大,D(u,v)越接近1,如果α越小,D(u,v)越接近0:3.3)计算非对称的相似度权重:如式(4)所示,计算用户u对用户v的非对称的相似度权重w(u,v),其中,S是用户u和用户v的共同评分项目集合,Iu是用户u的已评分项目集合,N(S)为集合S的元素个数,N(Iu)是集合Iu的元素个数:3.4)用户相似度公式:如式(5)所示,通过融合式(2)、式(3)以及式(4),得到优化后用户u对用户v的相似度为sim′(u,v):sim′(u,v)=D(u,v)*w(u,v)*sim(u,v)(5)3.5)计算用户相似度矩阵:按式(5)计算不同用户间的相似度,最终得到943×943的用户相似度矩阵。4)预测评分:依据目标用户与其他用户的相似度,计算目标用户的邻居用户集合,通过评分公式对目标用户的未评分项目进行预测,本实例中以训练集中任意用户u的一个未评分项目a为例,计算用户u对项目a的预测评分,具体步骤如下:4.1)计算邻居用户集合:在训练集中,找到评价过项目a的用户集合,记本文档来自技高网
...

【技术保护点】
1.一种优化用户相似度的协同过滤方法,通过将用户的评分向量标准化,结合用户向量距离的评价权重、非对称的相似度权重对Pearson相似度优化,最后进行用户评分的预测,其特征在于,具体步骤如下:1)筹备实验数据库:收集一定数量用户对不同项目的评分值,建立实验数据库;2)标准化预处理:运用Z‑score方法对每个用户的评分向量进行标准化,并依据标准化后的用户评分向量,生成用户——项目评分矩阵;3)计算用户的相似度矩阵:根据步骤2)生成的用户——项目评分矩阵,计算Pearson相似度、用户向量距离的评价权重、非对称的相似度权重;结合用户向量距离的评价权重、非对称的相似度权重对Pearson相似度进行优化,得出优化后的相似度公式,根据优化后的相似度公式计算出每个用户与其他用户的相似度,最终生成相似度矩阵;4)预测评分:依据目标用户与其他用户的相似度,计算目标用户的邻居用户集合,通过评分公式对目标用户的未评分项目进行预测。

【技术特征摘要】
1.一种优化用户相似度的协同过滤方法,通过将用户的评分向量标准化,结合用户向量距离的评价权重、非对称的相似度权重对Pearson相似度优化,最后进行用户评分的预测,其特征在于,具体步骤如下:1)筹备实验数据库:收集一定数量用户对不同项目的评分值,建立实验数据库;2)标准化预处理:运用Z-score方法对每个用户的评分向量进行标准化,并依据标准化后的用户评分向量,生成用户——项目评分矩阵;3)计算用户的相似度矩阵:根据步骤2)生成的用户——项目评分矩阵,计算Pearson相似度、用户向量距离的评价权重、非对称的相似度权重;结合用户向量距离的评价权重、非对称的相似度权重对Pearson相似度进行优化,得出优化后的相似度公式,根据优化后的相似度公式计算出每个用户与其他用户的相似度,最终生成相似度矩阵;4)预测评分:依据目标用户与其他用户的相似度,计算目标用户的邻居用户集合,通过评分公式对目标用户的未评分项目进行预测。2.根据权利要求1所述的优化用户相似度的协同过滤方法,其特征在于,所述步骤2)的具体步骤如下:设训练集中第u个用户的评分向量为Ru=(r(u,1),r(u,2),…,r(u,m)),其中z(u,m)是标准化后用户u对项目m的评分,r(u,m)表示用户u对项目m的评分;如式(1)所示,运用Z-score方法对Ru进行标准化,其中z(u,m)是标准化后用户u对项目m的评分,是Ru各分量的平均值,σu是Ru各分量的标准差:标准化后的用户u的评分向量记为Zu=(z(u,1),z(u,2),…,z(u,m)),Zu均值为0,标准差为1;然后,生成用户——项目评分矩阵;Zu记录在用户——项目评分矩阵的第u行,将用户u未进行评分的项目的评分值记为0。3.根据权利要求1所述的优化用户相似度的协同过滤方法,其特征在于,所述步骤3)中以训练集中任意两个用户u和用户v为例,计算用户u对用户v的相似度,具体步骤如下:3.1)计算Pearson相似度:如式(2)所示,用Pearson相似度公式度量用户u和用户v的Pearson相似度sim(u,v),其中集合S是用户u和用户v的共同评分过的项目集合:3.2)计算用户...

【专利技术属性】
技术研发人员:安彦涵张新鹏吴汉舟余江王子驰
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1