一种基于混合协同过滤的图书馆图书推荐方法及系统技术方案

技术编号:16700767 阅读:57 留言:0更新日期:2017-12-02 13:07
本发明专利技术提供一种基于混合协同过滤的图书馆图书推荐方法,包括如下四个步骤:步骤1:获取图书信息数据集;步骤2:数据预处理;步骤3:建立用户‑图书评分模型;步骤4:构建用户近邻矩阵和图书近邻矩阵;步骤5:推荐图书;通过使用混合协同过滤推荐算法,以用户兴趣和图书相同或相似为依据,挖掘用户可能会对哪些图书感兴趣。利用该方法进行图书推荐,可以更加有效地提高图书资料的利用率,确保用户得到更有效的资源。

A library library recommendation method and system based on mixed collaborative filtering

The invention provides a library of Library Based on hybrid collaborative filtering recommendation method, which includes four steps as follows: Step 1: get the book information data sets; data preprocessing; step 2: Step 3: create user Book rating model; step 4: build a user and library neighbor neighbor matrix matrix; step 5: Recommended books; by using a hybrid collaborative filtering algorithm with user interest and books of the same or similar as the basis, mining the user may be interested in what books. The use of this method to recommend books can more effectively improve the utilization of books and ensure that users get more effective resources.

【技术实现步骤摘要】
一种基于混合协同过滤的图书馆图书推荐方法及系统
本专利技术涉及信息应用和互联网
,尤其涉及一种基于混合协同过滤的图书馆图书推荐方法及系统。
技术介绍
图书馆是高校传播知识的重要地点,拥有大量的书籍资料、报刊杂志、用户的浏览日志等,也不可避免的导致了图书馆信息过载的情况,信息的过载给用户和管理员都带来了一定的困扰,用户只能通过浏览图书馆网页或通过搜索引擎来进行资料的查找,而在海量的图书馆资料中需要进行大量的搜索工作才能找到需要的资料。但随着信息技术和互联网技术的发展,推荐系统的产生,用户可以有针对性地获得相关的资料。推荐系统和搜索引擎的相互合作有效减轻了数据时代的过载问题。区别于搜索引擎主流使用PageRank算法,针对于不同的应用场景,推荐系统算法纷繁复杂、良莠不齐,并没有统一的最优算法。相较于大型的服务性网站的推荐系统其数据集往往基于历史记录,数据庞杂,投入人力物力较大,并不适合校内图书馆。
技术实现思路
有鉴于此,本专利技术的实施例提供了一种方便图书管理的图书馆图书推荐方法及系统。一种基于混合协同过滤的图书馆图书推荐方法,包括如下步骤:步骤1:获取图书信息数据集,所述图书信息数据集包含用户对图书的评分数据、阅读日志、图书和用户的元数据,所述图书和用户的元数据包括用户性别、年龄和图书名称、作者、出版社等;步骤2:数据预处理,所述数据预处理过程包括对所述图书信息数据集进行数据清洗、缺省值处理、异常处理、数据变换等,进行偏好程度划分;步骤3:利用所述用户对图书的评分数据根据所述偏好程度量化赋以相对应的权值构建用户-图书评分矩阵,并由所述用户-图书评分矩阵得出用户-图书评分模型;步骤4:基于所述用户-图书评分矩阵构建用户近邻矩阵和图书近邻矩阵,所述用户近邻矩阵和图书近邻矩阵依据所述用户-图书评分矩阵确定用户与用户、图书与图书间的相似度数值建立;步骤5:基于所述用户近邻矩阵和图书近邻矩阵,采用混合协同过滤推荐方式推荐图书,得出最终的推荐列表。进一步地,在所述步骤2中,采用奇异值分解的方法删除不重要的用户和图书,借此来降低评分矩阵的维度。进一步地,在所述步骤3中,所述偏好程度被设定为十个等级,等级为1对应权值为0.1,等级为10对应权值为1,依此类推。进一步地,在所述步骤4中,所述用户与用户、图书与图书间的相似度数值基于公式计算得出,所述公式:求得用户u和用户v之间的相似度。ru,i表示用户u对图书i的评分,表示用户u对所有图书评分的平均数,图书i∈I,I表示图书总数量;求得图书i与图书j之间的相似度。ru,i表示用户u对图书i的评分,表示所有用户对图书i评分的平均值,用户u∈U,U表示用户总数量。进一步地,在所述步骤5中,所述混合协同过滤推荐方式为多个近邻用户和多个近邻图书结合的协同过滤方式,同时训练所述多个近邻用户和多个近邻图书这两种近邻模型。进一步地,在所述步骤5中,使用聚类的方式,聚类一定属性的近邻用户和图书,得到新的近邻。进一步地,在所述步骤5中,根据改进过的评测预测公式,定量的计算推测用户对某本图书的偏好程度,所述评测预测公式:用户v对某本图书j的喜好程度。其中引入参数λ表示在混合基于用户和基于图书的协同过滤的依赖程度,conu表示基于用户的协同过滤的自信度,coni表示基于图书的协同过滤的自信度。一种基于混合协同过滤的图书馆图书推荐系统,其特征在于:包括图书信息数据集获取单元、数据预处理单元、用户-图书评分模型建立单元、用户近邻矩阵和图书近邻矩阵构建单元、图书推荐单元,各单元依次相连,图书信息数据集获取单元用于图书信息数据集获取;数据预处理单元用于将所述图书信息数据集的预处理,包括数据清洗、缺省值处理、异常处理、数据变换等;用户-图书评分模型建立单元基于所述预处理后数据赋以相应权值所构建的用户-图书评分矩阵建立用户-图书评分模型;用户近邻矩阵和图书近邻矩阵构建单元用于构建基于所述用户-图书评分矩阵中用户与用户、图书与图书间的相似度数值得出用户近邻矩阵和图书近邻矩阵;图书推荐单元将多个近邻用户和多个近邻图书结合的协同过滤方式应用于所述用户近邻矩阵和图书近邻矩阵,得出最终的推荐图书。本专利技术的实施例提供的技术方案带来的有益效果是:本专利技术可以更加有效地提高图书资料的利用率,确保用户得到更有效的资源。附图说明图1为本专利技术一种基于混合协同过滤的图书馆图书推荐方法流程图。图2为本专利技术一种基于混合协同过滤的图书馆图书推荐方法的系统组成图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地描述。请参考图1,本专利技术的实施例提供了一种基于混合协同过滤的图书馆图书推荐方法,该方法包括以下步骤:步骤1:获取图书信息数据集。从图书馆历史数据中抽取数据,包括用户对图书的评分、阅读日志、图书和用户的元数据,图书和用户的元数据包括用户性别、年龄和图书名称、作者、出版社等。步骤2:数据预处理。根据获取的数据进行数据的探索分析处理,进行数据的预处理,包括数据清洗、缺省值处理、异常处理、数据变换。采用奇异值分解的方法,解决评分数据太过稀疏、寻找用户近邻的时不准确的问题。数据清洗的主要目的是从分析的角度出发,筛选出需要的数据。因为在数据处理时,用户的性别、年龄等不影响图书的推荐,减少数据处理时的冗余。由于部分数据缺省,因此要进行缺省值处理,结合实际情况和缺省值处理原则,直接滤除这部分数据。在异常处理时利用数据处理软件对数据集中的错误数据进行修正。数据变换中,为保护用户隐私以ID代替用户信息,同时对用户的浏览日志进行处理,进行偏好程度划分。步骤3:建立用户-图书评分模型。将步骤2中用户的偏好程度划分为十个等级,等级为1对应权值为0.1,等级为10对应权值为1,依此类推。从而得如下所示的用户-图书评分矩阵R,评分矩阵R中ru,i表示用户u对图书i的评价,行向量表示某一用户对所有图书的评价,列向量表示所有用户对某一图书的评价,由此构建出用户-图书模型。步骤4:构建用户近邻矩阵和图书近邻矩阵。具体步骤:步骤401,把每个用户的评分列表看成一个一维度向量,那么可以根据向量的相似度定量化用户之间的相似。在寻找对图书有类似偏好的k个用户时,这里选用基于皮尔逊相关系数的计算用户间相似度。根据公式求得用户u和用户v之间的相似度。将得到的用户u与各个用户间的相似度从高到低以此生成相似度矩阵User-Similarity[U][N];其中,ru,i表示用户u对图书i的评分,表示用户u对所有图书评分的平均数,图书i∈I,I表示图书总数量。步骤402,把每个用户的评分列表看成一个一维度向量,那么可以根据向量的相似度定量化用户之间的相似。在寻找针对用户有偏好的k本的近似图书时,这里选用基于皮尔逊相关系数公式改进的计算图书间相似度。根据公式求得图书i与图书j之间的相似度,将得到的图书i与各图书间相似度从高到低以此生成相似度矩阵Item-Similarity[I][M];其中,ru,i表示用户u对图书i的评分,表示所有用户对图书i评分的平均值,用户u∈U,U表示用户总数量。步骤403,根据步骤401获取的用户之间的相似度值进行用户最近邻域的划分,使用选定的Fix-size,Fix-size为根据得到的相似度排序,选取本文档来自技高网...
一种基于混合协同过滤的图书馆图书推荐方法及系统

【技术保护点】
一种基于混合协同过滤的图书馆图书推荐方法,其特征在于,包括如下步骤:步骤1:获取图书信息数据集,所述图书信息数据集包含用户对图书的评分数据、阅读日志、图书和用户的元数据,所述图书和用户的元数据包括用户性别、年龄和图书名称、作者、出版社等;步骤2:数据预处理,所述数据预处理过程包括对所述图书信息数据集进行数据清洗、缺省值处理、异常处理、数据变换等,进行偏好程度划分;步骤3:利用所述用户对图书的评分数据根据所述偏好程度量化赋以相对应的权值构建用户‑图书评分矩阵,并由所述用户‑图书评分矩阵得出用户‑图书评分模型;步骤4:基于所述用户‑图书评分矩阵构建用户近邻矩阵和图书近邻矩阵,所述用户近邻矩阵和图书近邻矩阵依据所述用户‑图书评分矩阵确定的用户与用户、图书与图书间的相似度数值建立;步骤5:基于所述用户近邻矩阵和图书近邻矩阵,采用混合协同过滤推荐方式推荐图书,得出最终的推荐列表。

【技术特征摘要】
1.一种基于混合协同过滤的图书馆图书推荐方法,其特征在于,包括如下步骤:步骤1:获取图书信息数据集,所述图书信息数据集包含用户对图书的评分数据、阅读日志、图书和用户的元数据,所述图书和用户的元数据包括用户性别、年龄和图书名称、作者、出版社等;步骤2:数据预处理,所述数据预处理过程包括对所述图书信息数据集进行数据清洗、缺省值处理、异常处理、数据变换等,进行偏好程度划分;步骤3:利用所述用户对图书的评分数据根据所述偏好程度量化赋以相对应的权值构建用户-图书评分矩阵,并由所述用户-图书评分矩阵得出用户-图书评分模型;步骤4:基于所述用户-图书评分矩阵构建用户近邻矩阵和图书近邻矩阵,所述用户近邻矩阵和图书近邻矩阵依据所述用户-图书评分矩阵确定的用户与用户、图书与图书间的相似度数值建立;步骤5:基于所述用户近邻矩阵和图书近邻矩阵,采用混合协同过滤推荐方式推荐图书,得出最终的推荐列表。2.如权利要求1所述的一种基于混合协同过滤的图书馆图书推荐方法,其特征在于:在所述步骤2中,采用奇异值分解的方法删除不重要的用户和图书,降低评分矩阵的维度。3.如权利要求1所述的一种基于混合协同过滤的图书馆图书推荐方法,其特征在于:在所述步骤3中,所述偏好程度被设定为十个等级,等级为1对应权值为0.1,等级为10对应权值为1,依此类推。4.如权利要求1所述的一种基于混合协同过滤的图书馆图书推荐方法,其特征在于:在所述步骤4中,所述用户与用户、图书与图书间的相似度数值基于公式得出,所述公式:求得用户u和用户v之间的相似度,ru,i表示用户u对图书i的评分,表示用户u对所有图书评分的平均数,图书i∈I,I表示图书总数量;求得图书i与图书j之间的相似度,ru,i表示用户u对图书i的评分,表示所...

【专利技术属性】
技术研发人员:李羚薛印玺陈振华曾浩
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1