一种面向高校图书馆的图书个性化推荐方法和系统技术方案

技术编号:14157415 阅读:86 留言:0更新日期:2016-12-11 23:50
本发明专利技术公开了一种面向高校图书馆的图书个性化推荐的方法,解决高校图书馆现有的图书推荐算法中大规模数据存储和查询、可扩展性及推荐效果差的问题,其基本思路如下:首先将图书馆内的读者和图书等作为节点,构建图模型;其次,将读者的操作日志文件转化为读者‑图书类别偏好矩阵,和读者个人信息矩阵一起计算读者间的相似度,并把这些操作和挖掘出的信息作为边构建关联图谱;其次,将关联图谱和谱聚类相结合,提出了一种新的图书个性化推荐模型,计算得到关于读者的类簇分布;最后,当需要进行图书推荐时,在该读者对应的类簇中根据协同过滤算法计算出推荐图书列表。

【技术实现步骤摘要】

本专利技术属于机器学习
,更具体地,涉及一种面向高校图书馆的图书个性化推荐方法和系统
技术介绍
在各高校的日常学习生活中,图书馆不管是在学生间还是教师间都扮演着重要的角色,学生们和老师们查找文献或学习资料等都离不开图书馆的帮助。但是随着现代信息爆发式增长,高校图书馆内的藏书数量集已突破百万,虽然数字图书馆等现代化技术在一定程度上缓解了这个问题,但读者即使通过关键字进行搜索,也需要在众多搜索结果中进行浏览、筛选,而且很多情况下读者并不清楚自己的目标图书是什么,面对诸如这些问题,个性化图书推荐系统运用而生。目前的研究仍然以采用关系型数据库进行数据存储为主,在大规模数据下进行遍历查找时需要通过外键关联多张表进行存储和查找,操作上都比较复杂。针对高校图书馆下的图书推荐多采用协同过滤推荐算法,通过寻找最近邻,产生推荐图书,但是它具有可扩展性差、评分矩阵极度稀疏、新用户“冷启动”等问题。针对可扩展性差的问题,当前的研究趋势是将推荐算法与聚类算法进行融合,在线下对读者或者图书进行聚类,来减少推荐时的计算规模,多使用K-means或其改进的聚类算法,但K-means也有很多方面的不足。为了解决稀疏度问题,目前多采用基于填充的伪评分矩阵进行计算,比如使用读者评分的中位数进行填充,但在高校图书馆场景下,用户对各图书的评分波动很小,该方法会减少用户的个性信息,对推荐结果的改善有限。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种高校图书馆图书推荐方法和系统,其目的在于,解决现有高校图书馆内存在的数据存储和查找复杂的技术问题、以及现有图书推荐算法中存在的扩展性差、评分矩阵极度稀疏和新用户的“冷启动”问题,并提高图书推荐的质量。为实现上述目的,按照本专利技术的一个方面,提供了一种面向高校图书馆的图书个性化推荐方法,包括以下步骤:(1)对高校图书馆的源数据进行数据清洗,以提取出其中的元数据,并将该元数据导入到图数据库中;(2)将图数据库中的元数据转化为读者对图书的喜好分数;(3)根据步骤(2)获得的读者对图书的喜好分数计算读者对各图书类别的偏好程度P,多个偏好程度组成读者-图书类别偏好矩阵。(4)根据元数据中的读者信息建立对应的读者个人信息矩阵,其中矩阵中的行表示不同的读者,列表示读者的属性;(5)根据步骤(3)生成的读者-图书类别偏好矩阵和步骤(4)建立的读者个人信息矩阵计算读者间的相似度,并将计算得到的该读者间的相似度作为读者与读者之间的关联边插入关联图谱,从而在关联图谱中形成了基于读者相似度的无向带权图;(6)使用谱聚类算法对步骤(5)中得到的关联图谱中的读者节点进行聚类,以得到读者与聚类类别之间的关系,其中步骤(5)中形成的无向带权图作为聚类过程的输入;(7)根据步骤(6)得到的读者与聚类类别之间的关系生成推荐图书。优选地,元数据包括读者信息、图书信息、图书类别信息、以及读者的日志属性信息。优选地,步骤(2)具体为,根据元数据构造关联图谱,关联图谱中读者、图书和图书类别视为关联图谱中的一个节点,喜好分数Sbook作为读者和图书之间的边,图书所属关系作为图书和图书类别之间的边,其中喜好分数Sbook是通过对各种图书操作进行加权求和得出。优选地,步骤(3)具体为,在步骤(2)建立的关联图谱上,查询得到读者A-图书-图书类别这条路径上的节点和边,然后使用公式计算读者A对各图书类别的喜好分数Scatagory,其中n为读者A在某图书类别下有执行操作的图书数量,最后使用公式P=Scategory/读者A的全部评分,以生成读者-图书类别偏好矩阵。优选地,步骤(5)具体为,首先使用夹角余弦算法计算读者-图书类别偏好矩阵中读者间的相似度Sreader-category,然后使用夹角余弦算法计算读者个人信息矩阵中读者间的相似度Spersonal,最后将相似度相似度Sreader-category和相似度Spersonal加权求和,从而得出读者间的相似度Sreader-reader,将其作为读者与读者之间的关联边插入关联图谱。优选地,步骤(6)包括如下子步骤:(6.1)使用步骤(5)中形成的无向带权图作为聚类过程的输入;(6.2)读取关联图谱中所有读者与其它读者之间的相似度,并根据该相似度建立谱聚类输入矩阵W和度矩阵D,其中W矩阵和度矩阵D都是q阶方阵,q表示所有读者的数量,度矩阵D的对角线元素为每位读者在关联图谱中的度数,并根据公式L=D-W构造规范化拉普拉斯矩阵L;(6.3)对规范化拉普拉斯矩阵L进行特征分解,以获取前k个特征值对应的特征向量Vector1,Vector2,...,Vectork,其中k表示预先设定的类簇数目,将特征向量Vector1,Vector2,...,Vectork按特征值从小到大的顺序组成矩阵V;(6.4)使用K-means聚类算法对矩阵V进行聚类,以得到聚类结果Cluster1,Cluster2,...,Clusterk,并根据聚类结果中每一行所属的类簇确定关联图谱中各读者分别所属的类别,即聚类类别;(6.5)将步骤(6.4)得到的聚类类别作为实体节点写入关联图谱中,从而得到读者与聚类类别之间的关系。优选地,步骤(7)包括如下子步骤:(7.1)根据步骤(6)得到的读者与聚类类别之间的关系查找关联图谱中与该读者A属于同一类别的其他读者集合R={读者1,读者2,...,读者t-1本文档来自技高网...
一种面向高校图书馆的图书个性化推荐方法和系统

【技术保护点】
一种面向高校图书馆的图书个性化推荐方法,其特征在于,包括以下步骤:(1)对高校图书馆的源数据进行数据清洗,以提取出其中的元数据,并将该元数据导入到图数据库中;(2)将图数据库中的元数据转化为读者对图书的喜好分数;(3)根据步骤(2)获得的读者对图书的喜好分数计算读者对各图书类别的偏好程度P,多个偏好程度组成读者‑图书类别偏好矩阵。(4)根据元数据中的读者信息建立对应的读者个人信息矩阵,其中矩阵中的行表示不同的读者,列表示读者的属性;(5)根据步骤(3)生成的读者‑图书类别偏好矩阵和步骤(4)建立的读者个人信息矩阵计算读者间的相似度,并将计算得到的该读者间的相似度作为读者与读者之间的关联边插入关联图谱,从而在关联图谱中形成了基于读者相似度的无向带权图;(6)使用谱聚类算法对步骤(5)中得到的关联图谱中的读者节点进行聚类,以得到读者与聚类类别之间的关系,其中步骤(5)中形成的无向带权图作为聚类过程的输入;(7)根据步骤(6)得到的读者与聚类类别之间的关系生成推荐图书。

【技术特征摘要】
1.一种面向高校图书馆的图书个性化推荐方法,其特征在于,包括以下步骤:(1)对高校图书馆的源数据进行数据清洗,以提取出其中的元数据,并将该元数据导入到图数据库中;(2)将图数据库中的元数据转化为读者对图书的喜好分数;(3)根据步骤(2)获得的读者对图书的喜好分数计算读者对各图书类别的偏好程度P,多个偏好程度组成读者-图书类别偏好矩阵。(4)根据元数据中的读者信息建立对应的读者个人信息矩阵,其中矩阵中的行表示不同的读者,列表示读者的属性;(5)根据步骤(3)生成的读者-图书类别偏好矩阵和步骤(4)建立的读者个人信息矩阵计算读者间的相似度,并将计算得到的该读者间的相似度作为读者与读者之间的关联边插入关联图谱,从而在关联图谱中形成了基于读者相似度的无向带权图;(6)使用谱聚类算法对步骤(5)中得到的关联图谱中的读者节点进行聚类,以得到读者与聚类类别之间的关系,其中步骤(5)中形成的无向带权图作为聚类过程的输入;(7)根据步骤(6)得到的读者与聚类类别之间的关系生成推荐图书。2.根据权利要求1所述的图书个性化推荐方法,其特征在于,元数据包括读者信息、图书信息、图书类别信息、以及读者的日志属性信息。3.根据权利要求1所述的图书个性化推荐方法,其特征在于,步骤(2)具体为,根据元数据构造关联图谱,关联图谱中读者、图书和图书类别视为关联图谱中的一个节点,喜好分数Sbook作为读者和图书之间的边,图书所属关系作为图书和图书类别之间的边,其中喜好分数Sbook是通过对各种图书操作进行加权求和得出。4.根据权利要求3所述的图书个性化推荐方法,其特征在于,步骤(3)具体为,在步骤(2)建立的关联图谱上,查询得到读者A-图书-图书类别这条路径上的节点和边,然后使用公式计算读者A对各图书类别的喜好分数Scatagory,其中n为读者A在某图书类别下有执行操作的图书数量,最后使用公式P=Scategory/读者A的全部评分,以生成读者-图...

【专利技术属性】
技术研发人员:周可李春花吕丹阳
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1