当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于加权异构信息网络的电影推荐方法技术

技术编号:15551337 阅读:986 留言:0更新日期:2017-06-07 23:53
本发明专利技术涉及一种基于加权异构信息网络的电影推荐方法,包括步骤如下:(1)利用异构信息网络中的语义信息和边属性信息,计算得到用户之间基于不同元路径的相似度;(2)将基于不同元路径求得的相似度分别应用到基于用户的协同过滤推荐算法中,得到基于每个相似度的用户评分值;(3)采用监督学习算法为每个用户评分值分配不同的权重,融合为全面考虑多种元路径信息的用户最终评分值。在扩展MovieLens经典数据集上的实验结果表明,本发明专利技术所提算法在精确度上较传统算法有显著提高。

A movie recommendation method based on weighted heterogeneous information network

The invention relates to a method of weighted recommendation of heterogeneous information network based on the films, including the following steps: (1) the use of heterogeneous information network of semantic information and edge attribute information, calculate the similarity between users of different element based on path; (2) the similarity of different size were obtained based on the element applied to the collaborative filtering recommendation the algorithm based on the user, each user based on the similarity score; (3) using supervised learning algorithm to assign different weights for each user score, score fusion final value to fully consider the various meta path information users. Experimental results on extended MovieLens data sets show that the proposed algorithm significantly improves the accuracy of the proposed algorithm over traditional algorithms.

【技术实现步骤摘要】

本专利技术涉及一种基于加权异构信息网络的电影推荐方法,尤其涉及一种加权异构信息网络中基于元路径计算用户间相似度的新的协同过滤推荐方法,属于数据挖掘和机器学习的

技术介绍
协同过滤(CollaborativeFiltering)是推荐系统发展史上发展最快、应用最广的一类算法,其基本思想是相似的用户对商品的选取也是相似的,根据与目标用户最相似的K个邻居对目标项目的评分来进行推荐。其中,邻居用户是基于用户间的相似度得出的,最常用的相似度度量方式有Pearson相关系数和Cosine相似度。但是传统的相似度度量方式只考虑了用户评分这一个因素,评分矩阵是极其稀疏的,两个用户共同评价的项目非常少,在这种情况下得到的用户相似性是不准确的,最终推荐精度自然不高。近年来,随着数据库技术、机器学习技术以及网络科学的不断进步,社交网络朝异质性方向发展:网络中包含多种实体(Entity)、实体间存在多种关系(Relation),这种网络被称为异构信息网络(HeterogeneousInformationNetwork,HIN)。大数据时代的HIN包含丰富的语义信息,对其进行深度挖掘分析能够得到非常有意义的知识,而HIN中包含的更多的有效信息会带来更好地推荐效果,所以近年来在HIN上做推荐问题的研究开始兴起。以图1为例,HIN中不仅包含多种类型的实体(如:用户、电影和导演类型等),还包含着多种多样的边信息(如:用户对电影的评分、电影的各种属性和边的属性信息等)。为了更好地利用异构网络中所蕴含的多样性内容,可以用元路径(MetaPath)表示不同的关系,表示两个实体之间语义信息的路径为一条元路径,两节点间不同的元路径代表不同的语义联系。利用元路径的概念,我们可以灵活地运用HIN中丰富的信息来做推荐,表1为几个典型的元路径和其分别对应的经典推荐模型。表1目前,基于HIN的推荐工作还处于起步阶段,一方面,目前的大多数方法都是旨在融合异构网络中的多元信息并且只考虑了HIN中的部分信息;另一方面,这些方法并没有考虑网络中边属性问题,没有关注由用户两极化评分造成的本质差别,描述的异构网络信息并不准确。以电影推荐网络为例,用户给一部电影评5分代表用户喜欢这部电影,反之如果用户评分为1分则表示用户不喜欢这部电影;同样,一部电影被贴上某种标签的次数越多代表该电影越偏向于此类型。如果在推荐过程中不考虑此种边属性问题,很可能会使推荐结果有所偏差。石川等人第一次提出了加权HIN的概念,通过区分网络中边上的不同属性值来探索更全面的元路径语义信息以实现更准确的推荐,但是该方法并没有提出新的相似度度量方法,而是将有权元路径分解为有确定属性值限定的原子元路径,利用的还是原来的PathSim、HeteSim等相似度度量方法。中国专利文献CN105373597A公开了基于k-Medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法,该专利通过减缓数据极端稀疏性对协同过滤推荐的影响来提高推荐质量,宏观上看都是对基于用户的协调过滤方法的改进。但是,该专利与本专利方法不同,该专利提出一种基于k-Medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法。首先针对用户-项目矩阵计算任意用户间的相似度,得到全局近邻用户;然后针对用户-项目矩阵对项目进行聚类,计算用户的局部相似度得到局部最近邻用户;最后将全局最近邻和局部最近邻进行融合,预测用户评分。该专利存在以下缺陷:(1)本质上,该专利技术利用的信息还是只有用户-项目矩阵数据,还是只利用了用户对项目非常稀疏的评分信息,并没有引入其他属性信息或社交关系信息等;(2)在计算用户间相似度或计算项目间相似度对项目聚类时,该专利技术利用的还是协同过滤技术中的经典的相似度度量方式:余弦相似度、pearson相关系数、修正的余弦相似度等,并没有提出新的相似度度量方式;(3)该专利技术并没有细粒度地考虑用户对不同项目评分的两极化影响。中国专利文献CN102231166A公开了基于社会上下文的协同推荐方法,该专利并不是对基于用户的协同过滤推荐技术的改进,而是提出了一种新的基于模型的协同过滤推荐算法,并针对用户对项目的评分数据的稀疏性问题,引入了用户的社会关系数据。首先根据得到用户与项目间的互动矩阵(例如用户对项目的评分数据),然后得到用户的社会关系矩阵;最后采用带约束的低秩矩阵分解方法来预测用户评分。该专利存在以下缺陷:(1)该专利引入了用户的社会信息即用户间的朋友关系等,但是所考虑的信息并不全面,并没有考虑用户与项目间除评分外的其他信息也没有考虑项目的丰富的属性信息。(2)该专利采用的是矩阵分解方法,与本申请所采用的方法有着本质的区别。(3)该专利并没有细粒度地考虑用户对不同项目评分的两极化影响。中国专利文献CN106202502A公开了音乐信息网络中用户兴趣发现方法,先从音乐信息网络中通过N步长随机游走得到与用户相关的信息子网以及信息子网的网络模式;然后对信息子网进行剪枝,并在剪枝后的信息子网中利用HeteSim算法计算不同类型节点间相关性,进而得到不同类型边的权重;接着,根据单源最短路径算法得到所有歌曲对之间的最短路径集和最短路径权重,并计算出元路径集和元路径权重;最后,利用PathSelClus算法基于元路径将歌曲聚成三类,根据聚类结果分析出用户对歌曲的兴趣爱好。该专利存在以下缺陷:(1)该专利目的与本申请不同,该专利技术力图探索用户兴趣,分析用户对歌曲的兴趣爱好,而本申请旨在预测用户对项目的评分,根据评分信息为用户推荐其可能喜欢的具体的项目。(2)该专利利用随机游走建立信息子图,并对剪枝后的网络应用异构信息网络中的经典的计算相关性的算法Hetesim来计算任意两节点间的相似度,将此相关度作为两节点间的权重。该算法是针对无权异构信息网络的相关性度量方法并没有考虑权重信息,无法直接应用到加权异构信息网络中,本申请中提出了一种基于加权异构信息网络的新的相似度度量方式,在实验结果分析部分本专利技术所提算法也与基于HeteSim的协同过滤算法做过比较,本专利技术所提算法优于HeteSim。(3)该专利也是基于元路径进行,但是其目的和方法与本申请都不同。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于加权异构信息网络的电影推荐方法;本专利技术包括步骤如下:(1)利用异构信息网络中的语义信息和边属性信息,计算得到用户之间基于不同元路径的相似度;(2)将基于不同元路径求得的相似度分别应用到基于用户的协同过滤推荐算法中,得到基于每个相似度的用户评分值;(3)采用监督学习算法为每个用户评分值分配不同的权重,融合为全面考虑多种元路径信息的用户最终评分值。在扩展MovieLens经典数据集上的实验结果表明,本专利技术所提算法在精确度上较传统算法有显著提高。本申请引入加权HIN的概念,充分考虑HIN中的节点类型信息和多种边属性信息,并且对用户评分进行了两极化映射处理,提出了一种引入加权异构信息的改进协同过滤算法。术语解释1、协同过滤推荐算法,基本思想是相似的用户对商品的选取也是相似的,根据与目标用户最相似的K个邻居对目标项目的评分来进行推荐。2、异构信息网络(WeightedHeterogeneousInformationNetwork,WHIN),可以简称本文档来自技高网
...
一种基于加权异构信息网络的电影推荐方法

【技术保护点】
一种基于加权异构信息网络的电影推荐方法,其特征在于,包括以下步骤:(1)对数据集构建加权异构信息网络,并提取出两用户间多种不同的元路径;(2)分别计算用户在对电影M、演员A、导演D、国家C、电影体裁G、电影标签T方面的偏好度;(3)分别针对用户在每一方面的偏好度,计算两用户间的相似度,若两用户在所有方面的偏好都相似,则两用户相似;否则,两用户偏好相差越大则两用户越不相似;(4)分别将受偏好度影响的6个相似度应用到协同过滤推荐算法中,预测用户对电影的评分;(5)应用经典的线性回归算法为每一个用户对电影的评分分配合适的权重,融合为最终的评分值;(6)将最终的评分值最高的几部电影推荐给该用户。

【技术特征摘要】
1.一种基于加权异构信息网络的电影推荐方法,其特征在于,包括以下步骤:(1)对数据集构建加权异构信息网络,并提取出两用户间多种不同的元路径;(2)分别计算用户在对电影M、演员A、导演D、国家C、电影体裁G、电影标签T方面的偏好度;(3)分别针对用户在每一方面的偏好度,计算两用户间的相似度,若两用户在所有方面的偏好都相似,则两用户相似;否则,两用户偏好相差越大则两用户越不相似;(4)分别将受偏好度影响的6个相似度应用到协同过滤推荐算法中,预测用户对电影的评分;(5)应用经典的线性回归算法为每一个用户对电影的评分分配合适的权重,融合为最终的评分值;(6)将最终的评分值最高的几部电影推荐给该用户。2.根据权利要求1所述的一种基于加权异构信息网络的电影推荐方法,其特征在于,所述数据集是指grouplens研究组发布的MovieLens10M扩展数据集,所述数据集包括实体类型、表示及数目,实体类型包括用户、电影、演员、导演、国家、体裁、标签;表示是指对每种实体类型的表示字符,字符U表示用户类型,字符M表示电影类型,字符A表示演员类型,字符D表示导演类型,字符C表示国家类型,字符G表示体裁类型,字符T表示标签类型;数目是指每种实体类型的个数;所述元路径包括P1、P2、P3、P4、P5、P6,P1=UMU,P2=UMAMU,P3=UMCMU,P4=UMDMU,P5=UMGMU,P6=UMTMU;P1的语义信息是指:与目标用户看过同一部电影的用户;P2的语义信息是指:与目标用户看过同一个演员演过的电影的用户;P3的语义信息是指:与目标用户看过在同一个国家上映的电影的用户;P4的语义信息是指:与目标用户看过由同一个导演执导的电影的用户;P5的语义信息是指:与目标用户看过属于同一个体裁的电影的用户;P6的语义信息是指:与目标用户看过被贴上同一个类型标签T的电影的用户。3.根据权利要求2所述的一种基于加权异构信息网络的电影推荐方法,其特征在于,所述步骤(2),用户ui对影响因素y的偏好度的求取公式如式(Ⅰ)所示:式(Ⅰ)中,ui表示用户,ui属于用户类型U;P为用户ui到影响因素y的元路径;为从ui到y的一个加权路径实例,w为该加权路径上的权重值;为ui到y的一个加权路径实例上的权重值;t(ui,y)为ui到y的所有加权路径实例上的权重值之和,即要求取的用户ui对影响因素y的偏好度;影响因素y包括电影、演员、导演、国家、体裁、标签;y属于影响因素y。4.根据权利要求3所述的一种基于加权异构信息网络的电影推荐方法,其特征在于,通过扩展交换矩阵快速计算用户在每一方面的偏好度,包括步骤如下:A、设定...

【专利技术属性】
技术研发人员:张海霞吕振
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1