一种基于偏好扩散的上下文推荐系统技术方案

技术编号:12484174 阅读:169 留言:0更新日期:2015-12-10 22:10
本发明专利技术公开了一种基于偏好扩散的上下文推荐系统,该方法包括下列步骤:整理得出每个物品对应的所有用户的评论;使用主成分分析,得出准确的主题数量;以该主题数量通过LDA主题模型得出物品主题分布矩阵以及主题对应的描述性词汇;通过描述性词汇,找出主题的共同特征,以此作为主题的含义;使用之前得到的物品主题分布矩阵初始化隐语义模型;利用评分信息训练模型;通过训练过程中的参数变化,挖掘出的真正的物品主题分布;计算用户与物品之间的相似度并进行排序,依据排序对每个用户推荐物品。通过以上技术,可以通过本模型对不同用户进行更加精准的物品推荐,并且可以对推荐结果进行解释。

【技术实现步骤摘要】

本专利技术涉及互联网
,具体涉及一种推荐系统的实现技术
技术介绍
互联网的出现和普及给广大用户带来了大量的信息,满足用户在各个方面的需 求,但是伴随着大量信息而来的则是信息超载问题,用户无法轻松地在大量信息中找到自 己所需要的部分,推荐系统因此应运而生。推荐系统根据用户各不相同的个人属性,喜爱偏 好以及购买特点,向用户提供个性化的推荐,推荐其感兴趣的物品。与同样进行信息推送的 搜索引擎相比,推荐系统通过输入用户的各种不同的信息,对其进行计算,通过计算发现不 同用户的兴趣各异的方面,从而带领用户发现各自所需的信息。而一个好的推荐系统不仅 仅可以针对用户产生个性化的推荐,还能通过与用户的交互过程深入不断地了解用户,进 而与用户建立紧密的纽带,让用户对其产生依赖感。 基于评分矩阵分解的隐语义模型(Latent Factor Model,LFM)是近年来推 荐系统研究的热点。随着推荐系统的研究热点转向上下文感知推荐(Context Aware Recommendation),越来越多的上下文信息被引入到LFM模型中,如用户的评论,隐性用户 反馈,标签,元数据,时间信息等。上下文感知能力对于提高推荐服务质量非常重要,不仅有 助于提升服务推荐的准确性,而且有助于解释推荐结果,提高推荐服务的说服力。然而,LFM 模型本身对于潜在因子的解释是十分模糊的。用户通常可以通过隐语义模型产生十分准确 的预测结果,但是对于模型中潜在因子的含义却没有办法进行解释。同时在模型的潜在因 子数量的选择方面,现有的方法也往往倾向于随机或者根据自己以往的经验判断来决定潜 在因子的数量,而通过这种方法得出的潜在因子的数量并没有科学依据,研究者也很难解 释这个数字的具体含义。 现有的一些得出潜在因子解释的方法通常是通过对评论信息建立不同主题模型, 将主题模型得到的物品的属性分布作为潜在因子的解释。这种方法由于只是从评论信息中 分析得出,并没有考虑到其他因素,可能会因为用户评论信息描述的不准确性产生一定的 误差。因而需要一种新的算法对从主题模型中得出的属性分布进行修正,使得属性分布更 为准确,进而降低推荐的误差。
技术实现思路
本专利技术主要解决的技术问题是提供了一个推荐系统模型,该模型可以对其中的潜 在因子的数量进行确定,对潜在因子的含义进行解释,使得推荐更加透明化,可以通过用户 的反馈进行及时的修改;同时,该模型可以通过评分信息来修正从评论信息中得到的物品 的主题分布,挖掘出某些物品的隐藏特性,去除某些物品错误标识的特征;除此以外,该模 型推荐误差小,准确率和召回率均领先于现有常用的推荐系统模型。 本专利技术实施例公开了一种使用PCA确定评论信息的主题数量的方法,包括: 为针对物品的评论信息设定一个初始的主题数量; 使用LDA算法,主题数量为之前所设定的初始数量,输入物品的评论信息,从而计 算出其对应的初始主题分布矩阵; 计算出初始主题分布矩阵的协方差矩阵,借此将原矩阵中的数据完全去相关化; 计算上面得出的协方差矩阵的特征值和特征向量,把特征值看成是对应特征向量 对原矩阵的解释程度,对特征值进行排序; 计算序列前k个特征值之和占所有特征值之和的比例,如果比例小于一个之前设 定的阈值,则增加 k的数值;如果比例刚好大于阈值,且减小当前k时比例会小于阈值时,则 认为k为合适的评论信息的主题数量。 本专利技术实施例还公开了一种偏好扩散算法,包括: 参照上一方法,使用PCA算法确定所有物品的评论信息的主题数量; 输入评论信息以及上一步计算出来的评论信息对应的主题数量,使用LDA算法计 算出评论信息主题分布以及每个主题下所对应的单词,将得到的出题分布转化为物品主题 分布矩阵; 通过归纳每个主题下所对应的单词,找出每个主题下单词的共同特征,以此共同 特征作为主题的名称; 将归纳出的主题名称作为隐语义模型中潜在因子的解释; 通过训练过程,模型中的物品主题分布矩阵相较于之前输入的矩阵发生了一定的 变化,对比变化前后的物品主题分布矩阵,将变化后的矩阵作为物品的真实属性分布矩 阵; 本专利技术实施例还公开了一种基于偏好扩散的上下文推荐系统,包括: 读取物品评论信息和用户对物品评分信息,将评分信息划分为训练样本和测试样 本; 参照上一方法,使用LDA算法得出物品的主题分布矩阵; 将隐语义模型中物品主题分布矩阵初始化为从LDA得到的物品主题分布矩阵; 利用评分信息的训练样本对隐语义模型进行训练; 使用训练得出的隐语义模型对预测样本进行预测,对比预测值和真实值,估算误 差; 比较用户的偏好分布和物品的属性分布,计算用户与各个物品之间的相似度,借 助相似度排名输出用户推荐物品的结果。 最后,实施本专利技术有一下有益效果: 本专利技术实施的有益效果是,利用评分信息对评论信息进行修正,相对于现有的各 种算法而言,本算法可以在拥有相当的预测能力的情况下,确定了模型中的潜在因子数量, 对隐语义模型中的潜在因子进行解释。同时,该算法可以对主题模型得到的物品的主题分 布进行调整,挖掘出原有分布中没有体现出的属性,去除原有分布体现出的有误的属性,使 物品的主题分布更加准确,也有利于对用户进行更为准确的推荐,增强用户对于该系统的 依赖感。【附图说明】 图1为本专利技术使用PCA确定评论信息的主题数量的流程图; 图2为本专利技术所使用的偏好扩散算法的流程图; 图3为本专利技术改进现有推荐系统算法提出的一种基于偏好扩散的上下文推荐系 统的流程图。【具体实施方式】 为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例 中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员 在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 图1为本专利技术一实施例提供的使用PCA确定评论信息的主题数量的流程图。如图 1所示,本实施例提供的确定方法,具体可以包括如下步骤: 101、设定初始主题数量; 本实施例的确定方法是,在确定真正的主题数量之前,我们首先要设定一个初始 主题数量,通过该初始主题数量,对用户的评论信息产生的一系列操作,从而计算出真正的 主题数量。在本实施例中设置初始主题数量为k'。 102、使用LDA算法计算初始主题数量对于的初始主题分布矩阵; 在确定了初始主题k'之后,对所有物品所属的评论信息使用LDA算法,其中设置 主题数量为k'。计算之后得出对应的初始主题分布矩阵X nxk,,其中η对应物品数量,k' 对应主题的数量,该矩阵的每一行代表着一个物品的主题分布向量。 103、计算初始主题分布矩阵的协方差矩阵; 得到了初始主题分布矩阵之后,我们通过主成分分析(PCA)来确定真正的主题数 量,所以首先需要计算主题分布矩阵的协方差矩阵C k, xk,:⑴ 协方差矩阵能使数据完全去相关,能够找出一组最佳的基以紧凑的方式来表达数 据。 104、计算得出协方差矩阵的特征值和特征向量,对特征值进行排序; 计算协方差矩阵的特征值,得出所有特征值并对其进行排序: (Α-λ Ι)χ = 〇 (2) 得到特征值(λ1; λ2,...,λη)从大到小排列。在这里,每个特征值本文档来自技高网
...

【技术保护点】
一种基于偏好扩散的上下文推荐系统,其特征在于,包括:使用隐语义模型来预测用户对物品的评分;在隐语义模型的初始化过程中,从用户对物品的评论信息中得到物品的初始主题分布,以此分布作为隐语义模型中的物品初始矩阵。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘峤刘瑶秦志光其他发明人请求不公开姓名
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1