一种基于领域知识图谱的个性化文献推荐方法技术

技术编号:15840782 阅读:53 留言:0更新日期:2017-07-18 16:51
一种基于领域知识图谱的个性化文献推荐方法,涉及文献推荐技术领域。采用LDA模型构建知识图谱,并在此基础上,分别构建用户兴趣模型与文献模型,解决了词频统计方法不精确的问题;在建模的过程引入时间遗忘曲线函数,解决了用户兴趣变迁的问题;同时在建模过程中引入了激活扩散技术,解决了数据稀疏性的问题;在计算相似性的过程中采用基于知识距离的方法,有效的避免了元素个数匹配的强制性问题。将兴趣保持模型应用在文献推荐系统的用户建模中,考虑时间对用户短期兴趣变迁的影响,准确地量化用户当前兴趣。在用户建模与文献建模过程中引入激活扩散技术,有效的解决了数据的稀疏性问题。

Personalized document recommendation method based on domain knowledge map

A personalized document recommendation method based on domain knowledge mapping, involving the field of document recommendation technology. Construction of knowledge map by LDA model, and on this basis, the user interest model and document model were constructed to solve the problem of inaccurate statistical methods; the introduction of time in the process of modeling the forgetting curve function, solves the problem of user interest changes; introduced in the modeling process at the same time spreading activation technology to solve the data the sparsity of the problem; in the similarity calculation process by using the method of knowledge based on distance, effectively avoids the problem of matching the number of mandatory elements. The interest retention model is applied to the user modeling of the literature recommendation system, taking into account the influence of time on the change of the user's short-term interest, and accurately quantifying the current interest of the user. In the process of user modeling and document modeling, the technology of active diffusion is introduced to solve the problem of data sparseness.

【技术实现步骤摘要】
一种基于领域知识图谱的个性化文献推荐方法
本专利技术涉及文献推荐
,具体地说,它是一种基于领域知识图谱的个性化文献推荐方法的研究。
技术介绍
随着信息科技时代的到来,数据信息爆炸式的增长,怎样才能在海量的数据中获得重要的信息,是现如今亟待解决的问题。在这样的形式下,推荐系统应运而生,并逐渐成为信息时代不可或缺的组成部分。文献推荐是推荐系统的一个应用方向,可帮助用户在海量文档中找出有价值的文献。传统的文献推荐技术采用关键字表示文献模型和用户模型的特征,并使用词频反文档频率(TFIDF)方法计算各个特征的权重,然而这种仅考虑词频的算法,会导致非关键词由于词频占优而被误判为权重较大的关键词,进而造成用户兴趣的失真。近几年,研究人员提出使用潜在狄利克雷分布(LatentDirichletAllocation,LDA)模型挖掘文章中隐藏主题的方法进行文献推荐,然而现有基于LDA模型进行文献推荐的方法并没有考虑用户兴趣变迁问题,由于在一段时间内,用户可能会对某个话题感兴趣,也有可能会对其失去兴趣,因此用户的研究兴趣是动态变化的;此外在构建每篇文献模型与根据用户已有研究得到的用户模型的过程中本文档来自技高网...
一种基于领域知识图谱的个性化文献推荐方法

【技术保护点】
一种基于领域知识图谱的个性化文献推荐方法,其特征在于,包括如下步骤:步骤1:构建知识图谱数据结构抽取文献的标题与摘要作为文献库,采用LDA的“文献‑主题”理论从文献库中抽取主题,设置阈值,将满足阈值的主题抽取出来,构建数据结构的节点集;通过两个节点在文献中出现的频率定义节点之间关系的权重,设置阈值,将满足阈值的关系抽取出来,构建数据结构的边集与权重集;基于此,得到基于“节点‑边‑权重”模式的知识图谱数据结构;步骤2:构建用户知识模型利用激活扩散理论与时间遗忘曲线函数对用户知识进行建模,从而得到能够代表用户研究兴趣的向量;步骤3:构建文献知识模型利用激活扩散理论对每篇文献知识进行建模,从而得到能...

【技术特征摘要】
1.一种基于领域知识图谱的个性化文献推荐方法,其特征在于,包括如下步骤:步骤1:构建知识图谱数据结构抽取文献的标题与摘要作为文献库,采用LDA的“文献-主题”理论从文献库中抽取主题,设置阈值,将满足阈值的主题抽取出来,构建数据结构的节点集;通过两个节点在文献中出现的频率定义节点之间关系的权重,设置阈值,将满足阈值的关系抽取出来,构建数据结构的边集与权重集;基于此,得到基于“节点-边-权重”模式的知识图谱数据结构;步骤2:构建用户知识模型利用激活扩散理论与时间遗忘曲线函数对用户知识进行建模,从而得到能够代表用户研究兴趣的向量;步骤3:构建文献知识模型利用激活扩散理论对每篇文献知识进行建模,从而得到能够代表每篇文献的向量模型;步骤4:计算知识距离,生成推荐结果首先,统计用户知识模型与每篇文献知识模型的知识距离集,即知识路径的集合;然后,对于每条路径,计算路径内主题的重要程度,通过对主题的重要程度累积来衡量此文献与路径的匹配程度;对每篇文献的路径进行遍历求和得到此文献的最优值;最后,按最优值对文献进行排序,从而找到最接近用户研究兴趣的前n篇文献,返回给用户;所述步骤2具体包括:步骤2-1统计用户已发表的文献,并将其进行预处理,得到用户文献集;定义专业等级Expertise(u,t)为主题对用户的重要程度,由于目前的研究并没有考虑研究人员短期兴趣变迁的问题,因此在计算专业等级的过程中引入时间遗忘曲线函数;具体的计算公式如下:其中Expertise(u,t)代表主题对用户的重要程度;n代表时间段;mj为时间段j内用户已发表文献的个数;t代表主题;udi代表指定时间段内的一篇文献;Tt为时间段j内主题t的持续时间;参数A,b的引入,是为了调节主题的重要程度,使重要程度和当前研究兴趣保持最大相关性;ω(udi,t)代表文献udi属于主题t的概率,而则是主题t在这个时间段内的重要程度,ω(udi,t)的计算公式如下:其中,为LDA的主题-词语分布,公式如下:其中,k代表文献中的词语;为属于主题t的词语个数步骤2-2为了解决数据稀疏性的问题,引入激活扩散理论;设定阈值,对于大于指定阈值的专业等级Expertise(u,t)构成初始用户知识集IUT={iut1,iut2,……iutn},即iut1代表主题t1的专业等级;以知识图谱数据结构为基础,使用激活扩散技术对初始知识模型中的主题值进行扩充,激活扩散过程的公式所示:O=[ε-(1-α)×wT]-1×IUT(4)其中,IUT为激活扩散过程的输入,即主题Expertise(u,t)值的集合;w表示激活扩散过程中的关系矩阵,矩阵中的元素wij表示主题ti与主题tj的关系权重,即已构建知识图谱中的关系权重组成的矩阵;α是延迟因子;ε是n阶单位矩阵;O=[O1,O2,…,On]T是扩散激活过程的最终输出,Oi是主题ti的激活扩散值,代表主题ti经过扩散后对于用户的重要程度;设定阈值,对于激活扩散过程后大于指定阈值的激活扩散值构成用户知识模型UT={ut1,ut2,……utn},即ut1代表主题t1的激活扩散值;所述步骤3具体包括:步骤3-1由于每篇文献只具有少量的特征主题,因此在文献知识建模的过程中,同样引入激活扩散理论;首先对每篇文献进行预处理,定义重要等级importance(u,t)为主题对用户的重要程度;如下公式所示:importance(u,t)=w(d,t)(5)其中w(d,t)的计算公式同公式(2),对于大于指定阈值的主题集构成...

【专利技术属性】
技术研发人员:盛文瑾闫健卓李贤王静李东佩郐弘智陈建辉
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1