一种基于文献内容知识图谱的多层引文推荐方法技术

技术编号:15041817 阅读:62 留言:0更新日期:2017-04-05 14:10
本发明专利技术公开了一种基于文献内容知识图谱的多层引文推荐方法,属于信息推荐和智能信息处理领域。本方法首先获取用户的查询需求,查询需求由需要推荐引用论文或引用文献的论文的标题和摘要的关键词构成。然后,基于文献内容的知识图谱扩展查询检索词语,知识图谱由文献的研究对象词语和研究行为词语结点,以及表示同义、近义、上下位、部分整体、并列等各种语义关系的边构成。最后,构建数据集中文献的倒排索引,选取候选引文,计算候选引文和查询的相似度,采用梯度渐进回归树来进行引文推荐。本方法基于文献内容知识图谱进行多层次的引文推荐,扩大了候选引文的范围,准确地表达了论文的研究对象和内容,提高了用户获取相关文献的效率,具有广阔的应用前景。

【技术实现步骤摘要】

本专利技术涉及信息推荐
,特别是涉及一种基于文献内容知识图谱的多层引文推荐方法。本专利技术在信息推荐、信息检索、网络舆情监控等领域具有广阔的应用前景。
技术介绍
目前,信息推荐方法可以分为三大类,基于内容的推荐、基于协同过滤的推荐、以及混合的方法。在基于内容的推荐方法中,首先构建推荐对象的内容特征模型和用户兴趣模型,然后计算推荐对象与用户兴趣的相似度,最后将相似度较大的推荐对象推荐给用户。推荐对象和用户模型通常采用关键词表示特征。该方法的优点是可以根据用户的历史记录来构建用户兴趣模型,反映用户的需求和偏好。其特点是,第一,推荐性能依赖于推荐对象的特征提取方法和内容特征模型,也就是依赖于推荐对象的内容特征的准确性和完整性;第二,推荐对象和用户兴趣模型基于关键词进行表示和相似度计算,停留在字符串层面,限制用户对高层次概念的认知,难以满足用户的真正需求。基于协同过滤的推荐方法是基于推荐对象之间的相关性或用户之间的相关性来进行推荐。基于协同过滤的推荐方法可以分为基于用户的协同推荐、基于物品的协同推荐,以及基于模型的协同推荐。该方法的优点是可以处理结构化和非结构化的复杂对象。其特点是存在稀疏性问题和冷启动问题。稀疏性问题是指对于涉及推荐对象较少的用户,在庞大的用户集中难以发现与该用户兴趣相似的用户。冷启动问题是指当新用户或者新推荐对象第一次出现在推荐系统中,系统难以获知新用户的兴趣偏好,难以对新推荐对象进行推荐。引文推荐是信息推荐的重要研究内容,其目的是在海量的文献中找出当前论文需要引用的论文。现有引文推荐方法主要利用文献的引用关系来进行推荐,基于关键词来表示论文的内容和用户的兴趣。
技术实现思路
本专利技术的目的是为了解决上述现有技术中推荐方法受限于相似用户的数量,难以检索字符不同语义相似的文献,难以检索与论文的研究对象和研究行为具有不同语义关联关系的文献,以及现有技术中的引用论文推荐结果不能很好满足用户需求的问题,提供一种基于文献内容知识图谱的多层引文推荐方法。本专利技术的目的是通过下述技术方案实现的。一种基于文献内容知识图谱的多层引文推荐方法,包括如下步骤:步骤1,获取查询需求提取需要推荐引文的论文的标题和摘要,进行词根提取(Stemming)和词形还原(Lemmatization),去掉标点符号和停用词。停用词是指不具有实际意义的词语,主要包括助词、介词、连词等。进一步,提取关键词作为搜索引擎Lucene查询需求的检索词。步骤2,利用文献内容的知识图谱进行查询扩展第一,对查询需求的检索词进行扩充,利用同义词词典和近义词词典获得检索词的同义词和近义词,扩充检索词集合;第二,根据论文的标题和摘要,识别论文的研究对象词语u和研究行为词语v;第三,利用同义词词典和近义词词典,提取论文的研究对象词语和研究行为词语的同义词和近义词,构建检索扩展词,将其添加到检索词集合中。若论文的研究对象词语u的同义词和近义词为a1,a2,…,am(m为自然数),研究行为词语v的同义词和近义词为b1,b2,…,bn(n为自然数),则构建如下的检索扩展词,其中“+”是指两个词语的连接。例如,“u+b1”是指词语u和词语b1的连接。u+b1,u+b2,…,u+bn,a1+v,a1+b1,a1+b2,…,a1+bn,a2+v,a2+b1,a2+b2,…,a2+bn,…,am+v,am+b1,am+b2,…,am+bn.第四,利用知识图谱中的上下位关系子网络,提取论文的研究对象词语u和研究行为词语v的上位概念和下位概念;若u的上位概念为c1,c2,…,cp(p为自然数),u的下位概念为d1,d2,…,dq(q为自然数),v的上位概念为e1,e2,…,es(s为自然数),v的下位概念为f1,f2,…,ft(t为自然数),则构建如下的检索扩展词:u+ej(j=1,2,…,s),u+fj(j=1,2,…,t),ai+ej(i=1,2,…,m,j=1,2,…,s),ai+fj(i=1,2,…,m,j=1,2,…,t),ci+v(i=1,2,…,p),di+v(i=1,2,…,q),ci+bj(i=1,2,…,p,j=1,2,…,n),di+bj(i=1,2,…,q,j=1,2,…,n),ci+ej(i=1,2,…,p,j=1,2,…,s),ci+fj(i=1,2,…,p,j=1,2,…,t),di+ej(i=1,2,…,q,j=1,2,…,s),di+fj(i=1,2,…,q,j=1,2,…,t).第五,利用知识图谱中的部分整体关系子网络,提取论文的研究对象词语u和研究行为词语v的部分概念和整体概念。若u的整体概念为g1,g2,…,go(o为自然数),u的部分概念为h1,h2,…,hr(r为自然数),v的整体概念为k1,k2,…,kw(w为自然数),v的部分概念为l1,l2,…,lz(z为自然数),则构建如下的检索扩展词:u+kj(j=1,2,…,w),u+lj(j=1,2,…,z),ai+kj(i=1,2,…,m,j=1,2,…,w),ai+lj(i=1,2,…,m,j=1,2,…,z),gi+v(i=1,2,…,o),hi+v(i=1,2,…,r),gi+bj(i=1,2,…,o,j=1,2,…,n),hi+bj(i=1,2,…,r,j=1,2,…,n),gi+kj(i=1,2,…,o,j=1,2,…,w),gi+lj(i=1,2,…,o,j=1,2,…,z),hi+kj(i=1,2,…,r,j=1,2,…,w),hi+lj(i=1,2,…,r,j=1,2,…,z).第六,利用知识图谱中的并列关系子网络,提取论文的研究对象词语u和研究行为词语v的并列概念。若u的并列概念为x1,x2,…,xk1(k1为自然数),v的并列概念为y1,y2,…,yk2(k2为自然数),则构建如下的检索扩展词。u+yj(j=1,2,…,k2),xi+v(i=1,2,…,k1).步骤3,构建文献的倒排索引根据数据集中的文献的标题和摘要构建倒排索引,包括预处理、构建索引和存储索引。预处理包括词根提取和词形还原,去掉标点符号和停用词。构建索引包括构建词语到文档的映射词典,对词语按照字典顺序排序,合并相同词语的文档映射信息,构建文档倒排链表即文档倒排索引。步骤4,选取候选引文集首先,根据扩展后的检索词集合,在数据集中检索出在标题和摘要中包括任一检索词的论文。然后,计算查询与这些论文的相似度。将相似度本文档来自技高网
...
一种基于文献内容知识图谱的多层引文推荐方法

【技术保护点】
一种基于文献内容知识图谱的多层引文推荐方法,其特征在于包括以下步骤:步骤1,获取查询需求;步骤2,利用文献内容的知识图谱进行查询扩展;步骤3,构建文献的倒排索引;步骤4,选取候选引文集;步骤5,提取候选引文与查询的相似度特征;步骤6,构建引文推荐的训练数据;步骤7,基于梯度渐进回归树进行引文推荐。

【技术特征摘要】
1.一种基于文献内容知识图谱的多层引文推荐方法,其特征在于包括以下步骤:
步骤1,获取查询需求;
步骤2,利用文献内容的知识图谱进行查询扩展;
步骤3,构建文献的倒排索引;
步骤4,选取候选引文集;
步骤5,提取候选引文与查询的相似度特征;
步骤6,构建引文推荐的训练数据;
步骤7,基于梯度渐进回归树进行引文推荐。
2.根据权利要求1所述的多层引文推荐方法,其特征在于,所述步骤1中,包括:获取需要推荐引文的论文的标题和摘要,进行词根提取和词形还原,去掉标点符号和停用词;提取关键词作为搜索引擎Lucene查询需求的检索词。
3.根据权利要求1所述的多层引文推荐方法,其特征在于,所述步骤2中,包括:
第一,对查询需求的检索词进行扩充,利用同义词词典和近义词词典获得检索词的同义词和近义词,扩充检索词集合;
第二,根据论文的标题和摘要,识别论文的研究对象词语u和研究行为词语v;
第三,利用同义词词典和近义词词典,提取论文的研究对象词语u和研究行为词语v的同义词和近义词,构建检索扩展词,将其添加到检索词集合中;
若u的同义词和近义词为a1,a2,…,am(m为自然数),v的同义词和近义词为b1,b2,…,bn(n为自然数),则构建如下的检索扩展词,其中“+”是指两个词语的连接;例如,“u+b1”是指词语u和词语b1的连接;“实体+检测”是指词语“实体”和词语“检测”的连接,即“实体检测”;
u+b1,u+b2,…,u+bn,
a1+v,a1+b1,a1+b2,…,a1+bn,
a2+v,a2+b1,a2+b2,…,a2+bn,
…,
am+v,am+b1,am+b2,…,am+bn.
第四,利用知识图谱中的上下位关系子网络,提取论文的研究对象词语u和研究行为词语v的上位概念和下位概念;
若u的上位概念为c1,c2,…,cp(p为自然数),u的下位概念为d1,d2,…,dq(q为自然数),v的上位概念为e1,e2,…,es(s为自然数),v的下位概念为f1,f2,…,ft(t为自然数),则构建如下的检索扩展词:
u+ej(j=1,2,…,s),u+fj(j=1,2,…,t),
ai+ej(i=1,2,…,m,j=1,2,…,s),ai+fj(i=1,2,…,m,j=1,2,…,t),
ci+v(i=1,2,…,p),di+v(i=1,2,…,q),
ci+bj(i=1,2,…,p,j=1,2,…,n),di+bj(i=1,2,…,q,j=1,2,…,n),
ci+ej(i=1,2,…,p,j=1,2,…,s),ci+fj(i=1,2,…,p,j=1,2,…,t),
di+ej(i=1,2,…,q,j=1,2,…,s),di+fj(i=1,2,…,q,j=1,2,…,t).
第五,利用知识图谱中的部分整体关系子网络,提取论文的研究对象词语u和研究行为词语v的部分概念和整体概念;若u的整体概念为g1,g2,…,go(o为自然数),u的部分概念为h1,h2,…,hr(r为自然数),v的整体概念为k1,k2,…,kw(w为自然数),v的部分概念为l1,l2,…,lz(z为自然数),则构建如下的检索扩展词;
u+kj(j=1,2,…,w),u+lj(j=1,2,…,z),
ai+kj(i=1,2,…,m,j=1,2,…,w),ai+lj(i=1,2,…,m,j=1,2,…,z),
gi+v(i=1,2,…,o),hi+v(i=1,2,…,r),
gi+bj(i=1,2,…,o,j=1,2,…,n),hi+bj(i=1,2,…,r,j=1,2,…,n),
gi+kj(i=1,2,…,o,j=1,2,…,w),gi...

【专利技术属性】
技术研发人员:张春霞陈俊鹏王森王树良赵小林
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1