一种基于文献内容知识图谱的多层引文推荐方法技术

技术编号：15041817 阅读：62 留言：0更新日期：2017-04-05 14:10

本发明专利技术公开了一种基于文献内容知识图谱的多层引文推荐方法，属于信息推荐和智能信息处理领域。本方法首先获取用户的查询需求，查询需求由需要推荐引用论文或引用文献的论文的标题和摘要的关键词构成。然后，基于文献内容的知识图谱扩展查询检索词语，知识图谱由文献的研究对象词语和研究行为词语结点，以及表示同义、近义、上下位、部分整体、并列等各种语义关系的边构成。最后，构建数据集中文献的倒排索引，选取候选引文，计算候选引文和查询的相似度，采用梯度渐进回归树来进行引文推荐。本方法基于文献内容知识图谱进行多层次的引文推荐，扩大了候选引文的范围，准确地表达了论文的研究对象和内容，提高了用户获取相关文献的效率，具有广阔的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息推荐
，特别是涉及一种基于文献内容知识图谱的多层引文推荐方法。本专利技术在信息推荐、信息检索、网络舆情监控等领域具有广阔的应用前景。
技术介绍
目前，信息推荐方法可以分为三大类，基于内容的推荐、基于协同过滤的推荐、以及混合的方法。在基于内容的推荐方法中，首先构建推荐对象的内容特征模型和用户兴趣模型，然后计算推荐对象与用户兴趣的相似度，最后将相似度较大的推荐对象推荐给用户。推荐对象和用户模型通常采用关键词表示特征。该方法的优点是可以根据用户的历史记录来构建用户兴趣模型，反映用户的需求和偏好。其特点是，第一，推荐性能依赖于推荐对象的特征提取方法和内容特征模型，也就是依赖于推荐对象的内容特征的准确性和完整性；第二，推荐对象和用户兴趣模型基于关键词进行表示和相似度计算，停留在字符串层面，限制用户对高层次概念的认知，难以满足用户的真正需求。基于协同过滤的推荐方法是基于推荐对象之间的相关性或用户之间的相关性来进行推荐。基于协同过滤的推荐方法可以分为基于用户的协同推荐、基于物品的协同推荐，以及基于模型的协同推荐。该方法的优点是可以处理结构化和非结构化的复杂对象。其特点是存在稀疏性问题和冷启动问题。稀疏性问题是指对于涉及推荐对象较少的用户，在庞大的用户集中难以发现与该用户兴趣相似的用户。冷启动问题是指当新用户或者新推荐对象第一次出现在推荐系统中，系统难以获知新用户的兴趣偏好，难以对...
一种基于文献内容知识图谱的多层引文推荐方法

【技术保护点】
一种基于文献内容知识图谱的多层引文推荐方法，其特征在于包括以下步骤：步骤1，获取查询需求；步骤2，利用文献内容的知识图谱进行查询扩展；步骤3，构建文献的倒排索引；步骤4，选取候选引文集；步骤5，提取候选引文与查询的相似度特征；步骤6，构建引文推荐的训练数据；步骤7，基于梯度渐进回归树进行引文推荐。

【技术特征摘要】
1.一种基于文献内容知识图谱的多层引文推荐方法，其特征在于包括以下步骤：
步骤1，获取查询需求；
步骤2，利用文献内容的知识图谱进行查询扩展；
步骤3，构建文献的倒排索引；
步骤4，选取候选引文集；
步骤5，提取候选引文与查询的相似度特征；
步骤6，构建引文推荐的训练数据；
步骤7，基于梯度渐进回归树进行引文推荐。
2.根据权利要求1所述的多层引文推荐方法，其特征在于，所述步骤1中，包括：获取需要推荐引文的论文的标题和摘要，进行词根提取和词形还原，去掉标点符号和停用词；提取关键词作为搜索引擎Lucene查询需求的检索词。
3.根据权利要求1所述的多层引文推荐方法，其特征在于，所述步骤2中，包括：
第一，对查询需求的检索词进行扩充，利用同义词词典和近义词词典获得检索词的同义词和近义词，扩充检索词集合；
第二，根据论文的标题和摘要，识别论文的研究对象词语u和研究行为词语v；
第三，利用同义词词典和近义词词典，提取论文的研究对象词语u和研究行为词语v的同义词和近义词，构建检索扩展词，将其添加到检索词集合中；
若u的同义词和近义词为a1,a2,…,am(m为自然数)，v的同义词和近义词为b1,b2,…,bn(n为自然数)，则构建如下的检索扩展词，其中“+”是指两个词语的连接；例如，“u+b1”是指词语u和词语b1的连接；“实体+检测”是指词语“实体”和词语“检测”的连接，即“实体检测”；
u+b1,u+b2,…,u+bn,
a1+v,a1+b1,a1+b2,…,a1+bn,
a2+v,a2+b1,a2+b2,…,a2+bn,
…,
am+v,am+b1,am+b2,…,am+bn.
第四，利用知识图谱中的上下位关系子网络，提取论文的研究对象词语u和研究行为词语v的上位概念和下位概念；
若u的上位概念为c1,c2,…,cp(p为自然数)，u的下位概念为d1,d2,…,dq(q为自然数)，v的上位概念为e1,e2,…,es(s为自然数)，v的下位概念为f1,f2,…,ft(t为自然数)，则构建如下的检索扩展词：
u+ej(j＝1,2,…,s),u+fj(j＝1,2,…,t),
ai+ej(i＝1,2,…,m,j＝1,2,…,s),ai+fj(i＝1,2,…,m,j＝1,2,…,t),
ci+v(i＝1,2,…,p),di+v(i＝1,2,…,q),
ci+bj(i＝1,2,…,p,j＝1,2,…,n),di+bj(i＝1,2,…,q,j＝1,2,…,n),
ci+ej(i＝1,2,…,p,j＝1,2,…,s),ci+fj(i＝1,2,…,p,j＝1,2,…,t),
di+ej(i＝1,2,…,q,j＝1,2,…,s),di+fj(i＝1,2,…,q,j＝1,2,…,t).
第五，利用知识图谱中的部分整体关系子网络，提取论文的研究对象词语u和研究行为词语v的部分概念和整体概念；若u的整体概念为g1,g2,…,go(o为自然数)，u的部分概念为h1,h2,…,hr(r为自然数)，v的整体概念为k1,k2,…,kw(w为自然数)，v的部分概念为l1,l2,…,lz(z为自然数)，则构建如下的检索扩展词；
u+kj(j＝1,2,…,w),u+lj(j＝1,2,…,z),
ai+kj(i＝1,2,…,m,j＝1,2,…,w),ai+lj(i＝1,2,…,m,j＝1,2,…,z),
gi+v(i＝1,2,…,o),hi+v(i＝1,2,…,r),
gi+bj(i＝1,2,…,o,j＝1,2,…,n),hi+bj(i＝1,2,…,r,j＝1,2,…,n),
gi+kj(i＝1,2,…,o,j＝1,2,…,w),gi...

【专利技术属性】
技术研发人员：张春霞，陈俊鹏，王森，王树良，赵小林，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人