The invention discloses a recommendation expert method based on subject knowledge atlas. The method uses knowledge atlas to classify projects and matches suitable evaluation experts for classified project groups. The method includes the following steps: establishing the mapping of keywords to academic knowledge atlas nodes by using Wikipedia link similarity, and calculating two items. Category similarity and keyword similarity between items are calculated by clustering the items into groups using a cohesive hierarchical clustering algorithm. Specialists are assigned to the project groups using greedy algorithm. The invention is flexible and easy to use, and has a wide range of applications. It can find suitable project grouping for scientific research auditing institutions and select appropriate evaluation experts for each project group for sub-critical review.
【技术实现步骤摘要】
基于学科知识图谱的推荐专家方法
本专利技术涉及自然语言处理领域和数据库的实体匹配和实体映射领域,具体地说是一种使用学科知识图谱的数据作为辅助知识,批量地对项目申报名单中的项目进行分类归并,获得若干个项目分组,并为各个项目组分别挑选出若干合适的评审专家的方法。
技术介绍
近年来,随着硬件性能的提高和互联网上信息的爆炸,大数据处理和分析的方法得到了迅速发展并在很多领域有了越来越广泛的应用。知识图谱作为一种新兴的大数据处理手段,在提高信息检索质量方面有着巨大的优势。知识图谱的概念由谷歌最先提出,当时主要是用于辅助其搜索引擎进行信息检索。随着近年来大数据处理和分析方法的发展,知识图谱在智能搜索、智能问答、智能推荐等领域都有了广泛的应用。特别是在智能搜索领域,知识图谱的出现弥补了单纯通过关键词匹配进行搜索的不足,搜索引擎可以一定程度上对用户查询的具体意图做出有根据的猜测,实现了概念检索或者语义检索。在知识图谱的支持下,计算机能够更好地理解人类语言的表达模式,智能地为用户反馈更为契合需求的检索结果。除此之外,知识图谱的结构特点使得各种信息实体之间的关系能够被清晰地反映出来,从而将信息聚合为知识,使信息更容易被理解,评价和利用,最终形成一个语义知识库。知识图谱从本质上来说是一种语义网络,它将现实世界里的各种事物和事物之间的各种关联转化为了更加便于计算机处理的“实体和实体的属性-值”二元组和“实体-关系-实体”三元组的形式。如今,知识图谱的概念得到了泛化,各类大型的知识库也都被称作知识图谱。
技术实现思路
本专利技术的目的是提供一种基于学科知识图谱的推荐专家方法,方法使用了微 ...
【技术保护点】
1.一种基于学科知识图谱的推荐专家方法,其特征在于,该方法包括以下具体步骤:步骤1:分组项目输入一个从人工填写的申报项目列表中提取得到的项目实例全集P,其中的项目实例p∈P包括属性:项目编号、项目名称、申报单位、国家自然科学基金学科类别和英文关键词集合,输出对P的一个划分D={P1,P2,…,Pn},P1~Pn均为学科背景较为相似的项目实例组成的项目实例子集;步骤2:推荐专家输入步骤1获得的划分D和专家信息数据库中提取得到的候选专家实例全集E,其中的专家实例e∈E包括属性:专家编号、专家名称、年龄、职称、单位、国家自然科学基金学科类别集合和英文关键词集合,输出是专家实例全集E的若干个互无交集的子集E1,E2,…,En,E1~En和P在划分D下的子集P1~Pn有一一对应的关系,即Ei(1≤i≤n)表示推荐去评审项目实例子集Pi的专家实例子集。
【技术特征摘要】
1.一种基于学科知识图谱的推荐专家方法,其特征在于,该方法包括以下具体步骤:步骤1:分组项目输入一个从人工填写的申报项目列表中提取得到的项目实例全集P,其中的项目实例p∈P包括属性:项目编号、项目名称、申报单位、国家自然科学基金学科类别和英文关键词集合,输出对P的一个划分D={P1,P2,…,Pn},P1~Pn均为学科背景较为相似的项目实例组成的项目实例子集;步骤2:推荐专家输入步骤1获得的划分D和专家信息数据库中提取得到的候选专家实例全集E,其中的专家实例e∈E包括属性:专家编号、专家名称、年龄、职称、单位、国家自然科学基金学科类别集合和英文关键词集合,输出是专家实例全集E的若干个互无交集的子集E1,E2,…,En,E1~En和P在划分D下的子集P1~Pn有一一对应的关系,即Ei(1≤i≤n)表示推荐去评审项目实例子集Pi的专家实例子集。2.根据权利要求1所述的推荐专家方法,其特征在于,所述步骤1具体包括:步骤A1:使用各个项目实例里的类别,计算两两项目实例之间的类别相似度;步骤A2:使用各个项目实例里的英文关键词集合,为各个英文关键词寻找与其最相似的学术知识图谱节点并建立映射,为每个项目实例保存其下所有英文关键词所对应的所有学术知识图谱节点组成的集合;步骤A3:使用步骤A2中获得的学术知识图谱节点集合,计算两两项目实例之间的关键词相似度;步骤A4:将步骤A1中的类别相似度和步骤A3中的关键词相似度乘以各自的权重并加和,得到两两项目实例间的学科背景相似度;步骤A5:使用凝聚的层次聚类算法,依据步骤A4中获得的两两项目实例间的学科背景相似度,对项目实例进行聚类,得到项目实例全集P的一个划分D,D将项目实例全集P划分为数个项目实例子集P1~Pn。3.根据权利要求1所述的推荐专家方法,其特征在于,所述步骤2具体包括:步骤B1:使用每个项目实例里的类别和每个专家实例里的类别集合,计算每个项目实例和每个专家实例间的类别相似度,再按照划分D,将在同个项目实例子集下的所有项目实例对某个专家实例的类别相似度加和,作为该项目实例子集和该专家实例的类别相似度,得到每个项目实例子集和每个专家实例两两之间的类别相似度;步骤B2:使用专家实例里的英文关键词集合,为各个英文关键词寻找与其最相似的学术知识图谱节点并建立映射,为每个专家实例保存其下所有英文关键词所对应的所有学术知识图谱节点的集合;步骤B3:按照划分D,将步骤A2中获得的每个项目实例的学术知识图谱节点集合合并为每个项目实例子集的学术知识图谱节点集合,使用该节点集合和步骤B2中获得的专家实例的学术知识图谱节点集合,计算每个项目实例子集和每个专家实例两两之间的关键词相似度;步骤B4:将步骤B1中的类别相似度和步骤B3中的关键词相似度乘以各自的权重并加和,得到每个项目实例子集和每个专家实例两两之间的学科背景相似度;步骤B5:使用贪心算法,依据步骤B4中获得的每个项目实例子集和每个专家实例两两之间的学科背景相似度,为每个项目实例子集分配数个学科背景相似的专家实例,组成与项目实例子集P1~Pn一一对应的专家实例子集E1~En。4.根据权利要求2所述的推荐专家方法,其特征在于,步骤A1中,所述计算两两项目实例之间的类别相似度是:用其类别属性在国家自然科学基金申请代码树上的路径相似度来计算,按不同层次上类别相同分别给出分层的相似度加分。5.根据权利要求2所述的推荐专家方法,其特征在于,步骤A2中,建立从英文关键词到学术知识图谱节点的映射f:keyword→node,是通过分析维基百科的词条页面数据来实现的;具体地说,使用维基百科的词条页面数据,寻找到与一个英文关键词最相似的...
【专利技术属性】
技术研发人员:林欣,孙琪力,窦建凯,刘贝,孙传翔,李定邦,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。