基于学科知识图谱的推荐专家方法技术

技术编号:19635067 阅读:280 留言:0更新日期:2018-12-01 15:47
本发明专利技术公开了一种基于学科知识图谱的推荐专家方法,该方法应用知识图谱对项目进行分类并对分类后的项目组匹配合适的评审专家,包括以下步骤:用维基百科链接相似度建立关键词到学术知识图谱节点的映射,计算两两项目间的类别相似度和关键词相似度,用凝聚的层次聚类算法为项目分组,计算项目组和专家间的类别相似度和关键词相似度,用贪心算法为项目组分配专家。本发明专利技术灵活易用,适用范围广泛;能够为科研审核机构找到合适的项目分组,并为各个项目组挑选合适的评审专家进行分批评审。

Recommendation Expert Method Based on Subject Knowledge Map

The invention discloses a recommendation expert method based on subject knowledge atlas. The method uses knowledge atlas to classify projects and matches suitable evaluation experts for classified project groups. The method includes the following steps: establishing the mapping of keywords to academic knowledge atlas nodes by using Wikipedia link similarity, and calculating two items. Category similarity and keyword similarity between items are calculated by clustering the items into groups using a cohesive hierarchical clustering algorithm. Specialists are assigned to the project groups using greedy algorithm. The invention is flexible and easy to use, and has a wide range of applications. It can find suitable project grouping for scientific research auditing institutions and select appropriate evaluation experts for each project group for sub-critical review.

【技术实现步骤摘要】
基于学科知识图谱的推荐专家方法
本专利技术涉及自然语言处理领域和数据库的实体匹配和实体映射领域,具体地说是一种使用学科知识图谱的数据作为辅助知识,批量地对项目申报名单中的项目进行分类归并,获得若干个项目分组,并为各个项目组分别挑选出若干合适的评审专家的方法。
技术介绍
近年来,随着硬件性能的提高和互联网上信息的爆炸,大数据处理和分析的方法得到了迅速发展并在很多领域有了越来越广泛的应用。知识图谱作为一种新兴的大数据处理手段,在提高信息检索质量方面有着巨大的优势。知识图谱的概念由谷歌最先提出,当时主要是用于辅助其搜索引擎进行信息检索。随着近年来大数据处理和分析方法的发展,知识图谱在智能搜索、智能问答、智能推荐等领域都有了广泛的应用。特别是在智能搜索领域,知识图谱的出现弥补了单纯通过关键词匹配进行搜索的不足,搜索引擎可以一定程度上对用户查询的具体意图做出有根据的猜测,实现了概念检索或者语义检索。在知识图谱的支持下,计算机能够更好地理解人类语言的表达模式,智能地为用户反馈更为契合需求的检索结果。除此之外,知识图谱的结构特点使得各种信息实体之间的关系能够被清晰地反映出来,从而将信息聚合为知识,使信息更容易被理解,评价和利用,最终形成一个语义知识库。知识图谱从本质上来说是一种语义网络,它将现实世界里的各种事物和事物之间的各种关联转化为了更加便于计算机处理的“实体和实体的属性-值”二元组和“实体-关系-实体”三元组的形式。如今,知识图谱的概念得到了泛化,各类大型的知识库也都被称作知识图谱。
技术实现思路
本专利技术的目的是提供一种基于学科知识图谱的推荐专家方法,方法使用了微软的学术知识图谱(MicrosoftAcademicGraph),国家自然科学基金申请代码树和维基百科(Wikipedia)的词条页面互链等图谱数据作为检索的辅助。学科背景相似度的计算结合使用了链接相似度、路径相似度和余弦相似度的思想。方法主要使用了凝聚的层次聚类算法分组项目,主要使用了贪心算法推荐专家。本专利技术的目的是这样实现的:一种基于学科知识图谱的推荐专家方法,该方法包括以下具体步骤:步骤1:分组项目输入一个从人工填写的申报项目列表中提取得到的项目实例全集P,其中的项目实例p∈P包括项目编号、项目名称、申报单位、国家自然科学基金学科类别(下文中简称为“类别”,其包含一个国家自然科学基金申请代码,申请代码形如“G0304|产业政策与管理”)和英文关键词集合(包含一个或数个英文关键词)等属性,输出对P的一个划分D={P1,P2,…,Pn},P1~Pn均为学科背景较为相似的项目实例组成的项目实例子集;步骤2:推荐专家输入步骤1获得的划分D和专家信息数据库中提取得到的候选专家实例全集E,其中的专家实例e∈E包括专家编号、专家名称、年龄、职称、单位、国家自然科学基金学科类别集合(下文中简称为“类别集合”,其包含一个或数个国家自然科学基金申请代码,申请代码形如“G0304|产业政策与管理”)和英文关键词集合(包含一个或数个英文关键词)等属性,输出是专家实例全集E的若干个互无交集的子集E1,E2,…,En,E1~En和P在划分D下的子集P1~Pn有一一对应的关系,即Ei(1≤i≤n)表示推荐去评审项目实例子集Pi的专家实例子集。所述步骤1具体包括:步骤A1:使用各个项目实例里的类别,计算两两项目实例之间的类别相似度;步骤A2:使用各个项目实例里的英文关键词集合,为各个英文关键词寻找与其最相似的学术知识图谱节点并建立映射,为每个项目实例保存其下所有英文关键词所对应的所有学术知识图谱节点组成的集合;步骤A3:使用步骤A2中获得的学术知识图谱节点集合,计算两两项目实例之间的关键词相似度;步骤A4:将步骤A1中的类别相似度和步骤A3中的关键词相似度乘以各自的权重并加和,得到两两项目实例间的学科背景相似度;步骤A5:使用凝聚的层次聚类算法,依据步骤A4中获得的两两项目实例间的学科背景相似度,对项目实例进行聚类,得到项目实例全集P的一个划分D,D将项目实例全集P划分为数个项目实例子集P1~Pn。所述步骤2具体包括:步骤B1:使用每个项目实例里的类别和每个专家实例里的类别集合,计算每个项目实例和每个专家实例间的类别相似度,再按照划分D,将在同个项目实例子集下的所有项目实例对某个专家实例的类别相似度加和,作为该项目实例子集和该专家实例的类别相似度,得到每个项目实例子集和每个专家实例两两之间的类别相似度;步骤B2:使用专家实例里的英文关键词集合,为各个英文关键词寻找与其最相似的学术知识图谱节点并建立映射,为每个专家实例保存其下所有英文关键词所对应的所有学术知识图谱节点的集合;步骤B3:按照划分D,将步骤A2中获得的每个项目实例的学术知识图谱节点集合合并为每个项目实例子集的学术知识图谱节点集合,使用该节点集合和步骤B2中获得的专家实例的学术知识图谱节点集合,计算每个项目实例子集和每个专家实例两两之间的关键词相似度;步骤B4:将步骤B1中的类别相似度和步骤B3中的关键词相似度乘以各自的权重并加和,得到每个项目实例子集和每个专家实例两两之间的学科背景相似度;步骤B5:使用贪心算法,依据步骤B4中获得的每个项目实例子集和每个专家实例两两之间的学科背景相似度,为每个项目实例子集分配数个学科背景相似的专家实例,组成与项目实例子集P1~Pn一一对应的专家实例子集E1~En。步骤A1中,所述计算两两项目实例之间的类别相似度是:用其类别属性在国家自然科学基金申请代码树上的路径相似度来计算,按不同层次上类别相同分别给出分层的相似度加分,如“A|数理科学部->A01|数学->A0111|数理统计”与“A|数理科学部->A01|数学->A0111|数理统计”的路径相似度会比“A|数理科学部->A01|数学->A0111|数理统计”与“A|数理科学部->A04|物理学I->A0404|光学”的路径相似度更高。步骤A2中,建立从英文关键词到学术知识图谱节点的映射f:keyword→node,是通过分析维基百科的词条页面数据来实现的;具体地说,使用维基百科的词条页面数据,寻找到与一个英文关键词最相似的一个学术知识图谱节点并将其返回,需要执行以下步骤:①查询本地和网络上的维基数据库,记录下每个图谱节点对应的维基百科词条页面内分别有哪些指向各个维基百科词条的链接,比如说假设“深度学习”的维基词条页面是:“深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。”其中“深度学习”、“人工神经网络”和“多层感知器”是指向各个维基百科词条的链接,那么记录下“深度学习:深度学习|人工神经网络|多层感知器”,将得到的(图谱节点,链接集合)二元组缓存成文件;步骤①在执行过一次以后,只有在新的图谱节点加入时才会重新执行,图谱没有变动时直接执行步骤②;②直接比对关键词和所有图谱节点名称的字符串内容,如果发现某个图谱节点,其节点名称的字符串内容和关键词完全一样,则返回该节点,否则执行步骤③;③查询本地维基数据库,如果关键词在本地维基数据库中有相应词条页面,且有部分图谱节点的词条页面和关键词本文档来自技高网...

【技术保护点】
1.一种基于学科知识图谱的推荐专家方法,其特征在于,该方法包括以下具体步骤:步骤1:分组项目输入一个从人工填写的申报项目列表中提取得到的项目实例全集P,其中的项目实例p∈P包括属性:项目编号、项目名称、申报单位、国家自然科学基金学科类别和英文关键词集合,输出对P的一个划分D={P1,P2,…,Pn},P1~Pn均为学科背景较为相似的项目实例组成的项目实例子集;步骤2:推荐专家输入步骤1获得的划分D和专家信息数据库中提取得到的候选专家实例全集E,其中的专家实例e∈E包括属性:专家编号、专家名称、年龄、职称、单位、国家自然科学基金学科类别集合和英文关键词集合,输出是专家实例全集E的若干个互无交集的子集E1,E2,…,En,E1~En和P在划分D下的子集P1~Pn有一一对应的关系,即Ei(1≤i≤n)表示推荐去评审项目实例子集Pi的专家实例子集。

【技术特征摘要】
1.一种基于学科知识图谱的推荐专家方法,其特征在于,该方法包括以下具体步骤:步骤1:分组项目输入一个从人工填写的申报项目列表中提取得到的项目实例全集P,其中的项目实例p∈P包括属性:项目编号、项目名称、申报单位、国家自然科学基金学科类别和英文关键词集合,输出对P的一个划分D={P1,P2,…,Pn},P1~Pn均为学科背景较为相似的项目实例组成的项目实例子集;步骤2:推荐专家输入步骤1获得的划分D和专家信息数据库中提取得到的候选专家实例全集E,其中的专家实例e∈E包括属性:专家编号、专家名称、年龄、职称、单位、国家自然科学基金学科类别集合和英文关键词集合,输出是专家实例全集E的若干个互无交集的子集E1,E2,…,En,E1~En和P在划分D下的子集P1~Pn有一一对应的关系,即Ei(1≤i≤n)表示推荐去评审项目实例子集Pi的专家实例子集。2.根据权利要求1所述的推荐专家方法,其特征在于,所述步骤1具体包括:步骤A1:使用各个项目实例里的类别,计算两两项目实例之间的类别相似度;步骤A2:使用各个项目实例里的英文关键词集合,为各个英文关键词寻找与其最相似的学术知识图谱节点并建立映射,为每个项目实例保存其下所有英文关键词所对应的所有学术知识图谱节点组成的集合;步骤A3:使用步骤A2中获得的学术知识图谱节点集合,计算两两项目实例之间的关键词相似度;步骤A4:将步骤A1中的类别相似度和步骤A3中的关键词相似度乘以各自的权重并加和,得到两两项目实例间的学科背景相似度;步骤A5:使用凝聚的层次聚类算法,依据步骤A4中获得的两两项目实例间的学科背景相似度,对项目实例进行聚类,得到项目实例全集P的一个划分D,D将项目实例全集P划分为数个项目实例子集P1~Pn。3.根据权利要求1所述的推荐专家方法,其特征在于,所述步骤2具体包括:步骤B1:使用每个项目实例里的类别和每个专家实例里的类别集合,计算每个项目实例和每个专家实例间的类别相似度,再按照划分D,将在同个项目实例子集下的所有项目实例对某个专家实例的类别相似度加和,作为该项目实例子集和该专家实例的类别相似度,得到每个项目实例子集和每个专家实例两两之间的类别相似度;步骤B2:使用专家实例里的英文关键词集合,为各个英文关键词寻找与其最相似的学术知识图谱节点并建立映射,为每个专家实例保存其下所有英文关键词所对应的所有学术知识图谱节点的集合;步骤B3:按照划分D,将步骤A2中获得的每个项目实例的学术知识图谱节点集合合并为每个项目实例子集的学术知识图谱节点集合,使用该节点集合和步骤B2中获得的专家实例的学术知识图谱节点集合,计算每个项目实例子集和每个专家实例两两之间的关键词相似度;步骤B4:将步骤B1中的类别相似度和步骤B3中的关键词相似度乘以各自的权重并加和,得到每个项目实例子集和每个专家实例两两之间的学科背景相似度;步骤B5:使用贪心算法,依据步骤B4中获得的每个项目实例子集和每个专家实例两两之间的学科背景相似度,为每个项目实例子集分配数个学科背景相似的专家实例,组成与项目实例子集P1~Pn一一对应的专家实例子集E1~En。4.根据权利要求2所述的推荐专家方法,其特征在于,步骤A1中,所述计算两两项目实例之间的类别相似度是:用其类别属性在国家自然科学基金申请代码树上的路径相似度来计算,按不同层次上类别相同分别给出分层的相似度加分。5.根据权利要求2所述的推荐专家方法,其特征在于,步骤A2中,建立从英文关键词到学术知识图谱节点的映射f:keyword→node,是通过分析维基百科的词条页面数据来实现的;具体地说,使用维基百科的词条页面数据,寻找到与一个英文关键词最相似的...

【专利技术属性】
技术研发人员:林欣孙琪力窦建凯刘贝孙传翔李定邦
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1