【技术实现步骤摘要】
基于学科知识图谱集中抽取专家的方法
本专利技术涉及自然语言处理领域和数据库实体匹配及实体映射领域。具体地说,是一种以学科知识图谱的数据为辅助,批量地对一次评审活动中的若干项目组分别获得若干学科相关程度较高的专家,并从其中尽可能集中地选择专家作为抽取结果的方法。
技术介绍
近年,随着硬件性能的提高和互联网上信息的爆炸性增长,对大数据进行处理和分析的方法得到了迅速发展,并在很多领域获得了越来越广泛的应用。而知识图谱作为一种新兴的大数据处理手段,在提高信息检索质量方面有着巨大的优势。知识图谱的概念由谷歌公司最先提出,在当初,知识图谱主要是用于辅助谷歌的搜索引擎进行信息检索。而随着近年大数据处理和分析方法的发展,知识图谱在智能搜索、智能问答、智能推荐等领域都有了广泛的应用。特别是在智能搜索领域,知识图谱的出现弥补了单纯通过关键词匹配进行搜索的不足,使得搜索引擎可以一定程度上对用户查询的具体意图做出有根据的猜测,实现了概念检索或者语义检索。在知识图谱的支持下,计算机能够更好地对人类语言的表达模式进行理解,为用户智能地反馈更为契 ...
【技术保护点】
1.一种基于学科知识图谱集中抽取专家的方法,其特征在于,该方法包括以下具体步骤:/n步骤1:对针对某次评审活动进行的专家抽取任务,获取本次所有待评审项目组及其各类领域、中英文关键词信息;/n步骤2:对所有项目组分别计算与所有专家间的匹配度,获得对每个项目组匹配程度高的专家备选集合;/n步骤3:为本次抽取任务中的所有项目组,在保证专家评审的项目组数量不超过本次抽取任务设置的上限的前提下,集中地从所有专家备选集合中选取专家作为最终抽取结果;/n步骤4:若有专家在收到参与评审活动的通知后主动或被动退出评审,则集中地为出现空缺的项目组进行补充,使各项目组最终结果中的专家数量重新满足要求。/n
【技术特征摘要】
1.一种基于学科知识图谱集中抽取专家的方法,其特征在于,该方法包括以下具体步骤:
步骤1:对针对某次评审活动进行的专家抽取任务,获取本次所有待评审项目组及其各类领域、中英文关键词信息;
步骤2:对所有项目组分别计算与所有专家间的匹配度,获得对每个项目组匹配程度高的专家备选集合;
步骤3:为本次抽取任务中的所有项目组,在保证专家评审的项目组数量不超过本次抽取任务设置的上限的前提下,集中地从所有专家备选集合中选取专家作为最终抽取结果;
步骤4:若有专家在收到参与评审活动的通知后主动或被动退出评审,则集中地为出现空缺的项目组进行补充,使各项目组最终结果中的专家数量重新满足要求。
2.根据权利要求1所述基于学科知识图谱集中抽取专家的方法,其特征在于,所述步骤2具体包括:
步骤A1:使用项目组实例里的中、英文关键词集合,为各个关键词寻找与其关联度最高的学术知识图谱节点并建立映射,为每个项目组实例获得其下所有关键词所对应的所有学术知识图谱节点的集合;
步骤A2:使用专家实例里的中、英文关键词集合,为各个关键词寻找与其关联度最高的学术知识图谱节点并建立映射,为每个专家实例获得其下所有关键词所对应的所有学术知识图谱节点的集合;
步骤A3:使用步骤A1和步骤A2中获得的项目组实例与专家实例的学术知识图谱节点集合,计算项目组实例和每个专家实例两两之间在关键词的匹配度;
步骤A4:使用每个项目组实例里的各项领域信息和每个专家实例里的各项领域信息,计算项目组实例和每个专家实例间在各类领域的匹配度;
步骤A5:将步骤A3中的关键词匹配度和步骤A4中的领域匹配度乘以各自的权重并求和,结果作为项目组实例与专家实例两两之间的学科匹配度;
步骤A6:依据步骤A5获得的学科匹配度,设一个项目组实例的备选集合中最多有k名专家,将所有专家实例中按对每个项目组实例pi的匹配程度排序的前k位,将这k位专家实例组成每个项目组实例pi所对应的专家集合Ei;为每个项目组实例pi都分配k个匹配程度最高的专家实例作为该项目组的备选专家,组成与项目组实例p1~pn一一对应的备选集合E1~En;其中,k=100以内的正整数。
3.根据权利要求2所述基于学科知识图谱集中抽取专家的方法,其特征在于,所述为各个关键词寻找与其关联度最高的学术知识图谱节点并建立映射为:建立从关键词到学术知识图谱节点的映射f:keyword→node,通过分析维基百科的词条页面数据实现;具体地说,使用维基百科的词条页面数据,寻找到与一个关键词最相似的一个学术知识图谱节点并将其返回,执行以下步骤:
步骤①:查询本地和网络上的维基数据库,记录下每个图谱节点对应的维基百科词条页面内分别有哪些指向各个维基百科词条的链接,将得到的图谱节点、链接集合二元组缓存成文件;步骤①在执行过一次以后,仅在新的图谱节点加入时重新执行本步骤;
步骤②:在关键词为中文的情况下,调用谷歌翻译,将关键词翻译为英文,然后执行步骤③;在关键词为英文时则直接执行步骤③;
步骤③:将关键词或其翻译结果与图谱节点名称的字符串内容进行比对,若某个图谱节点,其节点名称的字符串内容与关键词完全一致,则直接返回该节点作为该关键词的映射结果,否则执行步骤④;
步骤④:查询维基数据库,若关键词在维基数据库中有对应词条页面,且有部分图谱节点的词条页面和关键词的词条页面有共同指向同一个词条页面的超链接,则返回具有共同链接数量最多的图谱节点作为映射结果;若关键词在维基中不存在同名词条,或者所有图谱节点的词条页面和关键词的词条页面都没有共同超链接对象,则执行步骤⑤;
步骤⑤:调用维基百科的api进行访问,得到最多为10个的和关键词最对应的维基百科词条页面,并将这数个页面内的词条超链接合并为一个集合,执行步骤⑥;
步骤⑥:若api搜索到的页面数量不为0,且有部分图谱节点的词条页面和步骤⑤得到的超链接集合有共同链接,则返回和这个链接集合共同词条链接数量最多的图谱节点作为映射结果;若api搜索到的页面数量为0,或者步骤⑤得到中的链接集合仍旧和所有图谱节点的词条页面都没有共同链接,则该关键词映射失败。
4.根据权利要求2所述基于学科知识图谱集中抽取专家的方法,其特征在于,步骤A3所述计算项目组实例和每个专家实例两两之间在关键词上的匹配度是:计算项目组实例p与专家实例e的关键词的映射结果在图谱上的路径相似度;在所使用的知识图谱上,节点的分布形式为树形,具有一定的层次性,因此对项目组实例p的学术知识图谱节点集合NP中的每一个节点npi及其计数cpi与专家实例e的学术知识图谱节点集合Ne中的每一个节点nei及其计数cei,根据图谱获得从最上层开始到达节点的所有路径,在双方所有路径对中找到路径上的重合节点最多的一对路径,以该路径对之间的相似度作为这两个节点之间的相似度sim(npi,nei);根据计算得到的所有节点间相似度,实例之间的最终关键词匹配度按照如下方式计算:
5.根据权利要求2所述基于学科知识图谱集中抽取专家的方法,其特征在于,步骤A4所述计算项目组实例和每个专家实例间在各类领域上的匹配度是:用项目组实例学科领域与技术领域中的最底层内容与专家实例中的学科领域与技术领域中的最底层内容之...
【专利技术属性】
技术研发人员:林欣,王辰奕,高桢,孙琪力,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。