本发明专利技术公开了一种基于知识图谱的科研实体链接方法及装置,其中,该方法包括:获取隶属信息集合,对隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;将字符串进行分割,生成词集合,对词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将实体集合作为候选集加入候选集合中;通过候选集实体选择模型在候选集合中选取每一个科研成果中学者的隶属对应的最终结果;将最终结果构造为与隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。该方法利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体。
Research entity linking method and device based on Knowledge Map
【技术实现步骤摘要】
基于知识图谱的科研实体链接方法及装置
本专利技术涉及信息检索
,特别涉及一种基于知识图谱的科研实体链接方法及装置。
技术介绍
科研成果中学者的隶属(即affiliation)展现了科研机构参与该科研创新的情况。但是该表示方式存在着歧义性和模糊性,如果将科研成果中的学者的隶属映射到现实社会中的科研实体上,则能够很好的避免其带来的歧义性和模糊性。科研成果中科研实体是以学者的隶属所存在的,即现实世界中所指的科研机构。由于一系列的原因导致该表达存在着较大的歧义性和模糊性。主要的影响因素有:英文名翻译方法的不同、机构合并与更名、拼写错误、顶级机构与下级本门难以区分、不同的书写方式、印刷错误或OCR错误、机构简写、翻译错误、信息的遗漏、机构同名等。单从语义、语法等角度很难消除其歧义性和模糊性。该问题很早就引起了大家的重视,主要采用基于规则的方法和基于知识的方法来实现。基于规则的方法中,代表性的工作有:Jonnalagadda等人提出的基于多字典的多层规则匹配、Jiang等人提出的一种基于标准化压缩距离的聚类方法、Huang等人提出了一种基于规则的算法等。基于知识的方法中,代表性的工作有:Aumueller等人提出基于网络搜索结果url的从属关系的相似性判断方法、Morillo等人提出了一种新的半自动方法编码方法、等人使用Nooj进行机构标准化的方法等。传统基于规则或者基于知识的方法,很容易受限于预定义好的知识和框架,在数据量不断增长、时间跨度很长、数据量较大等真实环境下效果较差。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于知识图谱的科研实体链接方法,该方法利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体。本专利技术的另一个目的在于提出一种基于知识图谱的科研实体链接装置。为达到上述目的,本专利技术一方面实施例提出了一种基于知识图谱的科研实体链接方法,包括:S1,获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;S2,将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;S3,通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;S4,将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。本专利技术实施例的基于知识图谱的科研实体链接方法,通过利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体,可以应用到多种应用中,例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。另外,根据本专利技术上述实施例的基于知识图谱的科研实体链接方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述S1进一步包括:通过正则化表达式去除所述隶属信息集合中的无关信息,以及根据字符串中字符所对应的字符编码的区间判断是否为乱码,将乱码移除。进一步地,在本专利技术的一个实施例中,使用基于词的n-gram模型对所述字符串进行多重分割。进一步地,在本专利技术的一个实施例中,所述S2进一步包括:通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配,找到每个词可能表达的实体集合G,表示为:h(w)=G=I+P,其中,I表示知识图谱中的实例集合,P表示知识图谱中的概念集合。进一步地,在本专利技术的一个实施例中,所述候选集实体选择模型为:其中,函数cls()表示最长公共子序列算法,med()函数表示最小编辑距离算法,科研成果中学者的隶属a去除标点符号后表示为a',候选集合C中的元素c去除标点符号后表示为c'。为达到上述目的,本专利技术另一方面实施例提出了一种基于知识图谱的科研实体链接装置,包括:处理模块,用于获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;分割模块,用于将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;生成模块,用于通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;实体链接模块,用于将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出本专利技术实施例的基于知识图谱的科研实体链接装置,通过利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体,可以应用到多种应用中,例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。另外,根据本专利技术上述实施例的基于知识图谱的科研实体链接装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述处理模块,进一步用于通过正则化表达式去除所述隶属信息集合中的无关信息,以及根据字符串中字符所对应的字符编码的区间判断是否为乱码,将乱码移除。进一步地,在本专利技术的一个实施例中,使用基于词的n-gram模型对所述字符串进行多重分割。进一步地,在本专利技术的一个实施例中,所述分割模块,进一步用于,通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配,找到每个词可能表达的实体集合G,表示为:h(w)=G=I+P,其中,I表示知识图谱中的实例集合,P表示知识图谱中的概念集合。进一步地,在本专利技术的一个实施例中,所述候选集实体选择模型为:其中,函数cls()表示最长公共子序列算法,med()函数表示最小编辑距离算法,科研成果中学者的隶属a去除标点符号后表示为a',候选集合C中的元素c去除标点符号后表示为c'。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的基于知识图谱的科研实体链接方法流程图;图2为根据本专利技术一个实施例的多重分割及基于知识图谱的模糊查询示例图;图3为根据本专利技术一个实施例的基于知识图谱的科研实体链接方法流程框图;图4为根据本专利技术一个实施例的基于知识图谱的科研实体链接装置结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参照附图描述根据本专利技术实施例提出的基于知识图谱的科研实体链接方法本文档来自技高网...
【技术保护点】
1.一种基于知识图谱的科研实体链接方法,其特征在于,包括以下步骤:/nS1,获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;/nS2,将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;/nS3,通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;/nS4,将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。/n
【技术特征摘要】
1.一种基于知识图谱的科研实体链接方法,其特征在于,包括以下步骤:
S1,获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;
S2,将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;
S3,通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;
S4,将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。
2.根据权利要求1所述的基于知识图谱的科研实体链接方法,其特征在于,所述S1进一步包括:
通过正则化表达式去除所述隶属信息集合中的无关信息,以及根据字符串中字符所对应的字符编码的区间判断是否为乱码,将乱码移除。
3.根据权利要求1所述的基于知识图谱的科研实体链接方法,其特征在于,使用基于词的n-gram模型对所述字符串进行多重分割。
4.根据权利要求1所述的基于知识图谱的科研实体链接方法,其特征在于,所述S2进一步包括:
通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配,找到每个词可能表达的实体集合G,表示为:h(w)=G=I+P,其中,I表示知识图谱中的实例集合,P表示知识图谱中的概念集合。
5.根据权利要求1所述的基于知识图谱的科研实体链接方法,其特征在于,所述候选集实体选择模型为:
其中,函数cls()表示最长公共子序列算法,med()函数表示最小编辑距离算法,科研成果中学者的隶属a去除标点符号后表示为a',候选集合C中的元素c去除标点符号后表示为c'。
...
【专利技术属性】
技术研发人员:唐杰,邵洲,刘德兵,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。