【技术实现步骤摘要】
基于知识图谱的科研实体链接方法及装置
本专利技术涉及信息检索
,特别涉及一种基于知识图谱的科研实体链接方法及装置。
技术介绍
科研成果中学者的隶属(即affiliation)展现了科研机构参与该科研创新的情况。但是该表示方式存在着歧义性和模糊性,如果将科研成果中的学者的隶属映射到现实社会中的科研实体上,则能够很好的避免其带来的歧义性和模糊性。科研成果中科研实体是以学者的隶属所存在的,即现实世界中所指的科研机构。由于一系列的原因导致该表达存在着较大的歧义性和模糊性。主要的影响因素有:英文名翻译方法的不同、机构合并与更名、拼写错误、顶级机构与下级本门难以区分、不同的书写方式、印刷错误或OCR错误、机构简写、翻译错误、信息的遗漏、机构同名等。单从语义、语法等角度很难消除其歧义性和模糊性。该问题很早就引起了大家的重视,主要采用基于规则的方法和基于知识的方法来实现。基于规则的方法中,代表性的工作有:Jonnalagadda等人提出的基于多字典的多层规则匹配、Jiang等人提出的一种基于标准化压缩距离的聚类方法、H ...
【技术保护点】
1.一种基于知识图谱的科研实体链接方法,其特征在于,包括以下步骤:/nS1,获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;/nS2,将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;/nS3,通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;/nS4,将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。/n
【技术特征摘要】
1.一种基于知识图谱的科研实体链接方法,其特征在于,包括以下步骤:
S1,获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;
S2,将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;
S3,通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;
S4,将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。
2.根据权利要求1所述的基于知识图谱的科研实体链接方法,其特征在于,所述S1进一步包括:
通过正则化表达式去除所述隶属信息集合中的无关信息,以及根据字符串中字符所对应的字符编码的区间判断是否为乱码,将乱码移除。
3.根据权利要求1所述的基于知识图谱的科研实体链接方法,其特征在于,使用基于词的n-gram模型对所述字符串进行多重分割。
4.根据权利要求1所述的基于知识图谱的科研实体链接方法,其特征在于,所述S2进一步包括:
通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配,找到每个词可能表达的实体集合G,表示为:h(w)=G=I+P,其中,I表示知识图谱中的实例集合,P表示知识图谱中的概念集合。
5.根据权利要求1所述的基于知识图谱的科研实体链接方法,其特征在于,所述候选集实体选择模型为:
其中,函数cls()表示最长公共子序列算法,med()函数表示最小编辑距离算法,科研成果中学者的隶属a去除标点符号后表示为a',候选集合C中的元素c去除标点符号后表示为c'。
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。