针对作者消歧的信息处理装置、方法和介质制造方法及图纸

技术编号:26304134 阅读:46 留言:0更新日期:2020-11-10 19:59
公开了一种针对作者消歧的信息处理装置、方法和介质。所述装置包括:图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。

【技术实现步骤摘要】
针对作者消歧的信息处理装置、方法和介质
本公开涉及信息处理的
,具体地涉及针对作者消歧的信息处理装置和方法。
技术介绍
这个部分提供了与本公开有关的背景信息,这不一定是现有技术。对于基于文献计量数据以及研究评估目的的大部分研究,必须能够将特定的书目记录归于个体研究人员。一个实际的问题是在这个过程中存在一定程度的模糊性,这被称为作者消歧。该问题以两种方式表现出来:给定的个体可以被识别为两个或更多个作者,或者两个或更多个个体可以被识别为单个作者。考虑到在大多数学科中活跃的大量研究人员,作者姓名并不能明显区分开来是作者消歧问题产生的根本原因。
技术实现思路
这个部分提供了本公开的一般概要,而不是其全部范围或其全部特征的全面披露。本公开的目的在于提供一种采用知识图相似度进行作者消歧的技术方案。其中,使用从知识图提取的节点序列来计算相似度。本公开通过使用不同节点之间的关系提供了更有效的作者消歧的方法。根据本公开的一方面,提供了一种针对作者消歧的信息处理装置,包括:图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。根据本公开的另一方面,提供了一种针对作者消歧的信息处理方法,包括:基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;遍历所构建的知识图谱,以获得有关作者的节点序列;针对所述节点序列,基于所述属性进行节点对齐;以及计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。根据本公开的另一方面,提供了一种程序产品,该程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本公开的针对作者消歧的信息处理方法。根据本公开的另一方面,提供了一种机器可读存储介质,其上携带有根据本公开的程序产品。从在此提供的描述中,进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本公开的范围。附图说明在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本公开的范围。在附图中:图1为根据本公开的一个实施例的针对作者消歧的信息处理装置100的框图;图2示例性示出根据本公开的一个实施例的知识图谱的一部分;图3为根据本公开的一个实施例的针对作者消歧的信息处理方法的流程图;以及图4为其中可以实现根据本公开的实施例的针对作者消歧的信息处理装置和方法的通用个人计算机的示例性结构的框图。虽然本公开容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本公开限制到公开的具体形式,而是相反地,本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。具体实施方式现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的,而不旨在限制本公开、应用或用途。提供了示例实施例,以便本公开将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子,以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本公开的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。本公开的目的在于提供一种采用知识图相似度进行作者消歧的技术方案。其中,使用从知识图提取的节点序列来计算相似度。本公开通过使用不同节点之间的关系提供了更有效的作者消歧的方法。根据本公开的一个实施例,提供了一种针对作者消歧的信息处理装置,包括:图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。如图1所示,根据本公开的针对作者消歧的信息处理装置可以包括图谱构建单元101、遍历单元102、对齐单元103和计算单元104。首先,图谱构建单元101可以配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体。其中,所述文献库可以是现有技术中的任何一个文献库或多个文献库的组合。并且其中,所述实体可以是例如作者、文章、所属机构、共同作者、电邮、地址、文章标题、摘要或关键字等。这里,本领域技术人员应该清楚,上述实体仅是示例性的,本公开并不限于此。根据本公开的一个实施例,图谱构建单元101可以配置成基于如作者实体、所属机构实体和文章实体来构建知识图谱。如图2所示,首先从文献库中提取了几个作者例如陈晓丽、所属机构例如山西医科大学和文章例如太原社区人群心房颤动影响因素分析的实体,然后这些实体通过其间的关系例如从属或文章连接在一起,进而构建了一个知识图谱。这里,本领域技术人员应该清楚,由于篇幅起见,图2仅示例性地示出知识图谱的一部分。本公开并不限于图2所示。接下来,遍历单元102可以配置成遍历所构建的知识图谱,以获得有关作者的节点序列。例如,如图2所示,遍历单元102使用根据本公开的一个实施例的广度优先遍历方法来遍历所述知识图谱,从作者陈晓丽节点(左起第一个陈晓丽节点)出发,可以获得有关作者陈晓丽的以下节点序列:[“陈晓丽”][“山西医科大学”][“太原社区人群心房颤动影响因素分析”][“王红宇”]。从中间一个陈晓丽节点出发,可以获得有关作者陈晓丽的以下节点序列:[“陈晓丽”][“山西医科大学第二医院心电信息科”][“太原社区人群心房颤动现况”][“王红宇”,“张红宇”,“肖传实”]。从最右一个陈晓丽节点出发,可以获得有关作者陈晓丽的以下节点序列:[“陈晓丽”][“江西省万安县中医院”][“生脉养心方治疗急性冠脉综合征”][“曾星华”]。这里,本领域技术人员应该清楚,上述节点序列仅是示例性的,本公开并不限于此。此外,本领域技术人员应该清楚,上述广度优先遍历方法也仅是示例性的,本领域技术人员可以使用任何现有技术中的遍历方法。根据本公开的另一个实施例,遍历单元102可以使用深度优先遍历方法来遍历所述知识图谱。然后,由于不同的节点可能具有不同的属性集,因此,需要对节点进行对齐处理。对齐单元103可以配置成针对所述节点序列,基本文档来自技高网...

【技术保护点】
1.一种针对作者消歧的信息处理装置,包括:/n图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;/n遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;/n对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及/n计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。/n

【技术特征摘要】
1.一种针对作者消歧的信息处理装置,包括:
图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;
遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;
对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及
计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。


2.根据权利要求1所述的装置,其中,所述计算单元进一步配置成:
分别计算两个节点序列中对齐的节点之间的相似度,以获得所述节点序列中针对每个节点的相似度;以及
基于所述节点序列中每个节点的权重使用每个节点的相似度来计算所述节点序列之间的相似度。


3.根据权利要求2所述的装置,还包括归一化单元,其配置成对获得的所述节点序列中针对每个节点的相似度进行归一化处理,其中,使用每个节点的归一化的相似度来计算所述节点序列之间的相似度。


4.根据权利要求3所述的装置,其中,当所述节点序列之间的相似度大于预定阈值时,进行所述作者消歧。


5.根据权利要求1所述的装置,其...

【专利技术属性】
技术研发人员:夏迎炬郑仲光孟遥陈炎
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1