对实体进行语义化的信息处理装置和信息处理方法制造方法及图纸

技术编号:18237731 阅读:53 留言:0更新日期:2018-06-17 00:57
本申请公开了一种用于对实体进行语义化的信息处理装置和信息处理方法,该信息处理装置包括:关联度计算单元,被配置为计算实体与语义之间的关联度;排序单元,被配置为根据关联度计算单元计算的关联度以及基于实体的上下文的排序权重,对语义进行排序;以及更新单元,被配置为根据用户基于排序对与实体对应的语义的选择,对排序单元在排序中使用的排序权重进行更新。 1

Information processing device and information processing method for entity semantic

This application discloses an information processing device and information processing method for the semantics of the entity. The information processing device includes the correlation degree calculation unit, which is configured as the degree of association between the computing entity and the semantics; the sorting unit is configured as the correlation degree calculated according to the correlation degree calculation unit and the entity based on the entity. The sort weight of the context, sort the semantics, and the update unit, which is configured to update the sort weight used by the sort unit in the sort according to the choice of the semantics corresponding to the entity based on the user's sort. One

【技术实现步骤摘要】
对实体进行语义化的信息处理装置和信息处理方法
本申请的实施例涉及信息处理领域,具体地涉及互联网和自然语言处理领域,更具体地涉及一种对实体进行语义化的信息处理装置和信息处理方法以及程序。
技术介绍
语义网络是一种使用可以被计算机理解的方式描述事物的网络,其目的是通过对不同实体进行语义化来发现实体之间的关联,从而使整个互联网成为一个通用的信息交换媒介。其中,实体可以包括词语、文章、网页以及图片、视频等各种类型的内容。语义网络虽然是一种更加高效和更加合理的网络,但实现起来却是一项复杂而浩大的工程。目前语义网络的体系结构正在建设中,而语义网络建设中最关键的过程就是实体的语义化。为了保证该语义化过程的准确性,可以由领域内的专家进行标注,建立实体与语义例如包括语义本体和语义资源之间的关联关系。此外,还可以对实体进行自动化的语义标注,该过程能够节省人力,不需要领域专家对实体进行直接的语义标注,只需要建立一个包含多种计算设定和规则设定的工具之后,即可使用。但是,对实体进行自动标注的过程往往会产生很多的错误,这是因为计算方式和关联判定规则的设定难以很好地覆盖各种可能性。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。根据本专利技术的一个方面,提供了一种用于对实体进行语义化的信息处理装置,包括:关联度计算单元,被配置为计算实体与语义之间的关联度;排序单元,被配置为根据关联度计算单元计算的关联度基于基于实体的上下文的排序权重,对语义进行排序;以及更新单元,被配置为根据用户基于排序对与实体对应的语义的选择,对排序单元在排序中使用的排序权重进行更新。根据本专利技术的另一个方面,提供了一种用于对实体进行语义化的信息处理方法,包括:计算实体与语义之间的关联度;根据所计算的关联度以及基于实体的上下文的排序权重,对语义进行排序;以及根据用户基于排序对与实体对应的语义的选择,对排序中使用的排序权重进行更新。根据本专利技术的另一个方面,还提供了一种信息处理装置,包括:一个或多个处理电路,被配置成:计算实体与语义之间的关联度;根据所计算的关联度以及基于实体的上下文的排序权重,对语义进行排序;以及根据用户基于排序对与实体对应的语义的选择,对排序中使用的排序权重进行更新。依据本专利技术的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。根据本申请的用于对实体进行语义化的信息处理装置和方法通过对可能与实体对应的语义进行排序并将该排序的结果提供给用户,进而基于用户的反馈来对排序过程中涉及的参数进行调整,能够实现高效且准确的实体语义标注。通过以下结合附图对本专利技术的优选实施例的详细说明,本专利技术的这些以及其他优点将更加明显。附图说明为了进一步阐述本申请的以上和其它优点和特征,下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本申请的典型示例,而不应看作是对本申请的范围的限定。在附图中:图1是示出了根据本申请的一个实施例的用于对实体进行语义化的信息处理装置的结构框图;图2是示出了根据本申请的一个实施例的排序单元的结构框图;图3a和图3b示出了根据本申请的一个实施例的信息处理装置的一个应用示例的两个界面示例;图4示出了根据本申请的一个实施例的用于对实体进行语义化的信息处理装置的结构框图;图5示出了根据本申请的一个实施例的用于对实体进行语义化的信息处理方法的流程图;图6示出了图5中的步骤S12的子步骤的流程图;以及图7是其中可以实现根据本专利技术的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的设备结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。下文中的描述按如下顺序进行:1.信息处理装置2.信息处理方法3.用以实施本申请的装置和方法的计算设备[1.信息处理装置]图1示出了根据本申请的实施例的用于对实体进行语义化的信息处理装置100的结构框图,信息处理装置100包括:关联度计算单元101,被配置为计算实体与语义之间的关联度;排序单元102,被配置为根据关联度计算单元101计算的关联度以及基于实体的上下文的排序权重,对语义进行排序;以及更新单元103,被配置为根据用户基于排序对与实体对应的语义的选择,对排序单元102在排序中使用的排序权重进行更新。其中,关联度计算单元101、排序单元102和更新单元103例如可以由一个或多个处理电路实现,该处理电路例如可以实现为芯片。如前所述,实体可以为词语、文章、网页、图片、视频等各种类型的内容。对实体进行语义化即为对实体的语义进行标注,从而使得计算机能够理解该实体。该标注可以通过将实体与预定数据库中的语义进行关联来进行,预定数据库可以为已经建立的各种知识库,比如DBpedia的知识库、Schema知识库、OM知识库等。在下文中,为了方便,将以词语作为实体的示例并且使用DBpedia知识库为例进行描述,但是应该理解这仅是示例性的,本申请并不限于此。本实施例的信息处理装置100可以针对实体获得预定数据库中可能与其对应的候选语义,并且由用户来从候选语义中进行手动选择,从而建立关联关系,实现该实体的语义化。此外,信息处理装置100还通过根据用户的手动选择的结果来对候选语义的排序中涉及的权重参数进行调整,以使得排序的结果更加准确,从而进一步提高效率。下面将参照附图来详细描述信息处理装置100的各个单元的结构和功能。首先,关联度计算单元101计算实体与语义之间的关联度。该关联度也可以称为相似度,用于评估实体与相应的语义具有对应关系的可能性。应该理解,可以采用各种适当的方式来进行该关联度的计算。在一个示例中,关联度计算单元101被配置为根据如下中的至少之一来计算实体与语义之间的关联度:实体与语义的表义部分的编辑距离、实体与语义之间的主题向量相似度、实体与语义之间的词嵌入向量相似度。例如,实体与语义的表义部分的编辑距离可以具体如下计算。如前所述,在该示例中采用的预定数据库为DBpedia的知识库。DBpedia的知识库包括两个部分,ontology库(http://dbpedia.org/ontology/)和resource库(http://dbpedia.org/resou本文档来自技高网...
对实体进行语义化的信息处理装置和信息处理方法

【技术保护点】
1.一种用于对实体进行语义化的信息处理装置,包括:

【技术特征摘要】
1.一种用于对实体进行语义化的信息处理装置,包括:关联度计算单元,被配置为计算实体与语义之间的关联度;排序单元,被配置为根据所述关联度计算单元计算的所述关联度以及基于所述实体的上下文的排序权重,对所述语义进行排序;以及更新单元,被配置为根据用户基于所述排序对与所述实体对应的语义的选择,对所述排序单元在排序中使用的所述排序权重进行更新。2.根据权利要求1所述的信息处理装置,其中,所述关联度计算单元被配置为根据如下中的至少之一来计算所述实体与所述语义之间的关联度:所述实体与所述语义的表义部分的编辑距离、所述实体与所述语义之间的主题向量相似度、所述实体与所述语义之间的词嵌入向量相似度。3.根据权利要求1或2所述的信息处理装置,其中,所述实体为词语,所述排序单元被配置为根据所述关联度计算单元计算的所述关联度,基于所述实体所属的成分以及所述实体的周边实体对所述语义进行排序,所述周边实体为所述实体周边的其他实体中的至少之一。4.根据权利要求3所述的信息处理装置,其中,所述排序单元包括:权重分配子单元,被配置为基于所述实体所属的成分和/或所述周边实体,为所述关联度超过预定阈值的每个候选语义分配权重;排序子单元,被配置为根据所述权重分配子单元分配的权重,对所述候选语义进行排序。5....

【专利技术属性】
技术研发人员:宋双永缪庆亮孟遥
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1