一种相关实体确定方法、装置及计算设备制造方法及图纸

技术编号:18940574 阅读:24 留言:0更新日期:2018-09-15 11:05
本发明专利技术实施例提供一种相关实体确定方法、装置及计算设备,该方法包括:获取目标知识图谱,所述目标知识图谱至少具有目标实体;确定所述目标知识图谱中,所述目标实体的候选实体集合;所述候选实体集合包括:可触达所述目标实体的各边数对应的候选实体;根据所述候选实体集合,确定所述目标实体的相关实体。本发明专利技术实施例可以提升相关实体确定结果的召回率。

Method, device and computing device for determining related entities

The embodiment of the invention provides a method, apparatus and computing device for determining related entities, which includes: acquiring a target knowledge map with at least a target entity; determining a candidate entity set of the target entity in the target knowledge map; and the candidate entity set comprising: reachable. A candidate entity corresponding to the number of edges of the target entity is identified, and the related entity of the target entity is determined according to the set of candidate entities. The embodiment of the invention can enhance the recall rate of the related entities to determine the results.

【技术实现步骤摘要】
一种相关实体确定方法、装置及计算设备
本专利技术涉及数据处理
,具体涉及一种相关实体确定方法、装置及计算设备。
技术介绍
相关实体可以认为是在同一查询中与查询到的目标实体共现的其他实体,对于用户获取查询到的目标实体的相关信息具有重要意义;比如用户在输入查询语句后,搜索引擎除了将搜索到的与该查询语句对应的目标实体(比如网页链接)展现给用户外,还会将查询过程中与该目标实体共现的相关实体推荐给用户,以引导用户进行再次搜索,提升用户获得相关信息的便利性;一种典型的场景是,搜索引擎在搜索到与查询语句对应的目标实体后,除在搜索结果页面显示所搜索到的目标实体,还可在搜索结果页面的设定区域(比如左侧区域)显示所推荐的相关实体,以便用户再次搜索。本专利技术的专利技术人发现,目前主要是通过开放文本(比如新闻文本)来统计与一目标实体共现的其他实体,以确定一目标实体的相关实体;然而,开放文本录入的内容具有一定的局限性和时效性,这使得通过开放文本统计的相关实体确定结果不可控,导致相关实体确定结果的召回率较低(召回率表示确定的相关实体数量和相关实体总数量的比值,是确定结果全面性的一种体现)。
技术实现思路
有鉴于此,本专利技术实施例提供一种相关实体确定方法、装置及计算设备,以提升相关实体确定结果的召回率。为实现上述目的,本专利技术实施例提供如下技术方案:一种相关实体确定方法,包括:获取目标知识图谱,所述目标知识图谱至少具有目标实体;确定所述目标知识图谱中,所述目标实体的候选实体集合;所述候选实体集合包括:可触达所述目标实体的各边数对应的候选实体;根据所述候选实体集合,确定所述目标实体的相关实体。本专利技术实施例还提供一种相关实体确定装置,包括:目标知识图谱获取模块,用于获取目标知识图谱,所述目标知识图谱至少具有目标实体;候选实体集合确定模块,用于确定所述目标知识图谱中,所述目标实体的候选实体集合;所述候选实体集合包括:可触达所述目标实体的各边数对应的候选实体;相关实体确定模块,用于根据所述候选实体集合,确定所述目标实体的相关实体。本专利技术实施例还提供一种计算设备,包括上述所述的相关实体确定装置。基于上述技术方案,本专利技术实施例提供的相关实体确定方法包括:获取目标知识图谱,所述目标知识图谱至少具有目标实体;确定所述目标知识图谱中,所述目标实体的候选实体集合;所述候选实体集合包括:可触达所述目标实体的各边数对应的候选实体;根据所述候选实体集合,确定所述目标实体的相关实体。可以看出,本专利技术实施例采用至少具有目标实体的目标知识图谱,挖掘目标知识图谱中可触达所述目标实体的候选实体集合,进而根据所述候选实体集合,确定所述目标实体的相关实体,由于目标知识图谱收录的目标实体的相关信息更为全面,因此可以极大概率的挖掘到目标实体历史以往全面的相关信息,使得所挖掘出的目标实体的相关实体结果较为全面,提升所确定的目标实体的相关实体结果的召回率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的相关实体确定方法的流程图;图2为本专利技术实施例提供的获取目标知识图谱的方法流程图;图3为本专利技术实施例提供的相关实体确定方法的另一流程图;图4为目标知识图谱中实体间关系的示意图;图5为根据候选实体集合,确定目标实体的相关实体的方法流程图;图6为本专利技术实施例提供的相关实体确定方法的再一流程图;图7为本专利技术实施例提供的确定相关实体的推荐排序的方法流程图;图8为本专利技术实施例提供的确定相关实体的推荐排序的另一方法流程图;图9为本专利技术实施例提供的确定相关实体的推荐排序的再一方法流程图;图10为本专利技术实施例提供的相关实体确定装置的结构框图;图11为本专利技术实施例提供的相关实体确定装置的另一结构框图;图12为本专利技术实施例提供的计算设备的硬件结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的相关实体确定方法的流程图,该方法可应用于具有数据运算能力的计算设备,通过该计算设备执行图1所示方法对应的程序,可实现相关实体的确定;该计算设备可以选用网络侧的服务器,也可以选用用户侧的电脑等电子设备;参照图1,本专利技术实施例提供的相关实体确定方法可以包括:步骤S100、获取目标知识图谱,所述目标知识图谱至少具有目标实体。目标实体是本专利技术实施例待确定出相关实体的实体,本专利技术实施例可指定需要确定出相关实体的目标实体,且目标知识图谱中具有该目标实体。知识图谱旨在描述真实世界中存在的各种实体或概念;每个实体或概念可用一个全局唯一确定的ID(身份标识号)来标识,每个属性-值对(attribute-valuepair)可用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联;因此,知识图谱主要由节点以及连接节点之间的边构成,其中,一个节点可以表示一个实体或概念,连接节点的边则可由所连接节点间的属性或关系构成;本专利技术实施例中,知识图谱的数据源可通过收集来自百科类站点和各种垂直站点的结构化数据,以覆盖大部分常识性知识实现,这些数据普遍质量较高,但更新比较慢;而另一方面,知识图谱的数据来源也可通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值实现,以此丰富实体的描述;此外,通过搜索日志(querylog)发现新的实体或新的实体属性,也可不断扩展知识图谱的覆盖率;在一种可能的实现中,本专利技术实施例可通过包含目标实体的数据源构建出目标知识图谱。为提升后续相关实体确定结果的全面性,本专利技术实施例也可通过包含目标实体的数据源所构建的知识图谱,理解包含目标实体的输入文本的含义,使得目标实体的相关信息的理解更为全面;在实现上,本专利技术实施例可获取包含目标实体的输入文本,在通过包含目标实体的数据源构建出知识图谱后,将输入文本中给定的命名实体,映射到所构建的知识图谱的目标实体上,得到目标知识图谱。步骤S110、确定所述目标知识图谱中,所述目标实体的候选实体集合;所述候选实体集合包括:可触达所述目标实体的各边数对应的候选实体。目标知识图谱中,实体可以认为是一个节点,实体之间可通过边连接;目标实体可能通过一条边触达一候选实体,也可能通过多条边触达一候选实体,本专利技术实施例可从所述目标实体出发,确定目标实体通过一条边触达的实体,得到边数一对应的候选实体,从目标实体出发,确定目标实体通过两条边触达的实体,得到边数二对应的候选实体,以此类推,得到各边数对应的候选实体。可选的,在一种实现上,本专利技术实施例可设定边数范围,该边数范围可以包括多个边数,则对于边数范围中的各边数,本专利技术实施例可确定从所述目标实体出发以相应边数触达的候选实体,得到可触达所述目标实体的各边数对应的候选实体;比如,设定边数范围包括边数一至边数三,则对于边数一,本专利技术实施本文档来自技高网...

【技术保护点】
1.一种相关实体确定方法,其特征在于,包括:获取目标知识图谱,所述目标知识图谱至少具有目标实体;确定所述目标知识图谱中,所述目标实体的候选实体集合;所述候选实体集合包括:可触达所述目标实体的各边数对应的候选实体;根据所述候选实体集合,确定所述目标实体的相关实体。

【技术特征摘要】
1.一种相关实体确定方法,其特征在于,包括:获取目标知识图谱,所述目标知识图谱至少具有目标实体;确定所述目标知识图谱中,所述目标实体的候选实体集合;所述候选实体集合包括:可触达所述目标实体的各边数对应的候选实体;根据所述候选实体集合,确定所述目标实体的相关实体。2.根据权利要求1所述的相关实体确定方法,其特征在于,所述获取目标知识图谱包括:获取输入文本,所述输入文本中预先给定有多个命名实体,所述命名实体至少包括所述目标实体;将输入文本中给定的命名实体,映射到知识图谱的目标实体上,得到目标知识图谱;所述知识图谱由包含目标实体的数据源构建。3.根据权利要求1或2所述的相关实体确定方法,其特征在于,所述确定所述目标知识图谱中,所述目标实体的候选实体集合包括:获取预设定的边数范围,所述边数范围包括多个边数;根据所述边数范围所包括的各边数,确定所述目标知识图谱中,可触达所述目标实体的各边数对应的候选实体,得到所述目标实体的候选实体集合。4.根据权利要求1所述的相关实体确定方法,其特征在于,所述根据所述候选实体集合,确定所述目标实体的相关实体包括:若所述候选实体集合中,存在对应不同边数的重复的候选实体,将所述候选实体集合中重复的候选实体进行去重处理,以保留重复的候选实体中边数最小的候选实体;将去重处理后的候选实体集合所包括的候选实体,作为所述目标实体的相关实体。5.根据权利要求4所述的相关实体确定方法,其特征在于,还包括:确定各相关实体的推荐排序,以根据各相关实体的推荐排序进行相关实体的推荐。6.根据权利要求5所述的相关实体确定方法,其特征在于,所述确定各相关实体的推荐排序包括:在开放文本中统计各相关实体与目标实体的相关程度分数;确定各相关实体在所述目标知识图谱中对应的权重分数;对于各相关实体,将相关实体对应的相关程度分数与权重分数相加,得到各相关实体对应的排序分数;根据各相关实体对应的排序分数,确定各相关实体的推荐排序,其中,排序分数越高,推荐排序越靠前。7.根据权利要求5所述的相关实体确定方法,其特征在于,所述确定各相关实体的推荐排序包括:在开放文本中统计各相关实体与目标实体的相关程度分数,根据各相关实体与目标实体的相关程度分数,确定各相关实体的推荐排序,其中,相关程分数度越高,推荐排序越靠前;或,确定各相关实体在所述目标知识图谱中对应的权重分数,根据各相关实体对应的权重分数,确定各相关实体的推荐排序,其中,权重分数越高,推荐排序越靠前。8.根据权利要求6或7所述的相关实体确定方法,其特征在于,所述确定各相关实体在所述目标知识图谱中对应的权重分数包括:以去重处理后的候选实体集合以及所述目标实体为范围,确定各相关实体可触达的最近实体;根据预设定的目标知识图谱中各关系相应的关系权重,确定各相关实体与可触达的最近实体的关系对应的关系权重,得到各相关实体对应的关系权重;对于各相关实体,将相关实体对应的边数的边数权重,与对应的关系权重相结合,得到各相关实体对应的权重分数;其中,边数越大,边数权重越小。9.根据权利要求6或7所述的相关实体确定方法,其特征在于,所述在开放文本中统计各相关实体与目标实体的相关程度分数包括:对于一相关实体,确定同时出现该相关实体和目标实体的文本数量与文本总数量的第一比值,出现该相关实体的文本...

【专利技术属性】
技术研发人员:李潇张锋王策
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1