一种实体嵌入方法、装置、介质及设备制造方法及图纸

技术编号:20797109 阅读:26 留言:0更新日期:2019-04-06 10:42
本申请提供了一种实体嵌入方法、装置、介质及设备,该方法包括:基于知识图谱中目标实体的属性信息,确定目标实体的特征向量,作为第一特征向量;从百科数据库中查找与目标实体对应的目标百科页面;确定目标实体转移至目标百科页面中各链接实体的关系转移概率,链接实体为目标百科页面中的链接对应的实体;根据关系转移概率以及该目标实体对应的跳转步数,确定目标实体的参考实体;基于目标实体及目标实体的参考实体,确定目标实体的特征向量,作为第二特征向量;将第一特征向量和第二特征向量进行组合,得到目标实体的混合特征向量。本申请提高了实体嵌入效果,使得后续知识图谱的构建和/或应用效果足够理想。

An Entity Embedding Method, Device, Medium and Equipment

This application provides an entity embedding method, device, medium and device. The method includes: determining the feature vector of the target entity as the first feature vector based on the attribute information of the target entity in the knowledge map; searching the target encyclopedia page corresponding to the target entity from the Encyclopedia database; and determining the relationship between the target entity and the linked entities in the target Encyclopedia page. The transition probability is that the link entity corresponds to the link entity in the target Encyclopedia page; the reference entity of the target entity is determined according to the relationship transition probability and the corresponding jump steps of the target entity; the feature vector of the target entity is determined as the second feature vector based on the reference entity of the target entity and the target entity; the first feature vector and the second feature vector are grouped. Then, the mixed eigenvectors of the target entity are obtained. This application improves the effect of entity embedding and makes the construction and/or application of subsequent knowledge maps ideal.

【技术实现步骤摘要】
一种实体嵌入方法、装置、介质及设备
本申请涉及知识图谱处理
,具体而言,涉及一种实体嵌入方法、装置、介质及设备。
技术介绍
知识图谱(KnowledgeGraph)作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱旨在描述的是真实世界中存在的实体及其关系,一般可以采用三元组表示,该三元组包括头实体、尾实体和关系,实体之间是通过关系相互联结,形成了网状的知识结构。实体嵌入是构建知识图谱的关键技术,其主要目的是应用低维度向量对实体及其关系进行建模。目前常用的实体嵌入方法多是直接从百科数据库中查找属于特定实体的一维向量。这种方法忽略了实体之间的关系,容易出现实体嵌入的准确度较低的问题。
技术实现思路
有鉴于此,本申请的目的在于提供一种实体嵌入方法、装置、介质及设备,能够充分考虑实体间的关系,提高实体嵌入效果。第一方面,本申请实施例提供了一种实体嵌入方法,包括:基于知识图谱中目标实体的属性信息,确定所述目标实体的特征向量,作为第一特征向量;从百科数据库中查找与所述目标实体对应的目标百科页面;确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,所述链接实体为所述目标百科页面中的链接对应的实体;根据所述关系转移概率以及该目标实体对应的跳转步数,确定所述目标实体的参考实体;基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,作为第二特征向量;将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量。可选的,所述确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,具体包括:针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;将所述比值确定为所述目标实体转移至该链接实体的关系转移概率。可选的,所述确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,包括:针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;统计所述百科数据库中同时出现所述目标实体与该链接实体的百科页面数;根据统计的百科页面数以及百科数据库中百科页面的总数量,确定所述目标实体至该链接实体的逆向关系概率;基于所述比值和所述逆向关系概率,确定所述目标实体转移至该链接实体的关系转移概率。可选的,所述基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,具体包括:基于所述目标实体及所述目标实体的参考实体,构建所述目标实体对应的局部子图;将局部子图中各实体的原向量组成目标实体对应的原向量集合;基于所述目标实体对应的原向量集合,确定所述目标实体的特征向量。可选的,所述从百科数据库中查找与所述目标实体对应的目标百科页面,具体包括:针对所述百科数据库中的每个百科页面,生成该百科页面对应的页面标识;以及获取所述知识图谱中预先存储的所述目标实体的实体标识;查找与所述实体标识的内容相同的页面标识;将查找到的页面标识对应的百科页面,确定为与所述目标实体对应的目标百科页面。可选的,所述将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量,具体包括:将所述第一特征向量与所述第二特征向量的加权求和结果,确定为所述目标实体的混合特征向量。第二方面,本申请实施例还提供了一种实体嵌入装置,包括:第一向量确定模块,用于基于知识图谱中目标实体的属性信息,确定所述目标实体的特征向量,作为第一特征向量;页面查找模块,用于从百科数据库中查找与所述目标实体对应的目标百科页面;概率确定模块,用于确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,所述链接实体为所述目标百科页面中的链接对应的实体;实体确定模块,用于根据所述关系转移概率以及该目标实体对应的跳转步数,确定所述目标实体的参考实体;第二向量确定模块,用于基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,作为第二特征向量;混合向量生成模块,用于将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量。可选的,所述概率确定模块,具体用于:针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;将所述比值确定为所述目标实体转移至该链接实体的关系转移概率。第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令时实现如第一方面所述的实体嵌入方法的步骤。第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的实体嵌入方法的步骤。本申请实施例提供的实体嵌入方法、装置、介质及设备,一个目标实体对应百科数据库中一个百科页面且百科页面中包括与目标实体具有一定关联关系的链接实体,通过确定目标实体跳转至相应链接实体的跳转概率以及跳转步数,确定与目标实体有一定关联关系的链接实体,根据确定出的链接实体与目标实体确定目标实体的第二特征向量,并基于目标实体的属性,确定目标实体的第一特征向量,对将第一特征向量和第二特征向量进行组合得到目标实体的混合特征向量表示,从而使得到的目标实体的特征向量综合了目标实体与链接实体之间的关系,进而能够得到较为准确的实体嵌入结果。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例所提供的一种实体嵌入方法的流程图;图2示出了本申请实施例所提供的另一种实体嵌入方法的流程图;图3示出了本申请实施例所提供的又一种实体嵌入方法的流程图;图4示出了本申请实施例所提供的一种实体嵌入方法中参考实体的应用示意图;图5示出了本申请实施例所提供的再一种实体嵌入方法的流程图;图6示出了本申请实施例所提供的一种实体嵌入装置的结构示意图;图7示出了本申请实施例所提供的一种电子设备的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出本文档来自技高网...

【技术保护点】
1.一种实体嵌入方法,其特征在于,包括:基于知识图谱中目标实体的属性信息,确定所述目标实体的特征向量,作为第一特征向量;从百科数据库中查找与所述目标实体对应的目标百科页面;确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,所述链接实体为所述目标百科页面中的链接对应的实体;根据所述关系转移概率以及该目标实体对应的跳转步数,确定所述目标实体的参考实体;基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,作为第二特征向量;将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量。

【技术特征摘要】
1.一种实体嵌入方法,其特征在于,包括:基于知识图谱中目标实体的属性信息,确定所述目标实体的特征向量,作为第一特征向量;从百科数据库中查找与所述目标实体对应的目标百科页面;确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,所述链接实体为所述目标百科页面中的链接对应的实体;根据所述关系转移概率以及该目标实体对应的跳转步数,确定所述目标实体的参考实体;基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,作为第二特征向量;将所述第一特征向量和所述第二特征向量进行组合,得到所述目标实体的混合特征向量。2.根据权利要求1所述的方法,其特征在于,所述确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,具体包括:针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;将所述比值确定为所述目标实体转移至该链接实体的关系转移概率。3.根据权利要求1所述的方法,其特征在于,所述确定所述目标实体转移至所述目标百科页面中各链接实体的关系转移概率,包括:针对所述目标百科页面中的每个链接实体,确定该链接实体在所述目标百科页面中出现的次数与第一数值的比值,其中,所述第一数值为所有链接实体在所述目标百科页面中出现的次数的和值;统计所述百科数据库中同时出现所述目标实体与该链接实体的百科页面数;根据统计的百科页面数以及百科数据库中百科页面的总数量,确定所述目标实体至该链接实体的逆向关系概率;基于所述比值和所述逆向关系概率,确定所述目标实体转移至该链接实体的关系转移概率。4.根据权利要求1所述的方法,其特征在于,所述基于所述目标实体及所述目标实体的参考实体,确定所述目标实体的特征向量,具体包括:基于所述目标实体及所述目标实体的参考实体,构建所述目标实体对应的局部子图;将所述局部子图中各实体的原向量组成目标实体对应的原向量集合;基于所述目标实体对应的原向量集合,确定所述目标实体的特征向量。5.根据权利要求1所述的方法,其特征在于,所述从百科数据库中查找与所述目标实体对应的目标百科...

【专利技术属性】
技术研发人员:夏劲夫郑凯段立新江建军李彩虹
申请(专利权)人:国信优易数据有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1