用于生成节点的向量表示的方法和装置制造方法及图纸

技术编号:24409722 阅读:24 留言:0更新日期:2020-06-06 08:39
本申请实施例公开了用于生成节点的向量表示的方法和装置,涉及计算机技术、知识图谱领域。该方法的一具体实施方式包括:获取树结构中的节点的标识和相似节点集合,其中,节点是知识图谱中的实体;构造向量化模型,其中,向量化模型的参数是节点的初始向量表示;将节点的标识作为输入,将节点的相似节点集合作为输出,通过迭代更新节点的初始向量表示对向量化模型进行训练,直至向量化模型收敛,得到节点的向量表示。该实施方式利用节点的相似节点集合训练以节点的初始向量表示为参数的向量化模型,得到节点的向量表示,能够将树结构嵌入到向量空间,捕捉到可传递的节点相似关系。

Method and apparatus for generating vector representation of nodes

【技术实现步骤摘要】
用于生成节点的向量表示的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成节点的向量表示的方法和装置。
技术介绍
知识图谱中,树结构是描述集合或可传递层次关系的一种常用数据结构,常被用来表征知识的上下位关系,如概念体系结构、百科的类别结构、知网、概念网等知识图谱数据。目前,常用的知识图谱嵌入到向量空间的方法主要包括以下三种:其一,基于图结构中的路径信息,使用有偏随机游走采样,将图结构嵌入到向量空间中,训练得到节点的向量表示;其二,利用图注意力机制学习图中的节点及边关系,训练得到知识图谱中节点及边关系的向量表示;其三,基于三元组关系学习图中节点及边关系,训练得到节点的向量表示。然而,上述三种方法均无法捕捉到可传递的语义相似关系,不适用于树结构知识图谱。
技术实现思路
本申请实施例提出了用于生成节点的向量表示的方法和装置。第一方面,本申请实施例提出了一种用于生成节点的向量表示的方法,包括:获取树结构中的节点的标识和相似节点集合,其中,节点是知识图谱中的实体;构造向量化模型,其中,向量化模型的参数是节点的初始向量表示;将节点的标识作为输入,将节点的相似节点集合作为输出,通过迭代更新节点的初始向量表示对向量化模型进行训练,直至向量化模型收敛,得到节点的向量表示。在一些实施例中,获取树结构中的节点的相似节点集合,包括:基于节点在树结构上单向遍历,得到节点的相似节点集合。在一些实施例中,基于节点在树结构上单向遍历,得到节点的相似节点集合,包括:基于节点在树结构上向下采样或向上采样,得到节点的相似节点集合,其中,向下采样的相似度偏序为:{后代节点}>{父节点}>{父节点的其他后代节点}>{祖先节点}>{祖先节点的其他后代节点},向上采样的相似度偏序为:{父节点、子节点、兄弟节点}>{祖先节点、后代节点}>{祖先节点的其他节点}。在一些实施例中,基于节点在树结构上向下采样,得到节点的相似节点集合,包括:基于节点在树结构上向下采样到节点的后代节点;确定节点的后代节点的数目是否小于最小相似节点数目阈值;若不小于最小相似节点数目阈值,基于节点的后代节点生成节点的相似节点集合;若小于最小相似节点数目阈值,按照向下采样的相似度偏序继续在树结构上采样,直至所采样到的节点的数目不小于最小相似节点数目阈值,基于所采样到的节点生成节点的相似节点集合。在一些实施例中,基于节点在树结构上向上采样,得到节点的相似节点集合,包括:基于节点在树结构上向上采样到节点的父节点、子节点和兄弟节点;确定节点的父节点、子节点和兄弟节点的总数目是否小于最小相似节点数目阈值;若不小于最小相似节点数目阈值,基于节点的父节点、子节点和兄弟节点生成节点的相似节点集合;若小于最小相似节点数目阈值,按照向上采样的相似度偏序继续在树结构上采样,直至所采样到的节点的数目不小于最小相似节点数目阈值,基于所采样到的节点生成节点的相似节点集合。在一些实施例中,向量化模型以下一项:跳字模型、卷积神经网络和连续词袋模型。第二方面,本申请实施例提出了一种用于生成节点的向量表示的装置,包括:获取单元,被配置成获取树结构中的节点的标识和相似节点集合,其中,节点是知识图谱中的实体;构造单元,被配置成构造向量化模型,其中,向量化模型的参数是节点的初始向量表示;训练单元,被配置成将节点的标识作为输入,将节点的相似节点集合作为输出,通过迭代更新节点的初始向量表示对向量化模型进行训练,直至向量化模型收敛,得到节点的向量表示。在一些实施例中,获取单元包括:遍历子单元,被配置成基于节点在树结构上单向遍历,得到节点的相似节点集合。在一些实施例中,遍历子单元包括:采样模块,被配置成基于节点在树结构上向下采样或向上采样,得到节点的相似节点集合,其中,向下采样的相似度偏序为:{后代节点}>{父节点}>{父节点的其他后代节点}>{祖先节点}>{祖先节点的其他后代节点},向上采样的相似度偏序为:{父节点、子节点、兄弟节点}>{祖先节点、后代节点}>{祖先节点的其他节点}。在一些实施例中,采样模块进一步被配置成:基于节点在树结构上向下采样到节点的后代节点;确定节点的后代节点的数目是否小于最小相似节点数目阈值;若不小于最小相似节点数目阈值,基于节点的后代节点生成节点的相似节点集合;若小于最小相似节点数目阈值,按照向下采样的相似度偏序继续在树结构上采样,直至所采样到的节点的数目不小于最小相似节点数目阈值,基于所采样到的节点生成节点的相似节点集合。在一些实施例中,采样模块进一步被配置成:基于节点在树结构上向上采样到节点的父节点、子节点和兄弟节点;确定节点的父节点、子节点和兄弟节点的总数目是否小于最小相似节点数目阈值;若不小于最小相似节点数目阈值,基于节点的父节点、子节点和兄弟节点生成节点的相似节点集合;若小于最小相似节点数目阈值,按照向上采样的相似度偏序继续在树结构上采样,直至所采样到的节点的数目不小于最小相似节点数目阈值,基于所采样到的节点生成节点的相似节点集合。在一些实施例中,向量化模型以下一项:跳字模型、卷积神经网络和连续词袋模型。第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的用于生成节点的向量表示的方法和装置,首先获取树结构中的节点的标识和相似节点集合;然后构造向量化模型;最后将节点的标识作为输入,将节点的相似节点集合作为输出,通过迭代更新节点的初始向量表示对向量化模型进行训练,直至向量化模型收敛,得到节点的向量表示。利用节点的相似节点集合训练以节点的初始向量表示为参数的向量化模型,得到节点的向量表示,能够将树结构嵌入到向量空间,捕捉到可传递的节点相似关系。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构;图2是根据本申请的用于生成节点的向量表示的方法的一个实施例的流程图;图3示出了树结构的示意图;图4是根据本申请的用于生成节点的向量表示的方法的又一个实施例的流程图;图5是根据本申请的用于生成节点的向量表示的装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的本文档来自技高网...

【技术保护点】
1.一种用于生成节点的向量表示的方法,包括:/n获取树结构中的节点的标识和相似节点集合,其中,所述节点是知识图谱中的实体;/n构造向量化模型,其中,所述向量化模型的参数是所述节点的初始向量表示;/n将所述节点的标识作为输入,将所述节点的相似节点集合作为输出,通过迭代更新所述节点的初始向量表示对所述向量化模型进行训练,直至所述向量化模型收敛,得到所述节点的向量表示。/n

【技术特征摘要】
1.一种用于生成节点的向量表示的方法,包括:
获取树结构中的节点的标识和相似节点集合,其中,所述节点是知识图谱中的实体;
构造向量化模型,其中,所述向量化模型的参数是所述节点的初始向量表示;
将所述节点的标识作为输入,将所述节点的相似节点集合作为输出,通过迭代更新所述节点的初始向量表示对所述向量化模型进行训练,直至所述向量化模型收敛,得到所述节点的向量表示。


2.根据权利要求1所述的方法,其中,所述获取所述树结构中的节点的相似节点集合,包括:
基于所述节点在所述树结构上单向遍历,得到所述节点的相似节点集合。


3.根据权利要求2所述的方法,其中,所述基于所述节点在所述树结构上单向遍历,得到所述节点的相似节点集合,包括:
基于所述节点在所述树结构上向下采样或向上采样,得到所述节点的相似节点集合,其中,所述向下采样的相似度偏序为:{后代节点}>{父节点}>{父节点的其他后代节点}>{祖先节点}>{祖先节点的其他后代节点},所述向上采样的相似度偏序为:{父节点、子节点、兄弟节点}>{祖先节点、后代节点}>{祖先节点的其他节点}。


4.根据权利要求3所述的方法,其中,所述基于所述节点在所述树结构上向下采样,得到所述节点的相似节点集合,包括:
基于所述节点在所述树结构上向下采样到所述节点的后代节点;
确定所述节点的后代节点的数目是否小于最小相似节点数目阈值;
若不小于所述最小相似节点数目阈值,基于所述节点的后代节点生成所述节点的相似节点集合;
若小于所述最小相似节点数目阈值,按照所述向下采样的相似度偏序继续在所述树结构上采样,直至所采样到的节点的数目不小于所述最小相似节点数目阈值,基于所采样到的节点生成所述节点的相似节点集合。


5.根据权利要求3所述的方法,其中,所述基于所述节点在所述树结构上向上采样,得到所述节点的相似节点集合,包括:
基于所述节点在所述树结构上向上采样到所述节点的父节点、子节点和兄弟节点;
确定所述节点的父节点、子节点和兄弟节点的总数目是否小于最小相似节点数目阈值;
若不小于所述最小相似节点数目阈值,基于所述节点的父节点、子节点和兄弟节点生成所述节点的相似节点集合;
若小于所述最小相似节点数目阈值,按照所述向上采样的相似度偏序继续在所述树结构上采样,直至所采样到的节点的数目不小于所述最小相似节点数目阈值,基于所采样到的节点生成所述节点的相似节点集合。


6.根据权利要求1-5之一所述的方法,其中,所述向量化模型以下一项:跳字模型、卷积神经网络和连续词袋模型。


7.一种用于生成节点的向量表示的装置,包括:
获取单元,被配置成获取树结构中的节点的标识和相似节点集合,其中,所述节点是知识图谱中的实...

【专利技术属性】
技术研发人员:秦华鹏赵岷程健一
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1