一种实体关联方法、装置及计算机可读存储介质制造方法及图纸

技术编号:24169085 阅读:57 留言:0更新日期:2020-05-16 02:22
一种实体关联方法、装置及计算机可读存储介质,包括:获取待处理文本的特征向量;根据待处理文本中实体之间的关系构造实体对;针对每一个实体对在知识图谱中获取非泛化关系路径的特征向量与待处理文本的特征向量的最大相似度,作为实体对与待处理文本的第一相似度;针对待处理文本中每一个实体在知识图谱中获取关系路径的特征向量与待处理文本的特征向量的最大相似度,作为实体与待处理文本的第二相似度;根据包含待处理文本中实体的实体对对应的第一相似度和实体对应的第二相似度获取实体与知识图谱的关联得分;当关联得分超过预设阈值,将实体关联到第二相似度对应的知识图谱节点上。由于利用了多实体之间的关系,因此提高了实体的关联成功率。

An entity association method, device and computer readable storage medium

【技术实现步骤摘要】
一种实体关联方法、装置及计算机可读存储介质
本文涉及知识图谱技术,尤指一种实体关联方法、装置及计算机可读存储介质。
技术介绍
实体关联是指将文本中提及到的实体关联到知识图谱中对应的节点。相关技术中,实体关联的常见做法是,对文本中实体的上下文语义向量,与知识图谱中的节点的属性和关系组成的向量计算相似度,并对相似度分值排序,相似度分值超过阈值则关联到知识图谱的节点上,否则不关联。然而,这种方法只能关联上下文描述信息与知识图谱中节点的属性和关系信息关联度较高的实体,而无法关联上下文描述信息与知识图谱中节点的属性和关系信息相关度较低的实体,因此使得文本中实体的关联成功率低下。
技术实现思路
本申请提供了一种实体关联方法、装置及计算机可读存储介质,能够关联上下文描述信息与知识图谱中节点的属性和关系信息相关度较低的实体,从而提高实体的关联成功率。本申请提供了一种实体关联方法,包括:获取待处理文本的特征向量;其中,所述待处理文本中包含若干个待关联至知识图谱中节点的实体;根据所述待处理文本中实本文档来自技高网...

【技术保护点】
1.一种实体关联方法,其特征在于,包括:/n获取待处理文本的特征向量;其中,所述待处理文本中包含若干个待关联至知识图谱中节点的实体;/n根据所述待处理文本中实体之间的关系构造若干个实体对;/n针对每一个实体对在知识图谱中获取非泛化关系路径的特征向量与所述待处理文本的特征向量的最大相似度,作为所述实体对与所述待处理文本的第一相似度;其中,当所述实体对之间不存在非泛化关系路径,所述第一相似度为0;/n针对所述待处理文本中每一个实体在所述知识图谱中获取关系路径的特征向量与所述待处理文本的特征向量的最大相似度,作为所述实体与所述待处理文本的第二相似度;/n根据包含所述待处理文本中实体的实体对对应的第一...

【技术特征摘要】
1.一种实体关联方法,其特征在于,包括:
获取待处理文本的特征向量;其中,所述待处理文本中包含若干个待关联至知识图谱中节点的实体;
根据所述待处理文本中实体之间的关系构造若干个实体对;
针对每一个实体对在知识图谱中获取非泛化关系路径的特征向量与所述待处理文本的特征向量的最大相似度,作为所述实体对与所述待处理文本的第一相似度;其中,当所述实体对之间不存在非泛化关系路径,所述第一相似度为0;
针对所述待处理文本中每一个实体在所述知识图谱中获取关系路径的特征向量与所述待处理文本的特征向量的最大相似度,作为所述实体与所述待处理文本的第二相似度;
根据包含所述待处理文本中实体的实体对对应的第一相似度和所述实体对应的第二相似度获取所述实体与所述知识图谱的关联得分;
当关联得分超过预设阈值,将所述实体关联到所述第二相似度对应的知识图谱中的节点上。


2.根据权利要求1所述的方法,其特征在于,所述获取待处理文本的特征向量,包括:
对所述待处理文本进行分词,对获得的分词进行去停用词和去重处理;
对处理后的分词按照词频进行排序,并统计处理后的分词数量x;
根据获得的分词数量x、预先设置的最低特征词个数a、最大特征词个数b和所述待处理文本的平均长度t计算分词向量获取个数y;
获取词频排列位于前y位的词的词向量,并将这些词向量进行加法运算以得到所述待处理文本的特征向量。


3.根据权利要求2所述的方法,其特征在于,所述


4.根据权利要求1所述的方法,其特征在于,所述根据待处理文本中实体之间的关系构造若干个实体对,包括:
获取所述待处理文本中同时出现在若干个样本文件的同一个样本文件的概率超过预设概率的实体对,作为第一实体对;
获取所述待处理文本的每个语句中距离最近的且除所述第一实体对以外两个实体组成的实体对,作为第二实体对;
获取所述待处理文本中距离最近的且除所述第一实体对和所述第二实体对以外两个实体组成的实体对,作为第三实体对;
合并所述第一实体对、所述第二实体对和所述第三实体对,得到所述根据待处理文本中实体之间的关系构造若干个实体对。


5.根据权利要求1所述的方法,其特征在于,所述针对每一个实体对在知识图谱中获取非泛化关系路径的特征向量与待处理文本的特征向量的最大相似度,作为实体对与待处理文本的第一相似度,包括:
依次获取每一个实体对,并每当获得一个实体对,对获得的实体对进行如下操作:
获取获得的实体对的所有非泛化关系路径的特征向量;
计算每一个非泛化关系路径的特征向量与所述待处理文本的特征向量的相似度;
将最大相似度作为获得的实体对与所述待处理文本的第一相似度。


6.根据权利要求5所述的方法,其特征在于,所述获取获得的实体对的所有非泛化关系路径的特征向量,包括:
在所述知识图谱中判断与获得的实体对对应的节点间是否存在路径关系;
当获得的实体对对应的节点间存在路径关系,获取存在的路径关系,并判断获得的路径关系是否是泛化路径关系;
获取每一个非泛化路径关系,并每当获得一个非泛化路径关系,对获得的非泛化路径进行如下操作:
获取获得的非泛化路径关系的节点名称、节点属性、实体关系的词向量;
对获得的词向量进行加法运算得到所述非泛化路径关系的特征向量。


7.根据权利要求6所述的方法,其特征在于,所述在知识图谱中判断与获得的实体对对应的节点间是否存在路径关系,包括:
在所述知识图谱中依次判断与获得的实体对对应的节点间是否存在1度、2度和3度关系;
当确定与获得的实体对对应的节点间存在上述三种关系中的任意一种,停止后续判断过程,并确定与获得的实体对对应的节点间存在路径关系。


8.根据权利要求1所述的方法,其特征在于,所述针对待处理文本中每一个实体在知识图谱中获取关系路径的特征向量与待处理文本的特征向量的最大相似度,作为实体与待处理文本的第二相似度,包括:
获取所述待处理文本中每一个实体,并每当获得一个实体,对获得的实体进行如下操作:
在所述知识图谱中获取与获得的实体的名称相同的节点,并获取每一个节点的特征向量;
计算每一个节点的特征向量与所述待处理文本的特征向量的相似度;...

【专利技术属性】
技术研发人员:袁婧牟小峰
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1