文本实体的语义描述处理方法、装置及设备制造方法及图纸

技术编号:24457855 阅读:42 留言:0更新日期:2020-06-10 16:05
本申请提出了一种文本实体的语义描述处理方法、装置及设备,涉及知识图谱技术领域,具体实现方案为:获取包含主实体的多个目标文本,从每个目标文本中提取描述主实体的其他相关实体;获取每个目标文本中主实体与每个相关实体对之间的子关系向量;根据每个目标文本中主实体与每个相关实体对之间的子关系向量,计算主实体在不同目标文本之间的相似度距离;根据主实体在不同目标文本之间的相似度距离确定不同目标文本对主实体描述的语义相似度。由此,通过确定不同文本对实体描述的语义相似度,实现了准确获取不同文本对于同一实体描述的相似程度。

Semantic description processing method, device and equipment of text entity

【技术实现步骤摘要】
文本实体的语义描述处理方法、装置及设备
本申请涉及计算机
,尤其涉及知识图谱
,提出一种文本实体的语义描述处理方法、装置及设备。
技术介绍
文本相似度被广泛应用于自然语言处理、知识图谱等领域,目前已有多种确定文本相似度的方案,例如可以通过语言模型计算文本相似度。然而,存在需要区分不同文本对于同一实体描述是否相近的场景,例如对于均包含某一人名的两篇文本,会存在两篇文本对于该人物语义描述是否相似的需求。针对上述场景,需要一种能够确定在不同文本中对实体的语义描述是否相似的方案。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种文本实体的语义描述处理方法,以准确获取不同文本对于同一实体描述的相似程度。本申请的第二个目的在于提出一种文本实体的语义描述处理装置。本申请的第三个目的在于提出一种电子设备。本申请的第四个目的在于提出一种计算机可读存储介质。本申请第一方面实施例提出了一种文本实体的语义描述处理方法,包括:本文档来自技高网...

【技术保护点】
1.一种文本实体的语义描述处理方法,其特征在于,包括:/n获取包含主实体的多个目标文本,从每个目标文本中提取描述所述主实体的其他相关实体;/n获取每个目标文本中所述主实体与每个相关实体对之间的子关系向量;/n根据每个目标文本中所述主实体与每个相关实体对之间的子关系向量,计算所述主实体在不同目标文本之间的相似度距离;/n根据所述主实体在不同目标文本之间的相似度距离确定不同目标文本对所述主实体描述的语义相似度。/n

【技术特征摘要】
1.一种文本实体的语义描述处理方法,其特征在于,包括:
获取包含主实体的多个目标文本,从每个目标文本中提取描述所述主实体的其他相关实体;
获取每个目标文本中所述主实体与每个相关实体对之间的子关系向量;
根据每个目标文本中所述主实体与每个相关实体对之间的子关系向量,计算所述主实体在不同目标文本之间的相似度距离;
根据所述主实体在不同目标文本之间的相似度距离确定不同目标文本对所述主实体描述的语义相似度。


2.如权利要求1所述的方法,其特征在于,所述从每个目标文本中提取描述所述主实体的其他相关实体,包括:
对每个目标文本进行命名实体识别,获取候选实体集合;
获取所述候选实体集合中与所述主实体在所述目标文本中的距离小于预设距离的候选实体,作为描述所述主实体的其他相关实体。


3.如权利要求1所述的方法,其特征在于,所述获取每个目标文本中所述主实体与每个相关实体对之间的子关系向量,包括:
获取所述目标文本中每个字的第一向量表示;
根据预先训练的转换模型对所述第一向量表示、所述主实体和每个相关实体进行加权处理,获取目标文本中与所述主实体和每个相关实体关联的文本内容的第二向量表示;
对所述第二向量表示进行池化处理,生成所述主实体与每个相关实体对之间的子关系向量。


4.如权利要求1所述的方法,其特征在于,所述获取每个目标文本中所述主实体与每个相关实体对之间的子关系向量,包括:
根据预先训练的关系抽取模型对目标文本、所述主实体和每个相关实体进行处理,获取所述主实体与每个相关实体对关系的概率分布;
根据预先训练的映射模型对所述概率分布进行映射,获取所述主实体与每个相关实体对之间的子关系向量。


5.如权利要求1所述的方法,其特征在于,所述根据每个目标文本中所述主实体与每个相关实体对之间的子关系向量,计算所述主实体在不同目标文本之间的相似度距离,包括:
对每个目标文本中所述主实体与每个相关实体对之间的子关系向量求和,计算与每个目标文本中的主实体对应的主关系向量;
根据与每个目标文本中的主实体对应的主关系向量,计算所述主实体在不同目标文本之间的相似度距离。


6.一种文本实体的语义描述处理装置,其特征在于,包括:
提取模块,用于获取包含主实体的多个目标文本,从每个目标文本中提取描述所述主实体的其他相关...

【专利技术属性】
技术研发人员:戴松泰冯欣伟余淼周环宇宋勋超袁鹏程
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1