一种实现实体消歧的方法、装置及存储介质、程序产品制造方法及图纸

技术编号:17878835 阅读:47 留言:0更新日期:2018-05-06 00:40
本申请公开了一种实现实体消歧的方法、装置及存储介质、程序产品,用于实现实体消歧,该方法包括:建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络,第一共词网络与第二共词网络存在相同的实体节点;计算第一共词网络与第二共词网络之间的相似度;当相似度大于第一阈值时,则将第一实体与第二实体确定为同一实体;当相似度小于第二阈值时,则将第一实体与第二实体确定为不同实体。

Method, device and storage medium for realizing entity disambiguation, and program product

This application discloses a method, device, storage medium and program product for entity disambiguation, which can be used to disambiguate the entity. The method includes the establishment of the first entity correspondence network of the first entity and the second correspondence network corresponding to the second entity. The first word network and the second word network have the same entity nodes. The similarity degree between the first word network and the second word network is calculated; when the similarity is greater than the first threshold, the first entity and the second entity are determined to be the same entity; when the similarity is less than the second threshold, the first entity and the second entity are determined to be different entities.

【技术实现步骤摘要】
一种实现实体消歧的方法、装置及存储介质、程序产品
本申请涉及数据处理
,具体涉及一种实现实体消歧的方法、装置及存储介质、程序产品。
技术介绍
实体消歧旨在解决文本中广泛存在的名称歧义问题,在语义化搜索、问答系统、知识库扩充、异构知识库融合等领域有着广泛的应用。实体消歧有两层次含义,一是相同实体的辨别,明确实体的正确指向,确定其语义,例如苹果可以指代苹果公司,也可以指代一种水果,此时相同实体需要重名消歧;二是不同实体的关联对齐,例如东软和东软集团,以及历史文本中出现的东大阿尔派,同指代东软集团股份有限公司,此时不同实体需要多名聚合。在英文领域,实体消歧主要依赖于语义知识库的建设,但是中文实体不同于英文单词,表达更为灵活,在中文领域中,实体消歧的研究起步较晚,成果也较少,当前还缺乏有效进行实体消歧的方式。
技术实现思路
有鉴于此,本申请提供一种实现实体消歧的方法、装置及存储介质、程序产品,以解决现有技术对于中文领域无法有效实现实体消歧的技术问题。为解决上述问题,本申请实施例提供的技术方案如下:一种实现实体消歧的方法,所述方法包括:建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络,所述第一共词网络与所述第二共词网络存在相同的实体节点;计算所述第一共词网络与所述第二共词网络之间的相似度;当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体;或者,当所述相似度小于第二阈值时,将所述第一实体与所述第二实体确定为不同实体。可选的,所述当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体,包括:当所述相似度大于第一阈值时,如果所述第一实体与所述第二实体名称不同,将所述第一实体与所述第二实体确定为名称不同的同一实体;所述当所述相似度小于第二阈值时,将所述第一实体与所述第二实体确定为不同实体,包括:当所述相似度小于第二阈值时,如果所述第一实体与所述第二实体名称相同,将所述第一实体与所述第二实体确定为名称相同的不同实体。可选的,所述建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络包括:获取所述第一实体对应的第一文本语料以及所述第二实体对应的第二文本语料;当所述第一文本语料以及所述第二文本语料为非结构化数据时,根据所述第一文本语料提取所述第一实体对应的第一特征词集合,以及根据所述第二文本语料提取所述第二实体对应的第二特征词集合;根据所述第一特征词集合中各特征词之间的关系,以及所述第一特征词集合中各特征词与所述第一实体之间的关系,建立所述第一实体对应的第一共词网络,以及根据所述第二特征词集合中各特征词与所述第二实体之间的关系,建立所述第二实体对应的第二共词网络。可选的,所述根据所述第一文本语料提取所述第一实体对应的第一特征词集合,以及根据所述第二文本语料提取所述第二实体对应的第二特征词集合包括:从所述第一文本语料中提取所述第一实体对应的第一共现词集合,以及从所述第二文本语料中提取所述第二实体对应的第二共现词集合;所述第一共现词集合包括在所述第一文本语料中,在距离所述第一实体预设范围内出现的共现词,所述第二共现词集合包括在所述第二文本语料中,在距离所述第二实体预设范围内出现的共现词;从所述第一文本语料中提取所述第一实体对应的第一关键词集合和第一类别特征词集合,以及从所述第二文本语料中提取所述第二实体对应的第二关键词集合和第二类别特征词集合;所述第一类别特征词集合包括与所述第一实体的实体类别相同的类别特征词,所述第二类别特征词集合包括与所述第二实体的实体类别相同的类别特征词;将所述第一共现词集合、所述第一关键词集合和所述第一类别特征词集合取并集,得到所述第一实体对应的第一特征词集合;以及将所述第二共现词集合、所述第二关键词集合和所述第二类别特征词集合取并集,得到所述第二实体对应的第二特征词集合。可选的,所述建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络包括:获取所述第一实体对应的第一文本语料以及所述第二实体对应的第二文本语料;当所述第一文本语料以及所述第二文本语料为半结构化数据时,根据所述第一文本语料获取所述第一实体的相关属性和与所述第一实体关联的实体节点,以及根据所述第二文本语料获取所述第二实体的相关属性和与所述第二实体关联的实体节点;根据所述第一实体的相关属性和与所述第一实体有关联的实体节点建立第一实体对应的第一共词网络,以及根据所述第二实体的相关属性和与所述第二实体有关联的实体节点建立第二实体对应的第二共词网络。可选的,所述计算所述第一共词网络与所述第二共词网络之间的相似度包括:获取所述第一共词网络与所述第二共词网络中相同的实体节点作为相同实体集合;从所述第一共词网络中去除不属于所述相同实体集合的实体节点,得到第三共词网络;从所述第二共词网络中去除不属于所述相同实体集合的实体节点,得到第四共词网络;获取所述第三共词网络对应的第一子图集合,以及所述第四共词网络对应的第二子图集合,所述第一子图集合为所述第一实体与所述第三共词网络中任意一个或多个实体节点构成的子图的集合,所述第二子图集合为所述第二实体与所述第四共词网络中任意一个或多个实体节点构成的子图的集合;根据所述第一子图集合和所述第二子图集合,统计所述第三共词网络和所述第四共词网络之间存在的相同子图的个数;根据所述相同子图的个数计算所述第一共词网络与所述第二共词网络之间的相似度。可选的,所述根据所述相同子图的个数计算所述第一共词网络与所述第二共词网络之间的相似度包括:获取所述相同实体集合中的实体节点与所述第一实体构成子图的第一个数,以及所述相同实体集合中的实体节点与所述第二实体构成子图的第二个数,计算所述第一个数与所述第二个数之和作为子图的总个数;计算所述相同子图的个数和所述子图的总个数的比值,将所述比值作为第一结果;计算所述第一共词网络中包括的实体节点个数的平方与所述第二共词网络中包括的实体节点个数的平方的乘积,将所述乘积作为第二结果;计算所述第一结果和所述第二结果的比值作为所述第一共词网络与所述第二共词网络之间的相似度。一种实现实体消歧的装置,所述装置包括:建立单元,用于建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络,所述第一共词网络与所述第二共词网络存在相同的实体节点;计算单元,用于计算所述第一共词网络与所述第二共词网络之间的相似度;第一确定单元,用于当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体;第二确定单元,用于当所述相似度小于第二阈值时,将所述第一实体与所述第二实体确定为不同实体。可选的,所述第一确定单元具体用于:当所述相似度大于第一阈值时,如果所述第一实体与所述第二实体名称不同,将所述第一实体与所述第二实体确定为名称不同的同一实体;所述第二确定单元具体用于:当所述相似度小于第二阈值时,如果所述第一实体与所述第二实体名称相同,将所述第一实体与所述第二实体确定为名称相同的不同实体。可选的,所述建立单元包括:第一获取子单元,用于获取所述第一实体对应的第一文本语料以及所述第二实体对应的第二文本语料;第一提取子单元,用于当所述第一文本语料以及所述第二文本语料为非结构化数据时,根据所述第一文本语料提取所述第一实体对应的第一特征词集合,以及根据所述第本文档来自技高网...
一种实现实体消歧的方法、装置及存储介质、程序产品

【技术保护点】
一种实现实体消歧的方法,其特征在于,所述方法包括:建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络,所述第一共词网络与所述第二共词网络存在相同的实体节点;计算所述第一共词网络与所述第二共词网络之间的相似度;当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体;或者,当所述相似度小于第二阈值时,将所述第一实体与所述第二实体确定为不同实体。

【技术特征摘要】
1.一种实现实体消歧的方法,其特征在于,所述方法包括:建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络,所述第一共词网络与所述第二共词网络存在相同的实体节点;计算所述第一共词网络与所述第二共词网络之间的相似度;当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体;或者,当所述相似度小于第二阈值时,将所述第一实体与所述第二实体确定为不同实体。2.根据权利要求1所述的方法,其特征在于,所述当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体,包括:当所述相似度大于第一阈值时,如果所述第一实体与所述第二实体名称不同,将所述第一实体与所述第二实体确定为名称不同的同一实体;所述当所述相似度小于第二阈值时,将所述第一实体与所述第二实体确定为不同实体,包括:当所述相似度小于第二阈值时,如果所述第一实体与所述第二实体名称相同,将所述第一实体与所述第二实体确定为名称相同的不同实体。3.根据权利要求1所述的方法,其特征在于,所述建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络包括:获取所述第一实体对应的第一文本语料以及所述第二实体对应的第二文本语料;当所述第一文本语料以及所述第二文本语料为非结构化数据时,根据所述第一文本语料提取所述第一实体对应的第一特征词集合,以及根据所述第二文本语料提取所述第二实体对应的第二特征词集合;根据所述第一特征词集合中各特征词之间的关系,以及所述第一特征词集合中各特征词与所述第一实体之间的关系,建立所述第一实体对应的第一共词网络,以及根据所述第二特征词集合中各特征词与所述第二实体之间的关系,建立所述第二实体对应的第二共词网络。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一文本语料提取所述第一实体对应的第一特征词集合,以及根据所述第二文本语料提取所述第二实体对应的第二特征词集合包括:从所述第一文本语料中提取所述第一实体对应的第一共现词集合,以及从所述第二文本语料中提取所述第二实体对应的第二共现词集合;所述第一共现词集合包括在所述第一文本语料中,在距离所述第一实体预设范围内出现的共现词,所述第二共现词集合包括在所述第二文本语料中,在距离所述第二实体预设范围内出现的共现词;从所述第一文本语料中提取所述第一实体对应的第一关键词集合和第一类别特征词集合,以及从所述第二文本语料中提取所述第二实体对应的第二关键词集合和第二类别特征词集合;所述第一类别特征词集合包括与所述第一实体的实体类别相同的类别特征词,所述第二类别特征词集合包括与所述第二实体的实体类别相同的类别特征词;将所述第一共现词集合、所述第一关键词集合和所述第一类别特征词集合取并集,得到所述第一实体对应的第一特征词集合;以及将所述第二共现词集合、所述第二关键词集合和所述第二类别特征词集合取并集,得到所述第二实体对应的第二特征词集合。5.根据权利要求1所述的方法,其特征在于,所述建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络包括:获取所述第一实体对应的第一文...

【专利技术属性】
技术研发人员:蔡巍崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1