This application discloses a method, device, storage medium and program product for entity disambiguation, which can be used to disambiguate the entity. The method includes the establishment of the first entity correspondence network of the first entity and the second correspondence network corresponding to the second entity. The first word network and the second word network have the same entity nodes. The similarity degree between the first word network and the second word network is calculated; when the similarity is greater than the first threshold, the first entity and the second entity are determined to be the same entity; when the similarity is less than the second threshold, the first entity and the second entity are determined to be different entities.
【技术实现步骤摘要】
一种实现实体消歧的方法、装置及存储介质、程序产品
本申请涉及数据处理
,具体涉及一种实现实体消歧的方法、装置及存储介质、程序产品。
技术介绍
实体消歧旨在解决文本中广泛存在的名称歧义问题,在语义化搜索、问答系统、知识库扩充、异构知识库融合等领域有着广泛的应用。实体消歧有两层次含义,一是相同实体的辨别,明确实体的正确指向,确定其语义,例如苹果可以指代苹果公司,也可以指代一种水果,此时相同实体需要重名消歧;二是不同实体的关联对齐,例如东软和东软集团,以及历史文本中出现的东大阿尔派,同指代东软集团股份有限公司,此时不同实体需要多名聚合。在英文领域,实体消歧主要依赖于语义知识库的建设,但是中文实体不同于英文单词,表达更为灵活,在中文领域中,实体消歧的研究起步较晚,成果也较少,当前还缺乏有效进行实体消歧的方式。
技术实现思路
有鉴于此,本申请提供一种实现实体消歧的方法、装置及存储介质、程序产品,以解决现有技术对于中文领域无法有效实现实体消歧的技术问题。为解决上述问题,本申请实施例提供的技术方案如下:一种实现实体消歧的方法,所述方法包括:建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络,所述第一共词网络与所述第二共词网络存在相同的实体节点;计算所述第一共词网络与所述第二共词网络之间的相似度;当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体;或者,当所述相似度小于第二阈值时,将所述第一实体与所述第二实体确定为不同实体。可选的,所述当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体,包括:当所述相似度大于第一阈值时, ...
【技术保护点】
一种实现实体消歧的方法,其特征在于,所述方法包括:建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络,所述第一共词网络与所述第二共词网络存在相同的实体节点;计算所述第一共词网络与所述第二共词网络之间的相似度;当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体;或者,当所述相似度小于第二阈值时,将所述第一实体与所述第二实体确定为不同实体。
【技术特征摘要】
1.一种实现实体消歧的方法,其特征在于,所述方法包括:建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络,所述第一共词网络与所述第二共词网络存在相同的实体节点;计算所述第一共词网络与所述第二共词网络之间的相似度;当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体;或者,当所述相似度小于第二阈值时,将所述第一实体与所述第二实体确定为不同实体。2.根据权利要求1所述的方法,其特征在于,所述当所述相似度大于第一阈值时,将所述第一实体与所述第二实体确定为同一实体,包括:当所述相似度大于第一阈值时,如果所述第一实体与所述第二实体名称不同,将所述第一实体与所述第二实体确定为名称不同的同一实体;所述当所述相似度小于第二阈值时,将所述第一实体与所述第二实体确定为不同实体,包括:当所述相似度小于第二阈值时,如果所述第一实体与所述第二实体名称相同,将所述第一实体与所述第二实体确定为名称相同的不同实体。3.根据权利要求1所述的方法,其特征在于,所述建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络包括:获取所述第一实体对应的第一文本语料以及所述第二实体对应的第二文本语料;当所述第一文本语料以及所述第二文本语料为非结构化数据时,根据所述第一文本语料提取所述第一实体对应的第一特征词集合,以及根据所述第二文本语料提取所述第二实体对应的第二特征词集合;根据所述第一特征词集合中各特征词之间的关系,以及所述第一特征词集合中各特征词与所述第一实体之间的关系,建立所述第一实体对应的第一共词网络,以及根据所述第二特征词集合中各特征词与所述第二实体之间的关系,建立所述第二实体对应的第二共词网络。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一文本语料提取所述第一实体对应的第一特征词集合,以及根据所述第二文本语料提取所述第二实体对应的第二特征词集合包括:从所述第一文本语料中提取所述第一实体对应的第一共现词集合,以及从所述第二文本语料中提取所述第二实体对应的第二共现词集合;所述第一共现词集合包括在所述第一文本语料中,在距离所述第一实体预设范围内出现的共现词,所述第二共现词集合包括在所述第二文本语料中,在距离所述第二实体预设范围内出现的共现词;从所述第一文本语料中提取所述第一实体对应的第一关键词集合和第一类别特征词集合,以及从所述第二文本语料中提取所述第二实体对应的第二关键词集合和第二类别特征词集合;所述第一类别特征词集合包括与所述第一实体的实体类别相同的类别特征词,所述第二类别特征词集合包括与所述第二实体的实体类别相同的类别特征词;将所述第一共现词集合、所述第一关键词集合和所述第一类别特征词集合取并集,得到所述第一实体对应的第一特征词集合;以及将所述第二共现词集合、所述第二关键词集合和所述第二类别特征词集合取并集,得到所述第二实体对应的第二特征词集合。5.根据权利要求1所述的方法,其特征在于,所述建立第一实体对应的第一共词网络以及第二实体对应的第二共词网络包括:获取所述第一实体对应的第一文...
【专利技术属性】
技术研发人员:蔡巍,崔朝辉,赵立军,张霞,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。