一种基于共现图的实体别名发现方法及装置制造方法及图纸

技术编号:28942891 阅读:18 留言:0更新日期:2021-06-18 21:50
本申请提供了一种基于共现图的实体别名发现方法及装置,其中,该方法包括:基于预设的实体集合和语料库构建共现图;其中,所述共现图的节点用于表征实体,所述共现图的边用于表征两个实体之间的亲近程度;所述亲近程度与共现距离、文本相似性和启发式规则相关;基于所述共现图确定同义词节点群组;针对每个同义词节点群组,基于该同义词节点群组中词频满足预设条件的节点确定实体规范名,并基于该同义词节点群组中不满足预设条件的节点确定实体别名。本申请实施例发现的实体别名准确度更高,且扩展性较好。

【技术实现步骤摘要】
一种基于共现图的实体别名发现方法及装置
本申请涉及实体别名发现
,尤其是涉及一种基于共现图的实体别名发现方法及装置。
技术介绍
实体识别是NLP(NaturalLanguageProcessing,自然语言处理)最重要的任务之一,它输出的实体名直接来自原文文本,没有规范化,经常出现多个实体同一含义的情况。因此,找出同义实体,规范化到唯一实体名,其他作为实体别名,对后续NLP任务会有很大帮助。比如“华夏”,“神州”,“中华人民共和国”都可以作为“中国”的别名,“中国”作为规范化名。有别于同义词发现,实体别名发现所考虑的目标词范围更窄(通常仅名词词语可做实体),专用性更强。传统的同义词发现方法,如基于上下文的同义词发现方法、基于相似性的同义词发现方法,用于实体别名发现效果不佳;而基于知识库的方法,虽有效果,却严重依赖已有知识,扩展性差。
技术实现思路
有鉴于此,本申请的目的在于提供一种基于共现图的实体别名发现方法及装置,以提高发现的实体别名准确度和扩展性。第一方面,本申请实施例提供了一种基于共现图的实体别名本文档来自技高网...

【技术保护点】
1.一种基于共现图的实体别名发现方法,其特征在于,包括:/n基于预设的实体集合和语料库构建共现图;其中,所述共现图的节点用于表征实体,所述共现图的边用于表征两个实体之间的亲近程度;所述亲近程度与共现距离、文本相似性和启发式规则相关;/n基于所述共现图确定同义词节点群组;/n针对每个同义词节点群组,基于该同义词节点群组中词频满足预设条件的节点确定实体规范名,并基于该同义词节点群组中不满足预设条件的节点确定实体别名。/n

【技术特征摘要】
1.一种基于共现图的实体别名发现方法,其特征在于,包括:
基于预设的实体集合和语料库构建共现图;其中,所述共现图的节点用于表征实体,所述共现图的边用于表征两个实体之间的亲近程度;所述亲近程度与共现距离、文本相似性和启发式规则相关;
基于所述共现图确定同义词节点群组;
针对每个同义词节点群组,基于该同义词节点群组中词频满足预设条件的节点确定实体规范名,并基于该同义词节点群组中不满足预设条件的节点确定实体别名。


2.根据权利要求1所述的方法,其特征在于,所述基于预设的实体集合和语料库构建共现图,包括:
对预设的实体集合和语料库进行多模匹配;其中,在多模匹配的过程中,针对所述语料库中每个文本单位,查找所述实体集合中每个实体在该文本单位中的出现位置;
针对所述实体集合中任意两个实体,基于所述两个实体分别对应的出现位置计算所述两个实体之间的亲近程度;
以所述实体集合中的各个实体为节点,以所述实体集合中任意两个实体之间的亲近程度为边,构建共现图。


3.根据权利要求2所述的方法,其特征在于,所述针对所述实体集合中任意两个实体,基于所述两个实体分别对应的出现位置计算所述两个实体之间的亲近程度,包括:
针对所述实体集合中任意两个实体,确定第一实体对应的第一出现位置序列和第二实体对应的第二出现位置序列;
若所述第一出现位置序列的长度大于等于所述第二出现位置序列的长度,则对所述第一出现位置序列进行排序,针对所述第二出现位置序列中的每个出现位置,从排序后的所述第一出现位置序列中查找最接近的出现位置,组成出现位置对;
计算每个出现位置对的亲近程度,并对各个出现位置对的亲近程度进行聚合,得到所述实体集合中任意两个实体之间的亲近程度。


4.根据权利要求3所述的方法,其特征在于,所述计算每个出现位置对的亲近程度,包括:
基于每个出现位置对的共现距离、解释性上下文、...

【专利技术属性】
技术研发人员:荆小兵陈奇宁
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1