地名消岐方法和地名消岐装置制造方法及图纸

技术编号:19023356 阅读:30 留言:0更新日期:2018-09-26 19:03
本发明专利技术公开了一种地名消岐方法和地名消岐装置。根据一个具体实施示例的地名消岐方法包括:从文本中提取待消岐地名和所述待消岐地名的上下文;从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

【技术实现步骤摘要】
地名消岐方法和地名消岐装置
本专利技术涉及一种地名消岐方法和地名消岐装置。
技术介绍
地名消歧是地理信息检索中一项重要的任务,它对提高地理信息检索的准确率具有重要作用。当输入的文本较短时,这项任务变得更具挑战性。其中关键的问题是地名的歧义性,同样的地名可能映射到不同的物理空间位置,同一个物理空间位置也可能包含不同的名字。解决这个问题常见的策略是利用上下文信息,将待消歧地名的上下文与候选的地名真实描述文本进行比较,返回相似度最大的候选地名作为最终的结果。由于待消歧地名的上下文与候选的地名真实描述文本一般均为纯文本,因此通常基于该特性,将文本映射到向量空间模型,然后使用向量空间模型来得到消歧结果。但是,这种常用的消岐方法忽略了词的语义重要性,消岐结果经常会出现偏差。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,该概述并不是关于本专利技术的穷举性概述,它并非意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为后文的具体实施方式部分的铺垫。鉴于以上提出的问题,本专利技术提出了一种地名消岐方法和地名消岐装置,能够考虑到词的语义重要性,从而实现地名的有效消岐。根据本专利技术的一个方面,提供了一种地名消岐方法,包括:从文本中提取待消岐地名和所述待消岐地名的上下文;从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。根据本专利技术的另一个方面,提供了一种地名消岐装置,包括:提取单元,被配置为从文本中提取待消岐地名和所述待消岐地名的上下文;检索单元,被配置为从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及选择单元,被配置为根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。根据本专利技术的再一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理系统上执行所述程序代码时,所述程序代码使得所述信息处理系统执行根据本专利技术的上述方法。根据本专利技术的再一方面,还提供了一种程序。所述程序包括机器可执行的指令,当在信息处理系统上执行所述指令时,所述指令使得所述信息处理系统执行根据本专利技术的上述方法。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其他优点将更加明显。附图说明参照附图来阅读本专利技术的各实施方式,将更容易理解本专利技术的其它特征和优点,在此描述的附图只是为了对本专利技术的实施方式进行示意性说明的目的,而非全部可能的实施,并且不旨在限制本专利技术的范围。在附图中:图1示出根据本专利技术的一个具体实例的地名消岐方法的流程图;图2示出根据本专利技术的一个具体实例的计算上下文与候选地名实体的相似度的方法的流程图;图3示出根据本专利技术的一个具体实例的地名消岐装置的结构方框图;以及图4示出用于实施根据本专利技术实施方式的方法和系统的计算机的示意性框图。具体实施方式现参照附图对本专利技术的实施方式进行详细描述。应注意,以下描述仅仅是示例性的,而并不旨在限制本专利技术。此外,在以下描述中,将采用相同的附图标记表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征,可彼此结合,以形成本专利技术范围内的其他实施方式。如上文中所述,在常用的消岐方法中,通常利用待消歧地名的上下文与候选的地名真实描述文本的纯文本特性,将文本映射到向量空间模型,然后使用向量空间模型来得到消歧结果。但是,这种常用的消岐方法忽略了词的语义重要性,因此消岐结果经常会出现偏差。关联数据(LinkedData)为一系列利用web在不同数据源之间创建语义关联的最佳实践方式,关联开放数据(LinkedOpenData,LOD)即为开放内容的关联数据。关联开放数据更强调实体的语义信息,一个地名实体通常会和其他实体相关联,例如上一级行政单位、邻近的城市、相关的人物等等、因此可以利用这些实体来进行地名消歧。有鉴于此,本专利技术提出了一种基于LOD的地名消歧方法和地名消岐装置,其利用LOD中某些说明性的属性值作为上下文,结合所关联到的实体,计算待消歧地名与各个候选地名之间的相似度,从而得到最终的消歧结果。下面将结合附图对根据本专利技术的具体实施方式的地名消歧方法和地名消岐装置进行详细描述。图1示出根据本专利技术的一个具体实例的地名消岐方法的流程图。如图1所示,根据本专利技术的一个具体实例的地名消岐方法从步骤S110开始。首先在步骤S120中,从输入文本中提取待消岐地名和与所述待消岐地名相关联的上下文,然后在步骤S130中从关联开放数据LOD中检索与所述待消岐地名相关的候选地名实体。接下来,在步骤S140中,计算在步骤S120中提取的与所述待消岐地名相关联的上下文和在步骤S130中检索到的与所述待消岐地名相关的候选地名实体之间的相似度。在LOD数据集中,对于每个实体ei都有若干的属性和对应的属性值。属性的值有两种,一种是纯文本型,其中数字、日期等也可看作纯文本;另一种是URI型,表示关联到内部或者外部的实体。这里,我们利用纯文本型的属性值与所提取的待消岐地名s的上下文Context(s)进行比较,由此计算与所述待消岐地名相关联的上下文和与所述待消岐地名相关的候选地名实体之间的相似度Sim(Context(s),LOD(ei))。图2示出了根据本专利技术的一个具体实例的计算上下文与候选地名实体的相似度的方法的流程图。如图2所示,根据本专利技术的一个具体实例的计算上下文与候选地名实体的相似度的方法从步骤S210开始。首先在步骤S220中,将在步骤S120中提取的与所述待消岐地名相关联的上下文映射到向量空间,以获得上下文向量。然后,在步骤S230中,将在步骤S130中检索到的与所述待消岐地名相关的候选地名实体的属性值中所包含的纯文本映射到所述向量空间后,以获得候选地名实体向量。接着,在步骤S240中,计算在步骤S220中获得的所述上下文向量与在步骤S230中获得的所述候选地名实体向量之间的距离,作为所述上下文与候选地名实体的相似度。这里,可以计算上下文向量与候选地名实体向量之间的余弦距离作为所述上下文与候选地名实体的相似度。之后,该流程在步骤S250结束。在此,根据本专利技术的一个具体实施例,在步骤S220中,可以将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重。另外,根据本专利技术的一个具体实例,在步骤S230中,可以将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。具体地,可以根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t):tf(t)=FreqlodWeight(t)=tf(t)*idf(t)其中,Freqlod表示词t在该候选地名实体的属性值中所包含的纯文本中出现的次数,|E|表示所有候选地名实体的个数,nt本文档来自技高网...

【技术保护点】
1.一种地名消岐方法,包括:从文本中提取待消岐地名和所述待消岐地名的上下文;从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

【技术特征摘要】
1.一种地名消岐方法,包括:从文本中提取待消岐地名和所述待消岐地名的上下文;从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。2.根据权利要求1所述的方法,其中,根据下述计算所述上下文与候选地名实体的相似度:获取将所述上下文映射到向量空间后获得的上下文向量;获取将候选地名实体的属性值中所包含的纯文本映射到所述向量空间后获得的候选地名实体向量;以及计算所述上下文向量与所述候选地名实体向量之间的距离作为所述上下文与候选地名实体的相似度。3.根据权利要求2所述的方法,其中,将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重,并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。4.根据权利要求3所述的方法,其中,根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t):tf(t)=FreqlodWeight(t)=tf(t)*idf(t)其中,Freqlod表示词t在该候选地名实体的属性值中所包含的纯文本中出现的次数,|E|表示所有候选地名实体的个数,nt表示所有候选地名实体的属性值中所包含的纯文本中出现词t的候选地名实体的个数。5.根据权利要求1所述的方法,其中,根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。6.根据权利要求5所述的方法,其中,根据下...

【专利技术属性】
技术研发人员:房璐缪庆亮孟遥
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1