一种基于图谱模型的地名地址匹配查询方法及系统技术方案

技术编号:21913998 阅读:20 留言:0更新日期:2019-08-21 12:26
本发明专利技术涉及一种地名地址匹配方法及系统,属于地理信息系统领域,具体是涉及一种基于图谱模型的地名地址匹配方法及系统。该系统及方法在图谱建立过程中通过技术手段快速形成分词库,在地址匹配过程中考虑地址节的上下文关系,通过空间位置约束弥补自然语义约束的不足,使得命中地址的正确率大幅提升。

A Toponym Address Matching Query Method and System Based on Atlas Model

【技术实现步骤摘要】
一种基于图谱模型的地名地址匹配查询方法及系统
本专利技术涉及一种地名地址匹配查询方法及系统,属于地理信息系统领域,具体是涉及一种基于图谱模型的地名地址匹配查询方法及系统。
技术介绍
近年来,为适应智慧城市建设发展,地址是增强人、房管理的方法和手段,是城市管理的重要参照物,对地名地址检索技术提出了新的要求。一个城市的市域地址的总量与城市人口数量大致呈1:1关系,特别是在人口较多的大城市,地址总量也较大。因为这些城市的变迁较快,发展过程中,出现了各种各样不规则的现用地址,虽然不规则,但已成既定事实,这给地址规格化与地址精准匹配带来了困难。要想提升地址检索的匹配率与正确率,需要从地址数据治理入手,而庞大的数据量需要投入大量的人工,并且这是一个持续的过程,因为新的楼盘会产生新的地址,新的地址也可能不规范。现有技术中,将地址按照树状结构组织去实现地址检索的做法也存在,但在匹配正确性方面不能做到趋近于100%,从而难以通过程序自动化地将正确地址与问题地址区分开,使得后续的地址修正工作,需要大量人工排查工作量。另外,目前还未见到在树状地址组织过程中考虑空间位置的矫正作用的做法,用以进一步提升地址匹配的准确率。在地址查询过程中,现有技术中的地址检索存在以下问题:(1)传统的地址检索注重搜索而不注重匹配传统的地址检索往往使用搜索引擎去实现地址检索,这种方式在需要人工交互的应用场景下是可行的,但在无人值守的情况下,使用搜索引擎,默认取第一个命中的地址进行地址匹配的场景下,准确度会降低。例如,“广东省深圳市福田区福运路天翔大厦CD栋702”,输入这个地址时,很可能搜索引擎返回的第一个地址是“广东省深圳市福田区天翔路福运大厦CD栋702”,但这是两个不同的地址。这是因为搜索引擎的目的是尽可能“多”地找到带有相关描述的地址,而没有考虑地址这一类特殊的自然语言带有明显的上下文约束,也就是说搜索引擎的校验不够严格。(2)传统的地址匹配不能灵活设置匹配约束条件传统的搜索引擎在提升地址命中正确率时,会想方设法强化匹配的约束,而有些时候地址匹配的约束条件越严格,尽管匹配的正确率会提高,但是能够命中的地址就越少,需要人工排查的地址就越多。(3)传统的地址匹配模型不能维护地址多个维度之间的关系在传统地址检索应用中考虑的是现状地名地址,不太关注地址本身的生命周期(是否有效)及其多维度信息(曾用名、别名、俗称等),因为维护的代价太大,会产生大量的冗余信息(这些曾用名、别名、俗称等,往往只是完整地址中的一部分)。但在新型智慧城市管理应用中,需要将那些还在使用的地址的曾用名,别名,俗称等与现状地址建立关联关系,以便深入了解这些城市管理参照物的生命周期。因此,对现有技术中的地名地址匹配查询方法及系统进行改进,以满足不同应用场景的需求,是当前迫切需要解决的技术问题。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术主要的目的是解决现有技术中所存在的上这的技术问题,提供了一种基于图谱模型的地名地址匹配查询方法及系统。该系统及方法在图谱建立过程中通过技术手段快速形成分词库,在地址匹配过程中考虑地址节的上下文关系,通过空间位置约束弥补自然语义约束的不足,使得命中地址的正确率大幅提升。为解决上述问题,本专利技术的方案是:一种基于图谱模型的地名地址存储方法,包括:地址分节步骤,用于将地址按照预设的规则划分为若干级;图谱构建步骤,在各级地址的数据结构中构建指向下一级地址数据结构的字段;接口构建步骤,在各级地址的数据结构基础上封装图模型数据查询接口服务,用于查询和访问数据结构中的所有数据项。优选的,所述地址分节步骤中,所地址节均写入分词库,并标记层级编号。优选的,所述图谱构建步骤,通过一个16进制的数值标识UID标识各级地址数据结构,通过另一个字段addrLink标识下一级地址节的UID,UID与AddrLink字段使用hash索引存储于1号节点。优选的,所述图谱构建步骤,使用Name字段记录地址节的中文名称,分别建立全文索引与术语索引,存储于2号节点;使用Lev字段记录地址层级,采用二叉树结构索引数值类型,存储于3号节点;地址节所在空间位置的中心点使用Loc字段记录,建立GeoHash索引,存储于4号节点。将这些数据按照字段与索引类型分布式存储用于不同节点,便于后续的分布式计算。一种基于图谱模型的地名地址查询方法,包括:地址拆分步骤,将待匹配地址按照地址层级进行分词,形成不同地址层级的地址节;分级查询步骤,根据地址节的层级及待匹配地址所在的空间范围,在带有地址空间信息的地址节数据库中进行地址节的匹配;结果评价步骤,对匹配到的地址计算相似度评分,并根据评分对匹配结果进行排序;其中,所述地址节数据库中的地址按照预设的规则划分为若干级,在各级地址的数据结构中构建有指向下一级地址数据结构的字段。一种基于图谱模型的地名地址存储系统,包括:地址分节模块,用于将地址按照预设的规则划分为若干级;图谱构建模块,在各级地址的数据结构中构建指向下一级地址数据结构的字段;接口构建模块,在各级地址的数据结构基础上封装图模型数据查询接口服务,用于查询和访问数据结构中的所有数据项。优选的,所述地址分节模块中,所地址节均写入分词库,并标记层级编号。优选的,所述图谱构建模块,通过一个16进制的数值标识UID标识各级地址数据结构,通过另一个字段addrLink标识下一级地址节的UID,UID与AddrLink字段使用hash索引存储于1号节点。优选的,所述图谱构建模块,使用Name字段记录地址节的中文名称,分别建立全文索引与术语索引,存储于2号节点;使用Lev字段记录地址层级,采用二叉树结构索引数值类型,存储于3号节点;地址节所在空间位置的中心点使用Loc字段记录,建立GeoHash索引,存储于4号节点。将这些数据按照字段与索引类型分布式存储用于不同节点,便于后续的分布式计算。一种基于图谱模型的地名地址查询系统,包括:地址拆分模块,将待匹配地址按照地址层级进行分词,形成不同地址层级的地址节;分级查询模块,根据地址节的层级及待匹配地址所在的空间范围,在带有地址空间信息的地址节数据库中进行地址节的匹配;结果评价模块,对匹配到的地址计算相似度评分,并根据评分对匹配结果进行排序;其中,所述地址节数据库中的地址按照预设的规则划分为若干级,在各级地址的数据结构中构建有指向下一级地址数据结构的字段。因此,本专利技术的优点是:(1)本专利技术采用搜索与匹配混合引擎,在考虑上下文匹配的前提下进行搜索,使得命中地址的正确率大幅提升,能够在无人值守模式下,完美地将正确地址与问题地址区分开,并能够自动补齐缺失的地址节;(2)本专利技术提出了改善匹配命中率的方法,可以对每个地址节的描述建立不同的索引,在匹配时可以动态设定某些层级的地址节使用“相等”、“全包含”或“部分包含”,这实际上是放宽了匹配约束,再通过引入其他约束条件降低干扰,在保证正确率的前提下,提升地址匹配的命中率。(3)本专利技术使用了搜索与匹本文档来自技高网
...

【技术保护点】
1.一种基于图谱模型的地名地址存储方法,其特征在于,包括:地址分节步骤,用于将地址按照预设的规则划分为若干级;图谱构建步骤,在各级地址的数据结构中构建指向下一级地址数据结构的字段;接口构建步骤,在各级地址的数据结构基础上封装图模型数据查询接口服务,用于查询和访问数据结构中的所有数据项。

【技术特征摘要】
1.一种基于图谱模型的地名地址存储方法,其特征在于,包括:地址分节步骤,用于将地址按照预设的规则划分为若干级;图谱构建步骤,在各级地址的数据结构中构建指向下一级地址数据结构的字段;接口构建步骤,在各级地址的数据结构基础上封装图模型数据查询接口服务,用于查询和访问数据结构中的所有数据项。2.根据权利要求1所述的一种基于图谱模型的地名地址存储方法,其特征在于,所述地址分节步骤中,所地址节均写入分词库,并标记层级编号。3.根据权利要求1所述的一种基于图谱模型的地名地址存储方法,其特征在于,所述图谱构建步骤,通过一个16进制的数值标识UID标识各级地址数据结构,通过另一个字段addrLink标识下一级地址节的UID,UID与AddrLink字段使用hash索引存储于1号节点。4.根据权利要求3所述的一种基于图谱模型的地名地址存储方法,其特征在于,所述图谱构建步骤,使用Name字段记录地址节的中文名称,分别建立全文索引与术语索引,存储于2号节点;使用Lev字段记录地址层级,采用二叉树结构索引数值类型,存储于3号节点;地址节所在空间位置的中心点使用Loc字段记录,建立GeoHash索引,存储于4号节点。将这些数据按照字段与索引类型分布式存储用于不同节点,便于后续的分布式计算。5.一种基于图谱模型的地名地址查询方法,其特征在于,包括:地址拆分步骤,将待匹配地址按照地址层级进行分词,形成不同地址层级的地址节;分级查询步骤,根据地址节的层级及待匹配地址所在的空间范围,在带有地址空间信息的地址节数据库中进行地址节的匹配;结果评价步骤,对匹配到的地址计算相似度评分,并根据评分对匹配结果进行排序;其中,所述地址节数据库中的地址按照预设的规则划分为若干级,在各级地址的数据结构中构建有指向下一级地址数据结构的字段。...

【专利技术属性】
技术研发人员:姚明陈胜鹏付卓夏帷
申请(专利权)人:武大吉奥信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1