一种基于图结构的地名地址的解析方法技术

技术编号:24251632 阅读:55 留言:0更新日期:2020-05-22 23:37
本发明专利技术公开了一种基于图结构的地名地址的解析方法,具体包括以下步骤:S1定义地名地址图模型,用以表达地名地址的路径结构;S2基于涉及地名地址的基础地理信息数据以及专题地理信息数据,构建地名地址路径图数据库、地名地址空间数据库和地名地址全文索引数据库地名地址全文索引数据库,用于表达地名地址空间信息、地名地址路径结构和地名地址文本内容,并将所述地名地址空间信息数据库和地名地址路径结构数据库合并;S3基于地名地址图结构的解析方法,首先进行分词及命名实体识别,再通过全文索引获取候选路径,然后在地名地址图数据库中进行路径匹配;从而实现快速准确地解析地名地址,且具有更好的解析广度。

An analytic method of place name address based on graph structure

【技术实现步骤摘要】
一种基于图结构的地名地址的解析方法
本专利技术涉及地名地址空间数据库的构建与检索
,具体涉及一种基于图结构的地名地址的解析方法。
技术介绍
地名地址的检索包括两种类型:正向解析,根据地名地址的名称查询地名地址的空间位置等各类属性;逆向解析,即根据空间位置查询地名地址名称等各类属性;正向解析主要通过地址编码(Geocoding),由于中文地名地址的特性,针对中文地名地址的正向解析主要包括分词与解析两步,分词多依赖自然语言处理的规则方法或机器学习方法,而解析多侧重于标准地址或兴趣点(POI)。随着智慧城市建设过程中地名地址标准化采集整合更新机制的逐步完善,需要对地名地址描述的丰富语义进行表达,而图数据库、全文索引技术的成熟,使基于图结构的地名地址解析成为可能。因此,有必要开发一种基于图结构的地名地址的解析方法,通过定义地名地址图模型,构建地名地址图数据库,设计地名地址路径匹配方法,实现快速准确的解析地名地址。
技术实现思路
本专利技术要解决的技术问题是提供一种基于图结构的地名地址的解析方法,通过定义地名地址图模型,构建地名地址图数据库,设计地名地址路径匹配方法,实现对地名地址的解析,从而实现快速准确地解析地名地址,且具有更好的解析广度。为了解决上述技术问题,本专利技术采用的技术方案是:该基于图结构的地名地址的解析方法,具体包括以下步骤:S1定义地名地址图模型,用以表达地名地址的路径结构;S2基于涉及地名地址的基础地理信息数据以及专题地理信息数据,构建地名地址路径图数据库、地名地址空间数据库和地名地址全文索引数据库,用于表达地名地址路径结构、地名地址空间信息和地名地址文本内容,并将所述地名地址空间数据库和地名地址路径图数据库合并;S3基于地名地址图结构的解析方法,首先进行分词及命名实体识别,再通过全文索引获取候选路径,然后在地名地址图数据库中进行路径匹配,实现对地名地址的解析。作为本专利技术的优选技术方案,所述步骤S2具体包括以下步骤:S21构建地名地址路径图数据库:基于兼容步骤S1定义的所述地名地址图模型,根据基底地名地址构建所述地名地址路径图数据库,所述地名地址路径图数据库包括主干地名地址图结构和外部地名地址图结构;S22构建地名地址空间信息数据库:根据基底地名地址的要素信息以及空间网络模型,并进行空间索引,将R树和网络拓扑索引树合并入所述地名地址路径图数据库;S23构建地名地址全文索引内容数据库:构建地名地址文本的全文索引,可针对地名地址的通名、专名、拼音、类型进行全文检索;S24将合并后的地名地址路径图数据库和地名地址空间信息数据库与所述地名地址全文索引数据库的同一地名地址进行双向关联,当出现数据不一致时,以所述地名地址空间信息数据库作为数据一致性的基准;解析的遍历过程以所述地名地址路径图数据库及与其合并的所述地名地址空间信息数据库为核心。作为本专利技术的优选技术方案,所述步骤S3基于地名地址图结构的解析方法包括分词及命名实体识别,全文检索获取候选路径,在所述地名地址图数据库中进行路径匹配;具体包括以下步骤:S31地名地址进行分词及命名实体识别:采用自然语言处理的规则方法或机器学习方向进行分词及命名实体识别;针对分词及命名实体识别的模型训练,可以通过S21地名地址路径图数据库的遍历生成丰富的地名地址组合作为语料,支撑训练模型对于长程文本信息的建模;分词及命名实体识别获取待解析的N个地名地址候选分词结果Si=SP1|SP2|...|SPm,对应置信度为SCi;S32全文索引获取候选路径:对每个地名地址候选分词结果Si,对所述分词结果Si中含文本描述的地名SPj在所述地名地址全文索引数据库中进行全文检索,获取候选地名地址节的ID集合IDSj,构建候选地名地址路径集合PSi=IDS1->IDS2->...->IDS,其中地名为ID集合,地址仍为数字符号;->表示路径走向集合,所有的候选路径为前后IDS的笛卡尔积;可根据阈值删去在连续IDS中的低匹配度的候选地名地址节ID,从而减少候选路径的数量;S33在所述地名地址图数据库中进行路径匹配:对每个地名地址候选路径集合PSi,在所述地名地址路径图数据库中进行路径匹配,根据地名地址的领域特点,采用路径匹配算法计算匹配度,实现对地名地址的解析。作为本专利技术的优选技术方案,所述主干地名地址图结构为树状结构,分为三大层分别为:包含省市县和街道社区的区划地名、包含街路巷及物业小区的骨架地名、包含门楼牌、楼幢、层户的地址。在地名地址图模型中,各节点(Node)表达地名地址的位置语义(空间坐标、类型属性等),关系(RelationShip)默认为地名地址节点间的最基本的“包含/隶属”关系。作为本专利技术的优选技术方案,所述外部地名地址图结构为包含描述信息的外部地名地址,所述描述信息包括兴趣点、道路交汇点、出入口;所述外部地名地址图结构的外部地名地址节点以多链接的方式接入所述主干地名地址图结构的地名地址节点中,形成网状结构。外部地名地址图结构表达更为丰富复杂的外部地名地址,其中,关系则为地名地址文本中描述的各类空间关系以及逻辑关系。此地名地址图模型,标准地名地址部分,对地名地址分类体系不作约束,兼容现有国家标准、行业标准,通过外部地名地址灵活支持图结构中节点与关系的扩展。作为本专利技术的优选技术方案,所述步骤S33采用路径匹配算法计算匹配度的过程为:S331遍历入口选择:将描述信息丰富的所述外部地名地址作为入口,或以所述骨架地名作为入口进行双向遍历;即当兴趣点(POI)等描述信息丰富的外部地名地址为主的情况下,兴趣点(POI)作为遍历入口,否则以骨架地名作为入口进行双向遍历;S332遍历过程策略:从入口节点开始进行双向遍历,当前序遍历无法匹配时,则后续遍历停止;对于有多个入口节点可并行遍历,从而支持Map-Reduce方法;在遍历过程中若涉及空间关系,则采用显性保存的空间关系路径,反之则进入所述地名地址空间信息数据库空间索引树继续遍历;可以在遍历之前整体先做全文检索,或延迟至遍历过程中进行单个地名地址节的全文检索,即在前序或后续遍历时,根据对应分词文本,实时获取候选地名地址节,进行过滤;S333遍历结果匹配度计算:针对每个所述地名地址候选路径集合PSi的每条所述地名地址路径,根据其在所述地名地址路径图数据库中遍历匹配的路径长度以及中间关系间隔设置匹配度PM,并结合对应置信度SCi加权作为解析结果的匹配度。其中,中间关系间隔,针对空间索引、区划地名、骨架地名、地址、以及外部地名地址需设置不同的权重。与现有技术相比,本专利技术具有的有益效果为:基于图结构将地名地址路径与其空间索引与全文索引进行了统一,较传统基于全文索引及标准地址结构的地名地址解析方法,能更好的表达地名地址的丰富语义,具有更好的解析广度(鲁棒性)。附图说明图1是本专利技术基于图结构的地名地址的解析方法的流程图;图2是本专利技术基于图结构的地名地址的解析方法的地名地址本文档来自技高网...

【技术保护点】
1.一种基于图结构的地名地址的解析方法,其特征在于,具体包括以下步骤:/nS1定义地名地址图模型,用以表达地名地址的路径结构;/nS2基于涉及地名地址的基础地理信息数据以及专题地理信息数据,构建地名地址路径图数据库、地名地址空间数据库和地名地址全文索引数据库,用于表达地名地址路径结构、地名地址空间信息和地名地址文本内容,并将所述地名地址空间数据库和地名地址路径图数据库合并;/nS3基于地名地址图结构的解析方法,首先进行分词及命名实体识别,再通过全文检索获取候选路径,然后在地名地址图数据库中进行路径匹配,实现对地名地址的解析。/n

【技术特征摘要】
1.一种基于图结构的地名地址的解析方法,其特征在于,具体包括以下步骤:
S1定义地名地址图模型,用以表达地名地址的路径结构;
S2基于涉及地名地址的基础地理信息数据以及专题地理信息数据,构建地名地址路径图数据库、地名地址空间数据库和地名地址全文索引数据库,用于表达地名地址路径结构、地名地址空间信息和地名地址文本内容,并将所述地名地址空间数据库和地名地址路径图数据库合并;
S3基于地名地址图结构的解析方法,首先进行分词及命名实体识别,再通过全文检索获取候选路径,然后在地名地址图数据库中进行路径匹配,实现对地名地址的解析。


2.根据权利要求1所述的基于图结构的地名地址的解析方法,其特征在于,所述步骤S2具体包括以下步骤:
S21构建地名地址路径图数据库:基于兼容步骤S1定义的所述地名地址图模型,根据基底地名地址构建所述地名地址路径图数据库,所述地名地址路径图数据库包括主干地名地址图结构和外部地名地址图结构;
S22构建地名地址空间信息数据库:根据基底地名地址的要素信息以及空间网络模型,并进行空间索引,将R树和网络拓扑索引树合并入所述地名地址路径图数据库;
S23构建地名地址全文索引内容数据库:构建地名地址文本的全文索引,可针对地名地址的通名、专名、拼音、类型进行全文检索;
S24将合并后的地名地址路径图数据库和地名地址空间信息数据库与所述地名地址全文索引数据库的同一地名地址进行双向关联,当出现数据不一致时,以所述地名地址空间信息数据库作为数据一致性的基准;解析的遍历过程以所述地名地址路径图数据库及与其合并的所述地名地址空间信息数据库为核心。


3.根据权利要求2所述的基于图结构的地名地址的解析方法,其特征在于,所述步骤S3基于地名地址图结构的解析方法包括分词及命名实体识别,全文检索获取候选路径,在所述地名地址图数据库中进行路径匹配;具体包括以下步骤:
S31地名地址进行分词及命名实体识别:采用自然语言处理的规则方法或机器学习方向进行分词及命名实体识别;针对分词及命名实体识别的模型训练,可以通过S21地名地址路径图数据库的遍历生成丰富的地名地址组合作为语料,支撑训练模型对于长程文本信息的建模;分词及命名实体识别获取待解析的N个地名地址候选分词结果Si=SP1|SP2|...|SPm,对应置信度为SCi;

【专利技术属性】
技术研发人员:冯建亮周雄徐忠建朱必亮
申请(专利权)人:速度时空信息科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1