【技术实现步骤摘要】
一种基于图结构的地名地址的解析方法
本专利技术涉及地名地址空间数据库的构建与检索
,具体涉及一种基于图结构的地名地址的解析方法。
技术介绍
地名地址的检索包括两种类型:正向解析,根据地名地址的名称查询地名地址的空间位置等各类属性;逆向解析,即根据空间位置查询地名地址名称等各类属性;正向解析主要通过地址编码(Geocoding),由于中文地名地址的特性,针对中文地名地址的正向解析主要包括分词与解析两步,分词多依赖自然语言处理的规则方法或机器学习方法,而解析多侧重于标准地址或兴趣点(POI)。随着智慧城市建设过程中地名地址标准化采集整合更新机制的逐步完善,需要对地名地址描述的丰富语义进行表达,而图数据库、全文索引技术的成熟,使基于图结构的地名地址解析成为可能。因此,有必要开发一种基于图结构的地名地址的解析方法,通过定义地名地址图模型,构建地名地址图数据库,设计地名地址路径匹配方法,实现快速准确的解析地名地址。
技术实现思路
本专利技术要解决的技术问题是提供一种基于图结构的地名地址的解析方法,通过 ...
【技术保护点】
1.一种基于图结构的地名地址的解析方法,其特征在于,具体包括以下步骤:/nS1定义地名地址图模型,用以表达地名地址的路径结构;/nS2基于涉及地名地址的基础地理信息数据以及专题地理信息数据,构建地名地址路径图数据库、地名地址空间数据库和地名地址全文索引数据库,用于表达地名地址路径结构、地名地址空间信息和地名地址文本内容,并将所述地名地址空间数据库和地名地址路径图数据库合并;/nS3基于地名地址图结构的解析方法,首先进行分词及命名实体识别,再通过全文检索获取候选路径,然后在地名地址图数据库中进行路径匹配,实现对地名地址的解析。/n
【技术特征摘要】 【专利技术属性】
1.一种基于图结构的地名地址的解析方法,其特征在于,具体包括以下步骤:
S1定义地名地址图模型,用以表达地名地址的路径结构;
S2基于涉及地名地址的基础地理信息数据以及专题地理信息数据,构建地名地址路径图数据库、地名地址空间数据库和地名地址全文索引数据库,用于表达地名地址路径结构、地名地址空间信息和地名地址文本内容,并将所述地名地址空间数据库和地名地址路径图数据库合并;
S3基于地名地址图结构的解析方法,首先进行分词及命名实体识别,再通过全文检索获取候选路径,然后在地名地址图数据库中进行路径匹配,实现对地名地址的解析。
2.根据权利要求1所述的基于图结构的地名地址的解析方法,其特征在于,所述步骤S2具体包括以下步骤:
S21构建地名地址路径图数据库:基于兼容步骤S1定义的所述地名地址图模型,根据基底地名地址构建所述地名地址路径图数据库,所述地名地址路径图数据库包括主干地名地址图结构和外部地名地址图结构;
S22构建地名地址空间信息数据库:根据基底地名地址的要素信息以及空间网络模型,并进行空间索引,将R树和网络拓扑索引树合并入所述地名地址路径图数据库;
S23构建地名地址全文索引内容数据库:构建地名地址文本的全文索引,可针对地名地址的通名、专名、拼音、类型进行全文检索;
S24将合并后的地名地址路径图数据库和地名地址空间信息数据库与所述地名地址全文索引数据库的同一地名地址进行双向关联,当出现数据不一致时,以所述地名地址空间信息数据库作为数据一致性的基准;解析的遍历过程以所述地名地址路径图数据库及与其合并的所述地名地址空间信息数据库为核心。
3.根据权利要求2所述的基于图结构的地名地址的解析方法,其特征在于,所述步骤S3基于地名地址图结构的解析方法包括分词及命名实体识别,全文检索获取候选路径,在所述地名地址图数据库中进行路径匹配;具体包括以下步骤:
S31地名地址进行分词及命名实体识别:采用自然语言处理的规则方法或机器学习方向进行分词及命名实体识别;针对分词及命名实体识别的模型训练,可以通过S21地名地址路径图数据库的遍历生成丰富的地名地址组合作为语料,支撑训练模型对于长程文本信息的建模;分词及命名实体识别获取待解析的N个地名地址候选分词结果Si=SP1|SP2|...|SPm,对应置信度为SCi;
技术研发人员:冯建亮,周雄,徐忠建,朱必亮,
申请(专利权)人:速度时空信息科技股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。