基于地址树模型的中文地址提取方法技术

技术编号:24996032 阅读:33 留言:0更新日期:2020-07-24 17:58
本发明专利技术提出一种基于地址树模型的中文地址提取方法,包括以下步骤:步骤S1:对地址字符串进行分词和识别,生成地址元素集合以及地址元素语义集合;步骤S2:建立根结点root,提取地址元素,遍历地址元素的语义集,构建地址语义结点,并依次连结到根节点;步骤S3:提取后续地址元素,遍历其语义结点;执行语义级别的比较和空间约束关系一致性判断,进行与叶子节点的连接或生成新的子树。

【技术实现步骤摘要】
基于地址树模型的中文地址提取方法
本专利技术涉及计算机技术、数据检索、计算机数据处理领域,尤其涉及一种基于地址树模型的中文地址提取方法。
技术介绍
地址是一种对个体地域空间位置信息的编码方法,在我国,由于城市快速发展,地址规划相对落后,非标准地址大量存在。以门牌的管理为例,如说明书附图图1所示,“福州市勘测院”所在的地址为“福州市鼓楼区湖东路188号”,该地址模型为“市|区|道路|门牌号”,其中,“市|区”部分由民政部地名办公室管理,“道路”由区(县)地名办公室管理,而“门牌号”由公安部门管理。目前全国到各省市,尚无一个统一的协调机构,这种突出的矛盾已经无法满足城市规划和信息化发展的需求。表1福州市地址模型示例中文地址模型研究已经得到越来越多学者关注,在《福州市居民地地名标志设置规范》中,已经对福州市的地址模型进行了全面的规范。表1通过分析福州市部分地址,提取了几种常用的地址模型,可以得到以下四个结论:(1)行政区划在地址模型中作用重要,作为主要的空间区域约束元素;(2)由于缺乏唯一、标准的地址表述,在描述地址时,人们总是提供尽可能多的描述信息,导致地址描述的信息冗余,这种冗余亦可能导致地址歧义;(3)在有明确门牌号的情况下,人们愿意选择门牌描述地址。但是由于门牌规划、标示不充分,导致用户不得不选择公共设施、单位名等稳定性低的地名作为地址描述;(4)新旧城区无统一标准,部分城中村编码方案混乱,有采用门牌号的,也有采用楼栋号的;地址模型是地址标准化的核心,也是实施地理编码的核心。地址模型的确立需要有完善的规划方案作为前提,同时要兼顾用户的空间认知习惯,以引导为主,逐步推进地址规范化的有效实施。而针对目前的非标准地址大量存在的现实,通过人工识别分类等方式难以有效进行大量的地址提取,因此通过计算机程序实现有效的地址提取算法是唯一解决办法。
技术实现思路
为了解决现有技术存在的缺陷和不足的问题,本专利技术提出了一种基于地址树模型的中文地址提取方法,该方法以地址元素的空间约束关系为条件,提出一种地址树模型,通过地址元素的识别、空间约束关系的重构、地址原始指向的识别、错误地址元素剔除以及地址冗余信息的过滤,提取标准地址,提高地址匹配的准确性。地址提取的过程是在地址元素的语义集合中,寻找一条符合空间约束关系的连通路径,每条子地址可看作地址描述的一个子树,这种特点适合用树模型进行地址解析。实验证明,该方法有较高的地址匹配率。其具体采用以下技术方案:一种基于地址树模型的中文地址提取方法,其特征在于,包括以下步骤:步骤S1:对地址字符串进行分词和识别,生成地址元素集合X以及地址元素语义集合S;步骤S2:建立根结点root,提取地址元素x1,遍历地址元素x1的语义集S1,构建地址语义结点,并依次连结到根节点;步骤S3:提取后续地址元素xi,遍历其语义结点Si;执行语义级别的比较和空间约束关系一致性判断,进行与叶子节点的连接或生成新的子树。优选地,步骤S3具体包括:步骤S31:对于结点sim(m=1,2,3…),依次与当前地址树的叶子节点li比较语义级别,若结点sim语义级别低于叶子节点li,则执行步骤S32:步骤S32:比较结点sim与叶子节点li的空间约束关系一致性,若空间约束关系一致,则结点Sil连结到当前叶子节点li;若空间约束关系不一致,则沿当前地址树上溯,直到找到当前地址树的叶子节点li′,满足叶子节点li′语义大于结点sim;此时比较两节点的空间约束一致性:若不一致,则回到步骤S31,比较结点sim与地址树的下一叶子节点;若一致,比较结点sim与叶子节点li′后一结点的空间约束关系,若一致,则把结点sim插入到该子树当前位置,若不一致,则回到步骤S31,比较结点sim与地址树的下一叶子节点;步骤S33:若结点sim上溯到根结点,仍未连结,则把该节点连接到地址树的最右边,作为一条新的子树。优选地,在步骤S3中,对于同一地址元素,若AddrLevel(si)≠AddrLevel(sj)(i≠j),并且sj已经成为地址树的叶子节点,则跳过该叶子结点。优选地,在步骤S3中,以拓扑关系作为空间约束关系是否一致的判断标准。实现执行以上步骤,可以从非标准地址中提取标准地址,并剔除非标准和错误地址元素。本专利技术及其优选方案通过地址元素的识别、空间约束关系的重构、地址原始指向的识别、错误地址元素剔除以及地址冗余信息的过滤,提取标准地址,提高了地址匹配的准确性。附图说明下面结合附图和具体实施方式对本专利技术进一步详细的说明:图1为中国地名管理体系示例示意图;图2为本专利技术实施例地址、地址元素、地址语义关系示意图;图3为本专利技术实施例建筑物所在地址匹配结果示意图;图4为本专利技术实施例整体流程示意图。具体实施方式为让本专利的特征和优点能更明显易懂,下文特举实施例,并配合附图,作详细说明如下:本实施例考虑到组成标准地址的地址元素之间需要具有空间约束关系,可用拓扑关系表示这种约束,具体的拓扑关系类型要根据地址元素的几何类型确定,一般要保证地址元素间的包含或关联关系:1.利用九交模型描述地址模型空间约束关系在本实施例中,组成标准地址的地址元素之间需要具有空间约束关系,如公式1中的xi≠xj,可用拓扑关系表示这种约束,具体的拓扑关系类型要根据地址元素的几何类型确定,一般要保证地址元素间的包含或关联关系。这里分别以“行政区划|道路|门牌号|公共设施”(StreetNetworkModel)和“行政区划|片区|门牌号|公共设施”(AddressParcelModel)两种常用地址模型说明。表2地址元素空间约束关系的九交模型表达路网模型(StreetNetworkModel)是约束关系最复杂的一种模型,道路是地址信息的主要载体,行政区划与道路关系主要有三种:包含、关联和相交,如表2所示,例1是最常见的地址模型。中文地址的组织,往往从高级别行政区划开始,以空间上的包含关系来逐步限定地址表述目标,这种特点比较符合点状模型或者分区模型,但也被应用于路网模型。多数道路也适合这种“包含于”行政区划的特征,但是,道路经常作为行政区划的分界,或者出现跨越行政区划的现象,如示例2-5,这时,地址元素的层次关系表达不代表其“包含”的空间关系,只代表其空间上的关联关系,这种组织方式可以明确路段信息,使地址指向更加明确。门牌号与道路是拓扑关联关系,总体上沿道路按照线性特征分布。通过对部分城市门牌数据的分析发现,绝大多数门牌分布在道路400米以内,部分区域由于路网稀疏,居民点密集,门牌呈聚集状分布。分区模型(AddressParcel),是以居住区为单位的面状区域地址元素,例如城中村、社区分区或工业区等,如表2示例6。这类地址元素一般“包含于”行政区划,同时分区也包含一定的门牌号或本文档来自技高网
...

【技术保护点】
1.一种基于地址树模型的中文地址提取方法,其特征在于,包括以下步骤:/n步骤S1:对地址字符串进行分词和识别,生成地址元素集合X以及地址元素语义集合S;/n步骤S2:建立根结点root,提取地址元素x

【技术特征摘要】
1.一种基于地址树模型的中文地址提取方法,其特征在于,包括以下步骤:
步骤S1:对地址字符串进行分词和识别,生成地址元素集合X以及地址元素语义集合S;
步骤S2:建立根结点root,提取地址元素x1,遍历地址元素x1的语义集S1,构建地址语义结点,并依次连结到根节点;
步骤S3:提取后续地址元素xi,遍历其语义结点Si;执行语义级别的比较和空间约束关系一致性判断,进行与叶子节点的连接或生成新的子树。


2.根据权利要求1所述基于地址树模型的中文地址提取方法,其特征在于:步骤S3具体包括:
步骤S31:对于结点Sim(m=1,2,3…),依次与当前地址树的叶子节点li比较语义级别,若结点Sim语义级别低于叶子节点li,则执行步骤S32:
步骤S32:比较结点Sim与叶子节点li的空间约束关系一致性,
若空间约束关系一致,则结点Si1连结到当前叶子节点li;
若空间约束关系不一致,则沿当前地址树上...

【专利技术属性】
技术研发人员:张平亢孟军汪艳霞叶蕾刘越曾伟东陈建黄磊刘仁林熹
申请(专利权)人:福州市勘测院
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1