一种中文地址行政区划标准化方法、系统及设备技术方案

技术编号:38163406 阅读:9 留言:0更新日期:2023-07-13 09:37
本申请公开一种中文地址行政区划标准化方法、系统及设备,方法包括:构建行政区划对应的地址要素对,并根据地址要素对,得到各级别行政区划对应的地址要素集合;构建地址要素集合对应的状态空间,并确定相邻级别行政区划对应的层次隶属关系,根据层次隶属关系,确定相邻级别行政区划之间的映射关系模型;根据映射关系模型,确定行政区划对应的层次关联矩阵;获取待标准化行政区划的原始地址字符,对原始地址字符进行分词,以得到原始地址字符对应的原始地址结构;获取行政区划对应的缺失补全条件,确定原始地址结构中是否满足缺失补全条件,若是,则根据层次关联矩阵,对原始地址结构进行更新,得到待标准化行政区划对应的标准地址结构。址结构。址结构。

【技术实现步骤摘要】
一种中文地址行政区划标准化方法、系统及设备


[0001]本申请涉及数据处理
,具体涉及一种中文地址行政区划标准化方法、系统及设备。

技术介绍

[0002]中文地址是由多个地址要素实体按照一定排序规则组合而成的用于描述空间位置信息的短文本自然语言字符串。中文地址作为一类能够关联不同数据源的重要信息,已经成为各种经济活动中重要的基础空间数据以及各类政企事务信息传递的重要载体,同时也已经渗透在个人生活的众多方面。
[0003]由于中文具有内涵多义性和形式多样性,由中文和特殊字符混合组成的中文地址不仅包含地名信息还可能包含关于空间信息的非标准描述,这使得中文地址作为一种非规范的自然语言字符串和一种非结构化的描述性数据,存在形式复杂多样及计算机难以理解处理等问题;除此之外,由于地址数据的采集方式不同、记录方式不统一、要素命名标准不一致等原因,使得中文地址数据存在要素不完整、表达不统一、易引起歧义等问题。这些问题极大影响中文地址数据的整体质量,使其不能直接用于匹配、统计、分析,最终会影响地址数据的流通性和潜在价值,阻碍地址数据的研究应用,难以满足信息化发展的需求。

技术实现思路

[0004]为了解决上述问题,本申请提出了一种中文地址行政区划标准化方法,包括:
[0005]根据行政区划和所述行政区划对应的索引编号,构建所述行政区划对应的地址要素对,并根据所述地址要素对,得到各级别行政区划对应的地址要素集合;
[0006]构建所述地址要素集合对应的状态空间,并确定相邻级别行政区划对应的层次隶属关系,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型;
[0007]根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵;
[0008]获取待标准化行政区划的原始地址字符,对所述原始地址字符进行分词,以得到所述原始地址字符对应的原始地址结构;
[0009]获取所述行政区划对应的缺失补全条件,确定所述原始地址结构中是否满足所述缺失补全条件,若是,则根据所述层次关联矩阵,对所述原始地址结构进行更新,得到所述待标准化行政区划对应的标准地址结构。
[0010]在本申请的一种实现方式中,根据所述地址要素对,得到各级别行政区划对应的地址要素集合,具体包括:
[0011]根据所述地址要素对,获取各级别行政区划分别对应的单级别地址要素集合;
[0012]针对每个单级别地址要素集合,确定所述单级别地址要素集合中的地址要素数量,根据所述地址要素数量,确定所述单级别地址要素集合对应行政区划的索引编号区间;
[0013]根据所述索引编号区间,对所述单级别地址要素集合对应的行政区划进行索引编号,以得到各级别行政区划对应的地址要素集合。
[0014]在本申请的一种实现方式中,构建所述地址要素集合对应的状态空间,具体包括:
[0015]确定所述地址要素集合中各行政区划对应的索引编号,根据所述索引编号,建立与所述索引编号等价的逻辑向量;
[0016]根据所述逻辑向量,构建所述地址要素集合对应的状态空间。
[0017]在本申请的一种实现方式中,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型,具体包括:
[0018]针对各级别行政区划地址要素集合对应的状态空间,将所述状态空间划分为若干个状态子空间;
[0019]根据所述层次隶属关系,确定所述状态子空间与其相邻级别行政区划对应的状态空间之间的第一映射关系,以根据所述第一映射关系,确定相邻级别行政区划之间的第二映射关系;
[0020]根据所述第二映射关系,构建相邻级别行政区划之间的映射关系模型。
[0021]在本申请的一种实现方式中,根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵,具体包括:
[0022]根据所述映射关系模型,确定所述行政区划对应的弱层次关联矩阵;
[0023]根据所述弱层次关联矩阵,确定所述行政区划中的指定行政区划是否隶属于所述行政区划对应的相邻级别行政区划;
[0024]若是,则对所述弱层次关联矩阵进行迭代计算,以得到所述行政区划对应的层次关联矩阵。
[0025]在本申请的一种实现方式中,对所述原始地址字符进行分词,以得到所述原始地址字符对应的原始地址结构,具体包括:
[0026]对所述原始地址字符进行分词,以得到由所述原始地址字符对应的多个地址元素所构成的地址元素序列,并将所述多个地址元素依次与所述地址要素集合进行匹配;
[0027]在存在相匹配的地址要素集合的情况下,获取所述地址要素集合中与所述地址要素相匹配的指定地址要素,并将所述指定地址要素添加到所述原始地址字符的原始地址结构中;
[0028]在不存在相匹配的地址要素集合的情况下,则根据所述地址元素序列中位于当前地址要素之后的其他地址要素,得到所述原始地址字符对应的原始地址结构。
[0029]在本申请的一种实现方式中,根据所述层次关联矩阵,对所述原始地址结构进行更新之前,所述方法还包括:
[0030]获取满足所述缺失补全条件的目标值以及所述目标值对应的目标地址元素;
[0031]确定所述目标地址元素所在的地址元素集合,根据所述地址元素集合中的索引编号,生成所述行政区划对应的逻辑矩阵。
[0032]在本申请的一种实现方式中,根据所述层次关联矩阵,对所述原始地址结构进行更新,得到所述待标准化行政区划对应的标准地址结构,具体包括:
[0033]根据所述层次关联矩阵和所述逻辑矩阵,构建所述行政区划对应的编号补全矩阵;其中,所述编号补全矩阵是由地址要素对所属行政区划在其对应的地址要素集合中的索引编号构成的;
[0034]获取所述编号补全矩阵中各元素对应的地址要素对,以构建所述行政区划对应的
行政区划补全矩阵;
[0035]根据所述行政区划补全矩阵,对所述原始地址结构进行更新,得到所述待标准化行政区划对应的标准地址结构。
[0036]本申请实施例提供了一种中文地址行政区划标准化系统,所述系统包括:
[0037]行政区划要素匹配模块,用于根据行政区划和所述行政区划对应的索引编号,构建所述行政区划对应的地址要素对,并根据所述地址要素对,得到各级别行政区划对应的地址要素集合;
[0038]行政区划层次关联模块,用于构建所述地址要素集合对应的状态空间,并确定相邻级别行政区划对应的层次隶属关系,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型;
[0039]还用于根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵;
[0040]行政区划识别转换模块,用于获取待标准化行政区划的原始地址字符,对所述原始地址字符进行分词,以得到所述原始地址字符对应的原始地址结构;
[0041]行政区划标准补全模块,用于获取所述行政区划对应的缺失补全条件,确定所述原始地址结构中是否满足所述缺失补全条件,若是,则根据所述层次关联矩阵,对所述原始地址本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文地址行政区划标准化方法,其特征在于,所述方法包括:根据行政区划和所述行政区划对应的索引编号,构建所述行政区划对应的地址要素对,并根据所述地址要素对,得到各级别行政区划对应的地址要素集合;构建所述地址要素集合对应的状态空间,并确定相邻级别行政区划对应的层次隶属关系,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型;根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵;获取待标准化行政区划的原始地址字符,对所述原始地址字符进行分词,以得到所述原始地址字符对应的原始地址结构;获取所述行政区划对应的缺失补全条件,确定所述原始地址结构中是否满足所述缺失补全条件,若是,则根据所述层次关联矩阵,对所述原始地址结构进行更新,得到所述待标准化行政区划对应的标准地址结构。2.根据权利要求1所述的一种中文地址行政区划标准化方法,其特征在于,根据所述地址要素对,得到各级别行政区划对应的地址要素集合,具体包括:根据所述地址要素对,获取各级别行政区划分别对应的单级别地址要素集合;针对每个单级别地址要素集合,确定所述单级别地址要素集合中的地址要素数量,根据所述地址要素数量,确定所述单级别地址要素集合对应行政区划的索引编号区间;根据所述索引编号区间,对所述单级别地址要素集合对应的行政区划进行索引编号,以得到各级别行政区划对应的地址要素集合。3.根据权利要求2所述的一种中文地址行政区划标准化方法,其特征在于,构建所述地址要素集合对应的状态空间,具体包括:确定所述地址要素集合中各行政区划对应的索引编号,根据所述索引编号,建立与所述索引编号等价的逻辑向量;根据所述逻辑向量,构建所述地址要素集合对应的状态空间。4.根据权利要求1所述的一种中文地址行政区划标准化方法,其特征在于,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型,具体包括:针对各级别行政区划地址要素集合对应的状态空间,将所述状态空间划分为若干个状态子空间;根据所述层次隶属关系,确定所述状态子空间与其相邻级别行政区划对应的状态空间之间的第一映射关系,以根据所述第一映射关系,确定相邻级别行政区划之间的第二映射关系;根据所述第二映射关系,构建相邻级别行政区划之间的映射关系模型。5.根据权利要求1所述的一种中文地址行政区划标准化方法,其特征在于,根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵,具体包括:根据所述映射关系模型,确定所述行政区划对应的弱层次关联矩阵;根据所述弱层次关联矩阵,确定所述行政区划中的指定行政区划是否隶属于所述行政区划对应的相邻级别行政区划;若是,则对所述弱层次关联矩阵进行迭代计算,以得到所述行政区划对应的层次关联矩阵。6.根据权利要求1所述的一种中文地址行政区划标准化方法,其特征在于,对所述原始
地址字符进行分词,以得到所述原始地址字符对应的原始地址结构,具体包括:对所述原始地址字符进行分词,以得到由所述原始地址字符对应的多个地址元素所构成的地址元素序列,并将所述多个地址元素依次与所述地址要素集合进行匹配;在存在相匹配的地址要素集合的情况下,获取所述地址要素集合中与所述地址要素相匹配的指定地址要素,并将所述指定地址要素添加到所述原始地址...

【专利技术属性】
技术研发人员:张庆乐赵海兴董晨晨赵子墨
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1