【技术实现步骤摘要】
一种中文地址行政区划标准化方法、系统及设备
[0001]本申请涉及数据处理
,具体涉及一种中文地址行政区划标准化方法、系统及设备。
技术介绍
[0002]中文地址是由多个地址要素实体按照一定排序规则组合而成的用于描述空间位置信息的短文本自然语言字符串。中文地址作为一类能够关联不同数据源的重要信息,已经成为各种经济活动中重要的基础空间数据以及各类政企事务信息传递的重要载体,同时也已经渗透在个人生活的众多方面。
[0003]由于中文具有内涵多义性和形式多样性,由中文和特殊字符混合组成的中文地址不仅包含地名信息还可能包含关于空间信息的非标准描述,这使得中文地址作为一种非规范的自然语言字符串和一种非结构化的描述性数据,存在形式复杂多样及计算机难以理解处理等问题;除此之外,由于地址数据的采集方式不同、记录方式不统一、要素命名标准不一致等原因,使得中文地址数据存在要素不完整、表达不统一、易引起歧义等问题。这些问题极大影响中文地址数据的整体质量,使其不能直接用于匹配、统计、分析,最终会影响地址数据的流通性和潜在价值,阻碍地址数据的研究应用,难以满足信息化发展的需求。
技术实现思路
[0004]为了解决上述问题,本申请提出了一种中文地址行政区划标准化方法,包括:
[0005]根据行政区划和所述行政区划对应的索引编号,构建所述行政区划对应的地址要素对,并根据所述地址要素对,得到各级别行政区划对应的地址要素集合;
[0006]构建所述地址要素集合对应的状态空间,并确定相邻级别行政区划对应的层 ...
【技术保护点】
【技术特征摘要】
1.一种中文地址行政区划标准化方法,其特征在于,所述方法包括:根据行政区划和所述行政区划对应的索引编号,构建所述行政区划对应的地址要素对,并根据所述地址要素对,得到各级别行政区划对应的地址要素集合;构建所述地址要素集合对应的状态空间,并确定相邻级别行政区划对应的层次隶属关系,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型;根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵;获取待标准化行政区划的原始地址字符,对所述原始地址字符进行分词,以得到所述原始地址字符对应的原始地址结构;获取所述行政区划对应的缺失补全条件,确定所述原始地址结构中是否满足所述缺失补全条件,若是,则根据所述层次关联矩阵,对所述原始地址结构进行更新,得到所述待标准化行政区划对应的标准地址结构。2.根据权利要求1所述的一种中文地址行政区划标准化方法,其特征在于,根据所述地址要素对,得到各级别行政区划对应的地址要素集合,具体包括:根据所述地址要素对,获取各级别行政区划分别对应的单级别地址要素集合;针对每个单级别地址要素集合,确定所述单级别地址要素集合中的地址要素数量,根据所述地址要素数量,确定所述单级别地址要素集合对应行政区划的索引编号区间;根据所述索引编号区间,对所述单级别地址要素集合对应的行政区划进行索引编号,以得到各级别行政区划对应的地址要素集合。3.根据权利要求2所述的一种中文地址行政区划标准化方法,其特征在于,构建所述地址要素集合对应的状态空间,具体包括:确定所述地址要素集合中各行政区划对应的索引编号,根据所述索引编号,建立与所述索引编号等价的逻辑向量;根据所述逻辑向量,构建所述地址要素集合对应的状态空间。4.根据权利要求1所述的一种中文地址行政区划标准化方法,其特征在于,根据所述层次隶属关系,确定相邻级别行政区划之间的映射关系模型,具体包括:针对各级别行政区划地址要素集合对应的状态空间,将所述状态空间划分为若干个状态子空间;根据所述层次隶属关系,确定所述状态子空间与其相邻级别行政区划对应的状态空间之间的第一映射关系,以根据所述第一映射关系,确定相邻级别行政区划之间的第二映射关系;根据所述第二映射关系,构建相邻级别行政区划之间的映射关系模型。5.根据权利要求1所述的一种中文地址行政区划标准化方法,其特征在于,根据所述映射关系模型,确定所述行政区划对应的层次关联矩阵,具体包括:根据所述映射关系模型,确定所述行政区划对应的弱层次关联矩阵;根据所述弱层次关联矩阵,确定所述行政区划中的指定行政区划是否隶属于所述行政区划对应的相邻级别行政区划;若是,则对所述弱层次关联矩阵进行迭代计算,以得到所述行政区划对应的层次关联矩阵。6.根据权利要求1所述的一种中文地址行政区划标准化方法,其特征在于,对所述原始
地址字符进行分词,以得到所述原始地址字符对应的原始地址结构,具体包括:对所述原始地址字符进行分词,以得到由所述原始地址字符对应的多个地址元素所构成的地址元素序列,并将所述多个地址元素依次与所述地址要素集合进行匹配;在存在相匹配的地址要素集合的情况下,获取所述地址要素集合中与所述地址要素相匹配的指定地址要素,并将所述指定地址要素添加到所述原始地址...
【专利技术属性】
技术研发人员:张庆乐,赵海兴,董晨晨,赵子墨,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。