地址标准化的方法及装置制造方法及图纸

技术编号:31021534 阅读:14 留言:0更新日期:2021-11-30 03:11
本发明专利技术公开了一种地址标准化的方法及装置,将地址库中的地址数据进行数据清洗,将数据中的“省市县乡镇、特别行政区、自治区”数据进行去除,通过获取地址库中的省、市、县、乡镇级别的名称及简称,创建拼装成一个Trie(前缀树或字典树)形式的数据结构。将调用地址标准化方法的入参参数通过多模字符串匹配算法,在Trie数据结构中匹配出对应的数据集。遍历数据集将相同键值的数据进行组合成集合,使得长地址覆盖短地址。最后,将形成的新的数据集合通过地址库中的父子集关系将不属于要求的地址层级分支数据剔除,并将所属父级补充完成,形成标准的地址数据并返回。使得地址统一了标准,给人们的生活和工作带来了便利。给人们的生活和工作带来了便利。给人们的生活和工作带来了便利。

【技术实现步骤摘要】
地址标准化的方法及装置


[0001]本专利技术涉及计算机科学
,具体涉及一种地址标准化的方法及装置。

技术介绍

[0002]在当今社会信息化高速发展中,地址标准化的运用越来越广泛,而且计算机科学技术的应用与人们的生活息息相关。例如物流快递的配送地址提取、智能汽车导航、银行卡信息填写地址校验等涉及到各个领域。地址不规范或者不标准,将会给人们带来诸多不便。例如:快递员在派送快递时,有些地址本身存在一地多名的情况,就会导致派送地址不明确,导致错误派送及重复派送的情况,随着快递行业不断发展,配送地址数据不断增长,这种不规范的地址将会给快递行业造成的影响将是不可承受的。当我们使用汽车导航去目的地时,不规范的地址会导致导航偏差甚至错误导航,造成不必要的时间浪费。在办理银行相关业务的时,经常会被工作人员要求填写住址信息,在填写住址信息中存在行政区划缺、错、漏、假的现象,对于地址不全、错误、虚假等非标准化地址数据,无法进行智能的预警提醒,提高了银行业务风险。诸如上述所述问题,将地址标准化处理是非常必要的。

技术实现思路

[0003]为此,本专利技术实施例提供一种地址标准化的方法及装置,以解决现有技术存在的地址不规范或者不标准,给人们带来诸多不便的问题。
[0004]为了实现上述目的,本专利技术实施例提供如下技术方案:
[0005]第一方面,一种地址标准化的方法,包括:
[0006]将地址库中的数据进行数据清洗形成Trie数据结构集合;
[0007]调用地址标准化方法的入参参数在Trie数据结构中匹配对应的数据集;
[0008]遍历Trie数据集将相同键值的数据进行组合成集合,形成新的数据集合;
[0009]将形成的新的数据集合通过地址库中的父子集关系将不属于要求的地址层级从集合中剔除,并将所属父级补充完成,最终形成标准的地址数据。
[0010]进一步的,将地址库中的数据进行数据清洗时,具体包括:
[0011]对带有“省市县乡镇、特别行政区、自治区”数据通过正则表达式“([省市县乡镇区]|特别行政区|自治区)$”对地址标准数据进行定位关键字,再用库中地址名称去进行覆盖替换;根据地址库中的地址名称和简称组装成Trie 结构数据集合。
[0012]进一步的,调用地址标准化方法的入参参数是通过多模字符串匹配算法,在Trie数据结构中匹配对应的数据集。
[0013]进一步的,遍历Trie数据集将相同键值的数据组合成集合时是将数据进行完善和重组来形成新的数据集合。
[0014]更进一步的,数据完善是完善Trie数据的“值”列,数据重组是将返回的数据遍历进行重新组合数据结构,将父节点相同的节点进行合并操作,将父节点不同的节点用长地址覆盖短地址操作。
[0015]进一步的,经过将Trie数据遍历处理后得到的数据为无重复父级的详细节点数据。
[0016]更进一步的,数据详细结构为:地址节点名称、起始和结束字符位置以及当前地址节点的基础信息。
[0017]进一步的,所述数据结构集合形成分三种数据:地址库中的地址名称数据、通过正则匹配替换形成的地址名称数据、地址名称简称数据。
[0018]第二方面,一种地址标准化的装置,包括:
[0019]数据清洗模块,用于将地址库中的数据进行数据清洗形成Trie数据结构集合;
[0020]数据匹配模块,用于将调用地址标准化方法的入参参数在Trie数据结构中匹配对应的数据集;
[0021]数据组合模块,用于遍历Trie数据集将相同键值的数据进行组合成集合,形成新的数据集合;
[0022]标准地址数据处理模块,用于将形成的新的数据集合通过地址库中的父子集关系将不属于要求的地址层级从集合中剔除,并将所属父级补充完成,最终形成标准的地址数据。
[0023]进一步的,所述数据组合模块包括:
[0024]数据完善模块,用于完善Trie数据的“值”列;
[0025]数据重组模块,用于将返回的数据遍历进行重新组合数据结构,将父节点相同的节点进行合并操作,将父节点不同的节点用长地址覆盖短地址操作。
[0026]本专利技术至少具有以下有益效果:本专利技术提供的地址标准化的方法及装置,将地址库中的地址数据进行数据清洗,将数据中的“省市县乡镇、特别行政区、自治区”数据进行去除,通过获取地址库中的省、市、县、乡镇级别的名称及简称,创建拼装成一个Trie(前缀树或字典树)形式的数据结构。将调用地址标准化方法的入参参数通过多模字符串匹配算法,在Trie数据结构中匹配出对应的数据集。遍历数据集将相同键值的数据进行组合成集合,使得长地址覆盖短地址。最后,将形成的新的数据集合通过地址库中的父子集关系将不属于要求的地址层级分支数据剔除,并将所属父级补充完成,形成标准的地址数据并返回。使得地址统一了标准,给人们的生活和工作带来了便利。
附图说明
[0027]为了更清楚地说明现有技术以及本专利技术,下面将对现有技术以及本专利技术实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的附图。
[0028]本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
能涵盖的范围内。
[0029]图1为本专利技术实施例提供的地址标准化的整体方法流程图;
[0030]图2为本专利技术实施例提供的Trie的数据结构图;
[0031]图3为本专利技术实施例提供的Trie数据结构集合流程图。
具体实施方式
[0032]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0033]在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)旨在区别指代的对象。对于具有时序流程的方案,这种术语表述方式不必理解为描述特定的顺序或先后次序,对于装置结构的方案,这种术语表述方式也不存在对重要程度、位置关系的区分等。
[0034]此外,术语“包括”、“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元,而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元,或者基于本专利技术构思进一步的优化方案所增加的步骤或单元。
[0035]本专利技术提供一种地址标准化的方法,包括以下步骤:
[0036]S1:将地址库中的数据进行数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址标准化的方法,其特征在于,包括:将地址库中的数据进行数据清洗形成Trie数据结构集合;调用地址标准化方法的入参参数在Trie数据结构中匹配对应的数据集;遍历Trie数据集将相同键值的数据进行组合成集合,形成新的数据集合;将形成的新的数据集合通过地址库中的父子集关系将不属于要求的地址层级从集合中剔除,并将所属父级补充完成,最终形成标准的地址数据。2.根据权利要求1所述的地址标准化的方法,其特征在于,将地址库中的数据进行数据清洗时,具体包括:对带有“省市县乡镇、特别行政区、自治区”数据通过正则表达式“([省市县乡镇区]|特别行政区|自治区)$”对地址标准数据进行定位关键字,再用库中地址名称去进行覆盖替换;根据地址库中的地址名称和简称组装成Trie结构数据集合。3.根据权利要求1所述的地址标准化的方法,其特征在于,调用地址标准化方法的入参参数是通过多模字符串匹配算法,在Trie数据结构中匹配对应的数据集。4.根据权利要求1所述的地址标准化的方法,其特征在于,遍历Trie数据集将相同键值的数据组合成集合时是将数据进行完善和重组来形成新的数据集合。5.根据权利要求4所述的地址标准化的方法,其特征在于,数据完善是完善Trie数据的“值”列,数据重组是将返回的数据遍历进行重新组合数据结构,将父节点相同的节点进行合并操作,将父节点不同...

【专利技术属性】
技术研发人员:麦天骥
申请(专利权)人:北京市律典通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1