一种判断地址是否标准化、地址标准化的方法及系统技术方案

技术编号:21913995 阅读:23 留言:0更新日期:2019-08-21 12:26
本发明专利技术将采集地址进行清洗转换,将采集地址中的汉语数字转换为阿拉伯数字,按地址层级进行采集地址的拆分,对采集地址拆分后各个层级分别与标准地址库中的地址进行命中分析,利用每个层级的命中情况、预设的层级权重系数和层级之间的影响系数,获得采集地址的地址分值,利用采集地址的地址分值与预设的分值阈值比较,判断采集地址是否完成地址标准化。还可将判断标准化成功的采集地址与标准地址库进行映射,实现地址标准化,本发明专利技术极大的提高了地址匹配的效率,完美的解决了现有系统过于陈旧,采集地址混乱无法拓展的问题,更加方便地址系统的改造升级,有利于地址业务的统一。

A Method and System for Determining Address Standardization and Address Standardization

【技术实现步骤摘要】
一种判断地址是否标准化、地址标准化的方法及系统
本专利技术涉及通讯地址
,尤其是一种判断地址是否标准化、地址标准化的方法及系统。
技术介绍
目前地理信息系统(GIS)在各个系统中运用越来越广泛,而且通讯地址技术的应用与人们的生活息息相关,例如邮政的信件往来、银行业务系统、公安部门的信息管理系统等都需要对地址数据进行存储、识别、更新等处理。通讯地址的不规范或者不标准,将会给人们带来诸多的不便。例如:由于用户地址的不规范,邮政系统需要投入大量的人力和物力去解决如何识别正确的、标准的通讯地址,否则将会造成错误投递、重复投递的情况,而随着邮政业务数据的增长,这种投入将相应地进行扩大,这种情况对邮政系统来说将难以承受。银行业务系统中也存在着用户地址的不规范问题,倘若银行业务系统没有对用户地址进行标准化的处理,随着业务系统的数据量增大,不同数据库的不兼容性,银行业务系统将面临着处理速度较慢、效率低下,业务系统数据混乱的现象,很容易造成客户的损失和流失。由于一些老系统的数据库中存在的大批量非空间数据(没有经纬度坐标),在对旧系统进行改造升级时,需要增加上图标注、区域分析等功能,但由于地址采集没有标准、造成与标准地址匹配的概率很低。升级系统非常困难。因此,判断地址是否标准化以及将地址进行标准化处理是非常必要的。
技术实现思路
本专利技术提出了一种判断地址是否标准化、地址标准化的方法及系统。在一个方面,本专利技术提出了一种判断地址是否标准化的方法,包括以下步骤:S1:将采集地址进行清洗转换,其中采集地址中的汉语数字转换为阿拉伯数字;S2:按地址层级进行采集地址的拆分;S3:对采集地址拆分后各个层级分别与标准地址库中的地址进行命中分析;S4:利用每个层级的命中情况、预设的层级权重系数和层级之间的影响系数,获得采集地址的地址分值;S5:利用采集地址的地址分值与预设的分值阈值比较,判断采集地址是否完成地址标准化。在可选实施例中,步骤S4中的每个层级的权重系数不同,并且权重随层级的递增而增大。通过不同层级的权重系数的设定,使地址分值的计算更加的合理准确。在可选实施例中,层级之间的影响系数具体表现为其他层级与标准库的命中对当前层级的权重系数的影响程度,其他层级与当前层级间隔越大,影响系数越小。凭借影响系数的设置,进一步增强的地址分值结果的准确性。在可选实施例中,权重系数和影响系数均采用百分数的形式。最终获得的地址分值也为百分制的形式,凭借百分制的形式可以更直观的进行地址分值的判断。在可选实施例中,采集地址的地址分值具体包括每个层级的地址分值之和。通过各个层级的地址分值之和,获得采集地址的总的地址分值,能够客观的反应出采集地址的地址匹配命中情况。在可选实施例中,层级的地址分值具体表现为层级的命中情况与层级的综合系数的乘积,综合系数具体表现为层级的权重系数和影响系数之和。命中情况和综合系数的乘积反映了该层级的地址分值情况。在可选实施例中,地址分值的计算公式为其中si表示i层级对应的权重系数,xi表示i层级的地址段是否命中,xj表示j层级的地址段是否命中,取值为:0表示未命中、1表示命中,aij表示第j层级是否命中对i层级的权重系数si的影响系数。在可选实施例中,步骤S3的命中分析具体包括:利用路名+门牌号在标准库中进行匹配,获得命中的标准地址集合Rn,根据采集地址的室号在标准地址集合Rn中进行命中分析。利用路名+门牌号的精准匹配模式可以高效的进行采集地址的标准化判断,在可选实施例中,步骤S3的命中分析还包括利用拆分获得与路名匹配命中的标准地址集合Pn,提取采集地址中门牌号和/或室号之前的数字与标准地址集合Pn进行命中分析。在无法采用路名+门牌号的精准匹配模式的情况下,使用路名匹配命中,再根据门牌号和/或室号前的数字的提取来进行后续的匹配,可以保证采集地址得到有效的命中匹配,防止出现遗漏的情况。在可选实施例中,步骤S5具体为利用计算出的地址分值S与预设的分值阈值LS进行比对,若S>LS,表示采集地址的标准化成功,若S<LS,表示采集地址的标准化失败。凭借预设的分值阈值来对采集地址的标准化进行判断可以直观的获得采集地址的命中情况。根据本专利技术的另一方面,提出了一种地址标准化的方法,包括如上文的判断地址是否标准化的方法,该方法还包括将判断为标准化成功的采集地址与标准地址库内的地址建立映射关系。根据本专利技术的第三方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时上述方法。根据本专利技术的第四方面,提出一种判断地址是否标准化的系统,该系统包括:标准地址库,配置用于作为采集地址比对的标准;地址清洗转换单元,配置用于对采集地址按标准地址语言进行清洗转换;拆分单元,配置用于按地址层级进行采集地址的拆分;计算单元,配置用于利用每个层级的命中情况、层级的权重系数和层级之间的影响系数,计算获得采集地址的地址分值;判断单元,配置用于判断采集地址是否完成标准化。根据本专利技术的第五方面,提出了一种地址标准化的系统,包括如上文的判断地址是否标准化的系统,还包括映射单元,配置用于将标准化成功的采集地址与标准地址库中的地址建立映射关系。本专利技术对采集地址按标准地址库的层级进行拆分,分别对各个层级进行命中匹配分析,根据命中情况和预设层级的权重系数和层级之间的影响系数计算各个层级的地址分值,最终获得采集地址的地址分值,通过与设定的分值阈值进行对比分析判断采集地址是否完成标准化。极大的提高了匹配的效率,解决了现有系统过于陈旧,采集地址混乱无法拓展,方便系统的改造升级,有利于地址业务的统一。附图说明包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本专利技术的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本专利技术的一个实施例的判断地址标准化的方法流程图;图2是本专利技术的一个具体的实施例的地址分值计算方法的流程图;图3是本专利技术的一个实施例的地址标准化的方法流程图;图4是本专利技术的一个实施例的判断地址标准化的系统图;图5是本专利技术的一个实施例的地址标准化的系统图;图6是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了本专利技术的一个实施例的一种判断地址标准化的方法,该方法包括以下步骤:S101:将采集地址进行清洗转换,其中采集地址中的汉语数字转换为阿拉伯数字;例如“**市**区**路八十三号”转化为“**市**区**路83号”,将采集地址进行汉语数字转换为阿拉伯数字可以更容易的进行匹配命中,提高判断效率。在具体的实施例中,采集地址的转换还包括将地方性的地址语言习惯本文档来自技高网...

【技术保护点】
1.一种判断地址是否标准化的方法,其特征在于,包括以下步骤:S1:将采集地址进行清洗转换,其中所述采集地址中的汉语数字转换为阿拉伯数字;S2:按地址层级进行所述采集地址的拆分;S3:对所述采集地址拆分后各个层级分别与标准地址库中的地址进行命中分析;S4:利用每个所述层级的命中情况、预设的层级权重系数和所述层级之间的影响系数,获得所述采集地址的地址分值;S5:利用所述采集地址的地址分值与预设的分值阈值比较,判断所述采集地址是否完成地址标准化。

【技术特征摘要】
1.一种判断地址是否标准化的方法,其特征在于,包括以下步骤:S1:将采集地址进行清洗转换,其中所述采集地址中的汉语数字转换为阿拉伯数字;S2:按地址层级进行所述采集地址的拆分;S3:对所述采集地址拆分后各个层级分别与标准地址库中的地址进行命中分析;S4:利用每个所述层级的命中情况、预设的层级权重系数和所述层级之间的影响系数,获得所述采集地址的地址分值;S5:利用所述采集地址的地址分值与预设的分值阈值比较,判断所述采集地址是否完成地址标准化。2.根据权利要求1所述的一种判断地址是否标准化的方法,其特征在于,所述步骤S4中的每个所述层级的所述权重系数不同,并且所述权重随所述层级的递增而增大。3.根据权利要求1所述的一种判断地址是否标准化的方法,其特征在于,所述层级之间的影响系数具体表现为其他层级与所述标准库的命中对当前层级的所述权重系数的影响程度,所述其他层级与所述当前层级间隔越大,所述影响系数越小。4.根据权利要求3所述的一种判断地址是否标准化的方法,其特征在于,所述权重系数和所述影响系数均采用百分数的形式。5.根据权利要求1所述的一种判断地址是否标准化的方法,其特征在于,所述采集地址的所述地址分值具体包括每个所述层级的所述地址分值之和。6.根据权利要求5所述的一种判断地址是否标准化的方法,其特征在于,所述层级的所述地址分值具体表现为所述层级的命中情况与所述层级的综合系数的乘积,所述综合系数具体表现为所述层级的所述权重系数和所述影响系数之和。7.根据权利要求6所述的一种判断地址是否标准化的方法,其特征在于,所述地址分值的计算公式为其中si表示i层级对应的权重系数,xi表示i层级的地址段是否命中,xj表示j层级的地址段是否命中,取值为:0表示未命中、1表示命中,aij表示第j层级是否命中对i层级的所述权重系数si的影响系数。8.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:周成祖洪亚杰陈志飞连志阳王海滨
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1