地址归一化处理方法及装置制造方法及图纸

技术编号:27656492 阅读:21 留言:0更新日期:2021-03-12 14:18
本发明专利技术一种地址归一化处理方法及装置,该方法包括:获取多种地址数据源,地址数据源包括多个与目标地址对应的原始地址;对各地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;对各初步治理后的原始地址进行网络爬取,得到与初步治理后的原始地址对应的网爬经纬度;根据网爬经纬度,对各初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。本发明专利技术基于多数据源经纬度精确匹配并使用地址权重归一化的方式来统一地址信息,有效解决了现有技术中对地址进行归一化分析的方法存在的处理效率低且准确性不高的问题,提升应用系统对地址信息的使用能力。

【技术实现步骤摘要】
地址归一化处理方法及装置
本专利技术涉及数据处理
,具体涉及一种地址归一化处理方法及装置。
技术介绍
在实际使用中,一些约定俗成的称谓能够准确地标识一个地址,而一个地址也会同时具有多种称谓,如简称、俗称、新旧称谓、前后顺序不一致、以地标物作为地址等。这些情况会使一个地址信息存在多种称谓,甚至在不同的应用中呈现出不同形态,而这些情况会在分析一个地址信息时带来较大干扰,因此通过地址归一化分析来统一地址信息,能够提升地址分析时的应用能力。目前,应用较为广泛的分析算法主要有基于规则的匹配方法或基于统计的方法等。其中,基于规则匹配的方法是从地址信息中提取各种地址元素,如省、市、街道等信息,然后与相应规则的地理信息匹配,从而获得准确的且机器可以识别的地址。然而,当规则知识的获取越来越多时,将会给带来处理瓶颈,处理效率低。而基于统计的方法,不需要广博的语言学知识,通过相应的模型计算出与目标地址概率最大且符合度最高的地址,从而实现地址归一化分析,这种分析方法对具体的语言特性依赖相对较少,可移植性比较好,主要有HMM、ME、决策树、基于转换学习以及本文档来自技高网...

【技术保护点】
1.一种地址归一化处理方法,其特征在于,包括:/n获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;/n对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;/n对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;/n根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。/n

【技术特征摘要】
1.一种地址归一化处理方法,其特征在于,包括:
获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;
对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;
根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。


2.根据权利要求1所述的方法,其特征在于,所述地址数据源包括运单地址数据源、网络地址数据源以及社会资源地址数据源;
所述运单地址数据源包括多个与目标地址对应的运单原始地址,所述网络地址数据源包括多个与目标地址对应的网络原始地址,所述社会资源地址数据源包括多个与目标地址对应的社会资源原始地址。


3.根据权利要求2所述的方法,其特征在于,若所述地址数据源为运单地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述运单地址数据源中每个运单原始地址进行字段抽取,得到与所述运单原始地址对应的运单省字段、运单市字段和运单详细地址字段;
依次对所述运单省字段和所述运单市字段的合法性和正确性进行验证,并在通过验证后对所述运单详细地址字段中包含的特殊字符进行处理,得到初步治理后的运单原始地址。


4.根据权利要求2所述的方法,其特征在于,若所述地址数据源为网络地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述网络地址数据源中每个网络原始地址进行字段抽取,得到与所述网络原始地址对应的网络经度字段、网络纬度字段和网络中文地址字段;
依次对从所述网络中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对所述网络中文地址字段中包含的特殊字符进行处理,得到初步治理后的网络原始地址。


5.根据权利要求2所述的方法,其特征在于,若所述地址数据源为社会资源地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述社会资源地址数据源中每个社会资源原始地址进行字段抽取,得到与所述社会资源原始地址对应的社会资源中文地址字段;
依次对从所述社会资源中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对所述社会资源中文地址字段中包含的特殊字符进行处理,得到初步治理后的社会资源原始地址。


6.根据权利要求1~5中...

【专利技术属性】
技术研发人员:王乐斐梁相军
申请(专利权)人:电信科学技术第十研究所有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1