【技术实现步骤摘要】
地址归一化处理方法及装置
本专利技术涉及数据处理
,具体涉及一种地址归一化处理方法及装置。
技术介绍
在实际使用中,一些约定俗成的称谓能够准确地标识一个地址,而一个地址也会同时具有多种称谓,如简称、俗称、新旧称谓、前后顺序不一致、以地标物作为地址等。这些情况会使一个地址信息存在多种称谓,甚至在不同的应用中呈现出不同形态,而这些情况会在分析一个地址信息时带来较大干扰,因此通过地址归一化分析来统一地址信息,能够提升地址分析时的应用能力。目前,应用较为广泛的分析算法主要有基于规则的匹配方法或基于统计的方法等。其中,基于规则匹配的方法是从地址信息中提取各种地址元素,如省、市、街道等信息,然后与相应规则的地理信息匹配,从而获得准确的且机器可以识别的地址。然而,当规则知识的获取越来越多时,将会给带来处理瓶颈,处理效率低。而基于统计的方法,不需要广博的语言学知识,通过相应的模型计算出与目标地址概率最大且符合度最高的地址,从而实现地址归一化分析,这种分析方法对具体的语言特性依赖相对较少,可移植性比较好,主要有HMM、ME、决策 ...
【技术保护点】
1.一种地址归一化处理方法,其特征在于,包括:/n获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;/n对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;/n对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;/n根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。/n
【技术特征摘要】
1.一种地址归一化处理方法,其特征在于,包括:
获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;
对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;
根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。
2.根据权利要求1所述的方法,其特征在于,所述地址数据源包括运单地址数据源、网络地址数据源以及社会资源地址数据源;
所述运单地址数据源包括多个与目标地址对应的运单原始地址,所述网络地址数据源包括多个与目标地址对应的网络原始地址,所述社会资源地址数据源包括多个与目标地址对应的社会资源原始地址。
3.根据权利要求2所述的方法,其特征在于,若所述地址数据源为运单地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述运单地址数据源中每个运单原始地址进行字段抽取,得到与所述运单原始地址对应的运单省字段、运单市字段和运单详细地址字段;
依次对所述运单省字段和所述运单市字段的合法性和正确性进行验证,并在通过验证后对所述运单详细地址字段中包含的特殊字符进行处理,得到初步治理后的运单原始地址。
4.根据权利要求2所述的方法,其特征在于,若所述地址数据源为网络地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述网络地址数据源中每个网络原始地址进行字段抽取,得到与所述网络原始地址对应的网络经度字段、网络纬度字段和网络中文地址字段;
依次对从所述网络中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对所述网络中文地址字段中包含的特殊字符进行处理,得到初步治理后的网络原始地址。
5.根据权利要求2所述的方法,其特征在于,若所述地址数据源为社会资源地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述社会资源地址数据源中每个社会资源原始地址进行字段抽取,得到与所述社会资源原始地址对应的社会资源中文地址字段;
依次对从所述社会资源中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对所述社会资源中文地址字段中包含的特殊字符进行处理,得到初步治理后的社会资源原始地址。
6.根据权利要求1~5中...
【专利技术属性】
技术研发人员:王乐斐,梁相军,
申请(专利权)人:电信科学技术第十研究所有限公司,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。