一种地址数据的管理方法和装置制造方法及图纸

技术编号:14066854 阅读:87 留言:0更新日期:2016-11-28 12:50
本申请公开了一种地址数据的管理方法和装置,该方法包括:地址管理装置获得用户输入的原始地址数据;所述地址管理装置确定包括多个地址类型的结构化地址格式;所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。本申请实施例中,通过设置包括多个地址类型的结构化地址格式,并生成符合结构化地址格式的结构化地址数据,从而生成规范化、标准化的地址数据,解决无法对文本地址进行规范化的问题,并能够判断不同文本地址间的异同性,能够识别文本地址的相关归属。

【技术实现步骤摘要】

本申请涉及通信
,尤其涉及一种地址数据的管理方法和装置
技术介绍
在电子商务网站和物流系统中产生了大量文本地址,这些文本地址的输入格式和地址元素因用户而不同。例如,用户A输入的文本地址只包括门牌号信息,用户B输入的文本地址只包括POI(Point of Interest,兴趣点)信息,用户C输入的文本地址包括错误的区县或门牌号信息。这些文本地址缺乏规范化、标准化,无法判断不同文本地址间的异同性,无法识别文本地址的相关归属。其中,地址元素是指文本地址中的各级元素,如省、市、区、开发区、镇、路、POI等。POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
技术实现思路
本申请实施例提供一种地址数据的管理方法和装置,以生成规范化、标准化的地址数据,从而解决无法对文本地址进行规范化的问题。本申请实施例提供一种地址数据的管理方法,所述方法包括以下步骤:地址管理装置获得用户输入的原始地址数据;所述地址管理装置确定包括多个地址类型的结构化地址格式;所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,具体包括:所述地址管理装置基于多个地址类型对原始地址数据进行预处理;所述地址管理装置基于多个地址类型对预处理后的地址数据进行切分;所述地址管理装置基于多个地址类型对切分后地址数据进行补全校验;所述地址管理装置对补全校验后的地址数据进行规范化处理,以得到符合所述结构化地址格式的结构化地址数据。所述地址管理装置基于多个地址类型对原始地址数据进行预处理的过程,具体包括:所述地址管理装置从所述原始地址数据中筛选出未对应所述多个地址类型的地址数据,从所述原始地址数据中删除当前筛选的地址数据,并将所述原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。所述地址管理装置基于多个地址类型对预处理后的地址数据进行切分的过程,具体包括:所述地址管理装置获得所述多个地址类型对应的分词器词典,利用所述多个地址类型对应的分词器词典切分出对应所述多个地址类型的地址数据。所述地址管理装置基于多个地址类型对切分后地址数据进行补全校验的过程,具体包括:所述地址管理装置校验切分后地址数据是否已经包含对应所述多个地址类型的地址数据;如果否,则所述地址管理装置确定切分后地址数据中不包含的地址类型,并基于历史数据补全所述地址类型的地址数据。所述地址管理装置对补全校验后的地址数据进行规范化处理的过程,具体包括:所述地址管理装置利用拼音相似度算法对补全校验后的地址数据进行规范化处理;和/或,所述地址管理装置利用基于概率检索模型的兴趣点POI规范化算法对补全校验后的地址数据进行规范化处理。本申请实施例提供一种地址管理装置,所述地址管理装置具体包括:获得模块,用于获得用户输入的原始地址数据;确定模块,用于确定包括多个地址类型的结构化地址格式;处理模块,用于将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。所述处理模块包括:预处理子模块,用于基于多个地址类型对原始地址数据进行预处理;切分子模块,用于基于多个地址类型对预处理后的地址数据进行切分;补全子模块,用于基于多个地址类型对切分后地址数据进行补全校验;规范化子模块,用于对补全校验后的地址数据进行规范化处理,以得到符合所述结构化地址格式的结构化地址数据。所述预处理子模块,具体用于从原始地址数据中筛选出未对应所述多个地址类型的地址数据,从原始地址数据中删除当前筛选的地址数据,并将原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。所述切分子模块,具体用于获得多个地址类型对应的分词器词典,利用多个地址类型对应的分词器词典切分出对应所述多个地址类型的地址数据。所述补全子模块,具体用于校验切分后的地址数据是否已经包含对应所述多个地址类型的地址数据;如果否,则确定切分后的地址数据中不包含的地址类型,并基于历史数据补全所述地址类型的地址数据。所述规范化子模块,具体用于利用拼音相似度算法对补全校验后的地址数据进行规范化处理;和/或,利用基于概率检索模型的兴趣点POI规范化算法对补全校验后的地址数据进行规范化处理。与现有技术相比,本申请实施例至少具有以下优点:本申请实施例中,通过设置包括多个地址类型的结构化地址格式,并生成符合结构化地址格式的结构化地址数据,从而生成规范化、标准化的地址数据,解决无法对文本地址进行规范化的问题,并能够判断不同文本地址间的异同性,能够识别文本地址的相关归属。具体的,通过对海量历史文本地址中的地址数据进行识别和提取,通过学习的方式从中学习出地址数据之间的知识和规则,并将学习的知识和规则对漏写地址数据进行补全、对错误地址数据进行校验,对非
规范地址数据进行规范化处理,重新生成一条分级的结构化地址数据。附图说明为了更加清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本申请实施例的这些附图获得其他的附图。图1是本申请实施例一提供的一种地址数据的管理方法流程示意图;图2是本申请实施例二提供的一种地址管理装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。实施例一针对现有技术中存在的问题,本申请实施例一提供一种地址数据的管理方法,如图1所示,该地址数据的管理方法具体可以包括以下步骤:步骤101,地址管理装置获得用户输入的原始地址数据。本申请实施例中,地址管理装置内可以配置整合模块,整合模块用于将各方地址数据源进行整合,生成唯一的key(密钥),并装入文本地址库。其中,文本地址库中的针对一个key的地址数据,即用户输入的原始地址数据。步骤102,地址管理装置确定包括多个地址类型的结构化地址格式。其中,结构化地址格式中包括的多个地址类型具体包括但不限于以下之一或者任意组合:省、市、区县、乡镇(街道办)、开发区、主路、主路门牌号、支路、支路门牌号、标志性POI(楼盘等)、幢、单元(楼层)、房间号等。步骤103,地址管理装置将原始地址数据转换为符合结构化地址格式的结构化地址数据,该结构化地址数据包括对应多个地址类型的地址数据。例如,在地址管理装置生成的符合结构化地址格式的结构化地址数据中,可以包括对应于省的地址数据、对应于市的地址数据、对应于区县的地址数据、对应于乡镇(街道办)、对应于开发区的地址数据、对应于主路的地址数据、对应于主路门牌号的地址数据、对应于支路的地址数据、对应于支路门牌号的地址数据、对应于标志性POI(楼盘等)的地址数据、对应于幢的地址数据、对应于单元(楼层)的地址数据、对应于房间号的地址数据等。本申请实施例中,地址管理装置将原始本文档来自技高网
...
一种地址数据的管理方法和装置

【技术保护点】
一种地址数据的管理方法,其特征在于,所述方法包括以下步骤:地址管理装置获得用户输入的原始地址数据;所述地址管理装置确定包括多个地址类型的结构化地址格式;所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。

【技术特征摘要】
1.一种地址数据的管理方法,其特征在于,所述方法包括以下步骤:地址管理装置获得用户输入的原始地址数据;所述地址管理装置确定包括多个地址类型的结构化地址格式;所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。2.如权利要求1所述的方法,其特征在于,所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,具体包括:所述地址管理装置基于多个地址类型对原始地址数据进行预处理;所述地址管理装置基于多个地址类型对预处理后的地址数据进行切分;所述地址管理装置基于多个地址类型对切分后地址数据进行补全校验;所述地址管理装置对补全校验后的地址数据进行规范化处理,以得到符合所述结构化地址格式的结构化地址数据。3.如权利要求2所述的方法,其特征在于,所述地址管理装置基于多个地址类型对原始地址数据进行预处理的过程,具体包括:所述地址管理装置从所述原始地址数据中筛选出未对应所述多个地址类型的地址数据,从所述原始地址数据中删除当前筛选的地址数据,并将所述原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。4.如权利要求2所述的方法,其特征在于,所述地址管理装置基于多个地址类型对预处理后的地址数据进行切分的过程,具体包括:所述地址管理装置获得所述多个地址类型对应的分词器词典,利用所述多个地址类型对应的分词器词典切分出对应所述多个地址类型的地址数据。5.如权利要求2所述的方法,其特征在于,所述地址管理装置基于多个地址类型对切分后地址数据进行补全校验的过程,具体包括:所述地址管理装置校验切分后地址数据是否已经包含对应所述多个地址类型的地址数据;如果否,则所述地址管理装置确定切分后地址数据中不包
\t含的地址类型,并基于历史数据补全所述地址类型的地址数据。6.如权利要求2所述的方法,其特征在于,所述地址管理装置对补全校验后的地址数据进行规范化处理的过程,具体包括:所述...

【专利技术属性】
技术研发人员:吴保华
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1