地址数据处理方法、装置、系统和存储介质制造方法及图纸

技术编号:24888624 阅读:21 留言:0更新日期:2020-07-14 18:16
本发明专利技术公开了一种地址数据处理方法、装置、系统和存储介质。该方法包括:结构化处理通讯地址,得到结构化的通讯地址,结构化的通讯地址包括通讯地址片段和通讯地址片段的地址标签;基于地址级别排序规则,获取通讯地址片段中的地址片段作为第一地址片段,查找标准地址库的结构化的标准地址中是否存在与第一地址片段具有相同地址标签且相匹配的地址片段;如果不存在与第一地址片段具有相同地址标签且相匹配的地址片段,确定通讯地址无效。根据本发明专利技术实施例提供的地址数据处理方法,自动分析地址有效性,提高地址有效性验证的准确率。

【技术实现步骤摘要】
地址数据处理方法、装置、系统和存储介质
本专利技术涉及计算机
,尤其涉及一种地址数据处理方法、装置、系统和存储介质。
技术介绍
在电商、外卖以及公安等行业中,存在大量的不同来源的地址数据。地址的写法灵活多变,对同一个地址,往往存在成百上千种写法。比如“杭州阿里巴巴西溪园区”可以写成“杭州余杭文一西路969号”、“余杭区阿里巴巴西溪园区”、“杭州阿里巴巴淘宝城”等等。由于地址采集或者输入的不规范,存在大量错误、虚假、不存在的地址。比如在电商和外卖行业中,错误、虚假或不存在的地址会造成快递或者外卖不能到达;比如在公安系统中,民警根据居民地址上门采集信息,错误、虚假或不存在的居民地址就会造成大量人力浪费。快递、物流或者公安相关业务人员往往通过知识经验,或者借助一些导航软件来判定地址是否真实有效。面对上亿级别的地址,通过人工来分析地址有效性的方式,成本巨大,验证的准确率波动也大。
技术实现思路
本专利技术实施例提供一种地址数据处理方法、装置、系统和存储介质,可以自动分析地址有效性,提高地址有效性验证的准确率。根据本专利技术实施例的一方面,提供一种地址数据处理方法,包括:结构化处理通讯地址,得到结构化的通讯地址,结构化的通讯地址包括通讯地址片段和通讯地址片段的地址标签;基于地址级别排序规则,获取通讯地址片段中的地址片段作为第一地址片段,查找标准地址库的结构化的标准地址中是否存在与第一地址片段具有相同地址标签且相匹配的地址片段;如果不存在与第一地址片段具有相同地址标签且相匹配的地址片段,确定通讯地址无效。根据本专利技术实施例的另一方面,提供一种地址数据处理装置,包括:地址结构化模块,用于结构化处理通讯地址,得到结构化的通讯地址,结构化的通讯地址包括通讯地址片段和通讯地址片段的地址标签;地址片段查找模块,用于基于地址级别排序规则,获取通讯地址片段中的地址片段作为第一地址片段,查找标准地址库的结构化的标准地址中是否存在与第一地址片段具有相同地址标签且相匹配的地址片段;地址有效性确定模块,用于如果不存在与第一地址片段具有相同地址标签且相匹配的地址片段,确定通讯地址无效。根据本专利技术实施例的再一方面,提供一种地址数据处理系统,包括:存储器和处理器;该存储器用于存储程序;该处理器用于读取存储器中存储的可执行程序代码以执行上述的地址数据处理方法。根据本专利技术实施例的又一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述各方面的地址数据处理方法。根据本专利技术实施例中的地址数据处理方法、装置、系统和存储介质,可以自动分析地址有效性,提高地址有效性验证的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是示出根据本专利技术一个实施例的地址数据处理方法的流程框架图;图2是示出根据本专利技术一实施例的地址数据处理方法的流程图;图3是示出根据本专利技术示例性实施例的标准地址库的地址树结构;图4是根据本专利技术一实施例的地址数据处理装置的结构示意图;图5是示出了可以实现根据本专利技术实施例的地址数据处理方法和装置的计算设备的示例性硬件架构的结构图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。在本专利技术实施例中,为了便于理解,首先介绍本申请下述实施例所涉及的术语的解释。通讯地址,可以是对某个地址地点的文字描述,包含一连串的字符,例如国家、省市、区县、街道、路、路号、门牌号码、大厦等建筑物名称、楼层数目和房间编号等。作为一个示例,“杭州文一西路969号阿里巴巴”、“浙江余杭区新湖果岭”等文本地址均为本专利技术实施例的通讯地址。兴趣点(PointofInterest,POI),用于表示可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、餐馆、加油站、医院、超市等。POI可以对事物或事件的地址进行描述,能在很大程度上增强对事物或事件位置的描述能力和查询能力,提高地理定位的精度和速度。标准地址库,可以是对某个地址地点的标准化描述,通常要求包含预设的完整基本地址要素中的所有基本地址要素。作为一个示例,比如“浙江省杭州市余杭区五常街道文一西路969号阿里巴巴西溪园区”,包含了“省、市、区、街道、路、路号、POI”。地址结构化,是将通讯地址的地址文本进行分词处理,得到地址文本的切分片段,并对地址文本的切分片段进行标签识别处理后,得到该地址文本每个切分片段的标签。作为一个示例,对通讯地址的地址文本“余杭文一西路969号”进行分词处理后得到切分片段:余杭、文一西路和969号;对每个切分片段进行标签识别处理,得到切分片段“余杭”的标签为区、切分片段“文一西路”的标签为路、以及切分片段“969号”的标签为路号。地址有效性,表示地址是正常、存在或者真实。如果该地址不存在,比如通讯地址“杭州余杭区天府大道999号”中,“天府大道”不属于“杭州余杭区”的路,所以该通讯地址是不真实的通讯地址。在本专利技术实施例中,由于地址写法的灵活性和地址来源的多样性,地址有效性验证很困难。通常,要判断一个地址有效/真实性,往往需要一些专家知识。例如要知道“余杭文四西路919号”是个错误地址,我们得知道“余杭”指的是“浙江省杭州市余杭区”,同时需要知道“浙江省杭州市余杭区”下没有“文四西路”这条路。本专利技术实施例提供一种地址数据处理方法、装置、系统和存储介质,可以自动判断一段地址是否有效或者真实,减少大量人力浪费,降低人工判断的成本,提高地址有效性验证的准确率。为了更好的理解本专利技术,下面将结合附图,详细描述根据本专利技术实施例的地址数据处理方法、装置、系统和存储介质。应注意,这些实施例并不是用来限制本专利技术公开的范围。图1是示出根据本专利技术一个实施例的地址数据处理方法的流程框架图。如图1所示,本专利技术实施例中的地址数据处理方法100可以包括:...

【技术保护点】
1.一种地址数据处理方法,包括:/n结构化处理通讯地址,得到结构化的通讯地址,所述结构化的通讯地址包括通讯地址片段和所述通讯地址片段的地址标签;/n基于地址级别排序规则,获取所述通讯地址片段中的地址片段作为第一地址片段,查找标准地址库的结构化的标准地址中是否存在与所述第一地址片段具有相同地址标签且相匹配的地址片段;/n如果不存在与所述第一地址片段具有相同地址标签且相匹配的地址片段,确定所述通讯地址无效。/n

【技术特征摘要】
1.一种地址数据处理方法,包括:
结构化处理通讯地址,得到结构化的通讯地址,所述结构化的通讯地址包括通讯地址片段和所述通讯地址片段的地址标签;
基于地址级别排序规则,获取所述通讯地址片段中的地址片段作为第一地址片段,查找标准地址库的结构化的标准地址中是否存在与所述第一地址片段具有相同地址标签且相匹配的地址片段;
如果不存在与所述第一地址片段具有相同地址标签且相匹配的地址片段,确定所述通讯地址无效。


2.根据权利要求1所述的地址数据处理方法,包括:
对所述通讯地址的文本进行分词处理,得到通讯地址片段;
识别所述通讯地址片段中的地址要素;
利用所述地址要素,生成所述通讯地址片段的地址标签。


3.根据权利要求1所述的地址数据处理方法,包括:
根据所述第一地址片段的地址标签,确定所述第一地址片段的地址级别;
按照地址级别从高级到低级的排序规则,根据所述第一地址片段,逐个地址级别查找所述标准地址库中结构化的标准地址;
在所述查找过程中,判断所述标准地址库的结构化的标准地址中是否存在与所述第一地址片段具有相同地址标签且相匹配的地址片段。


4.根据权利要求1所述的地址数据处理方法,还包括:
如果所述标准地址库的结构化的标准地址中,不存在与所述第一地址片段具有相同地址标签且相匹配的地址片段,根据所述第一地址片段的地址标签,确定所述第一地址片段的地址级别;
根据所述第一地址片段和所述第一地址片段的地址级别,确定所述通讯地址无效的理由。


5.根据权利要求1所述的地址数据处理方法,还包括:
如果所述标准地址库的结构化的标准地址中,存在与所述第一地址片段具有相同地址标签且相匹配的地址片段,累加记录所述第一地址片段,得到累加记录的通讯地址片段;
确定所述标准地址库的标准地址形成的地址路径中,是否包括对累加记录的通讯地址片段进行组合得到的地址路径;
如果不包括对累加记录的通讯地址片段进行组合得到的地址路径,确定所述通讯地址无效。


6.根据权利要求5所述的地址数据处理方法,还包括:
如果所述标准地址库的标准地址形成的地址路径中,不包括对累加记录的通讯地址片段进行组合得到的地址路径,获取所述第一地址片段、以及累加记录的通讯地址片段中与所述第一地址片段相邻的、且地址级别高于所述第一地址片段的地址级别的地址片段;
根据所述第一地址片段、以及累加记录的通讯地址片段中与所述第一地址片段相邻的、且地址级别高于所述第一地址片段的地址级别的地址片段,确定所述通讯地址无效的理由。


7.根据权利要求6所述的地址数据处理方法,其中,所述根据所述第一地址片段、以及累加记录...

【专利技术属性】
技术研发人员:谢朋峻郑华飞刘楚李林琳司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1