【技术实现步骤摘要】
地址数据处理方法、装置、系统和存储介质
本专利技术涉及计算机
,尤其涉及一种地址数据处理方法、装置、系统和存储介质。
技术介绍
在电商、外卖以及公安等行业中,存在大量的不同来源的地址数据。地址的写法灵活多变,对同一个地址,往往存在成百上千种写法。比如“杭州阿里巴巴西溪园区”可以写成“杭州余杭文一西路969号”、“余杭区阿里巴巴西溪园区”、“杭州阿里巴巴淘宝城”等等。由于地址采集或者输入的不规范,存在大量错误、虚假、不存在的地址。比如在电商和外卖行业中,错误、虚假或不存在的地址会造成快递或者外卖不能到达;比如在公安系统中,民警根据居民地址上门采集信息,错误、虚假或不存在的居民地址就会造成大量人力浪费。快递、物流或者公安相关业务人员往往通过知识经验,或者借助一些导航软件来判定地址是否真实有效。面对上亿级别的地址,通过人工来分析地址有效性的方式,成本巨大,验证的准确率波动也大。
技术实现思路
本专利技术实施例提供一种地址数据处理方法、装置、系统和存储介质,可以自动分析地址有效性,提高地址有 ...
【技术保护点】
1.一种地址数据处理方法,包括:/n结构化处理通讯地址,得到结构化的通讯地址,所述结构化的通讯地址包括通讯地址片段和所述通讯地址片段的地址标签;/n基于地址级别排序规则,获取所述通讯地址片段中的地址片段作为第一地址片段,查找标准地址库的结构化的标准地址中是否存在与所述第一地址片段具有相同地址标签且相匹配的地址片段;/n如果不存在与所述第一地址片段具有相同地址标签且相匹配的地址片段,确定所述通讯地址无效。/n
【技术特征摘要】
1.一种地址数据处理方法,包括:
结构化处理通讯地址,得到结构化的通讯地址,所述结构化的通讯地址包括通讯地址片段和所述通讯地址片段的地址标签;
基于地址级别排序规则,获取所述通讯地址片段中的地址片段作为第一地址片段,查找标准地址库的结构化的标准地址中是否存在与所述第一地址片段具有相同地址标签且相匹配的地址片段;
如果不存在与所述第一地址片段具有相同地址标签且相匹配的地址片段,确定所述通讯地址无效。
2.根据权利要求1所述的地址数据处理方法,包括:
对所述通讯地址的文本进行分词处理,得到通讯地址片段;
识别所述通讯地址片段中的地址要素;
利用所述地址要素,生成所述通讯地址片段的地址标签。
3.根据权利要求1所述的地址数据处理方法,包括:
根据所述第一地址片段的地址标签,确定所述第一地址片段的地址级别;
按照地址级别从高级到低级的排序规则,根据所述第一地址片段,逐个地址级别查找所述标准地址库中结构化的标准地址;
在所述查找过程中,判断所述标准地址库的结构化的标准地址中是否存在与所述第一地址片段具有相同地址标签且相匹配的地址片段。
4.根据权利要求1所述的地址数据处理方法,还包括:
如果所述标准地址库的结构化的标准地址中,不存在与所述第一地址片段具有相同地址标签且相匹配的地址片段,根据所述第一地址片段的地址标签,确定所述第一地址片段的地址级别;
根据所述第一地址片段和所述第一地址片段的地址级别,确定所述通讯地址无效的理由。
5.根据权利要求1所述的地址数据处理方法,还包括:
如果所述标准地址库的结构化的标准地址中,存在与所述第一地址片段具有相同地址标签且相匹配的地址片段,累加记录所述第一地址片段,得到累加记录的通讯地址片段;
确定所述标准地址库的标准地址形成的地址路径中,是否包括对累加记录的通讯地址片段进行组合得到的地址路径;
如果不包括对累加记录的通讯地址片段进行组合得到的地址路径,确定所述通讯地址无效。
6.根据权利要求5所述的地址数据处理方法,还包括:
如果所述标准地址库的标准地址形成的地址路径中,不包括对累加记录的通讯地址片段进行组合得到的地址路径,获取所述第一地址片段、以及累加记录的通讯地址片段中与所述第一地址片段相邻的、且地址级别高于所述第一地址片段的地址级别的地址片段;
根据所述第一地址片段、以及累加记录的通讯地址片段中与所述第一地址片段相邻的、且地址级别高于所述第一地址片段的地址级别的地址片段,确定所述通讯地址无效的理由。
7.根据权利要求6所述的地址数据处理方法,其中,所述根据所述第一地址片段、以及累加记录...
【专利技术属性】
技术研发人员:谢朋峻,郑华飞,刘楚,李林琳,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。