一种快递地址标准化方法、系统和计算机程序技术方案

技术编号:31802111 阅读:31 留言:0更新日期:2022-01-08 11:03
本发明专利技术提供了一种快递地址标准化方法、系统和计算机程序。本发明专利技术对原始地址字符串基于国家行政区域划分进行分词,得到分词后的词语数组;获取词语数组的每个词语对应的行政地址;对于词语数组中的每个词语采用地址标准化算法进行标准化地址匹配,最终得到标准化地址。本发明专利技术通过对地址按照地址要素层级依次匹配以及对匹配的地址按照地址要素层级计算相对应的积分,实现对中文地址快速、高效的标准化。化。化。

【技术实现步骤摘要】
一种快递地址标准化方法、系统和计算机程序


[0001]本专利技术涉及算法领域,具体涉及一种快递地址标准化方法、系统和计算机程序。

技术介绍

[0002]随着我国电子商务的快速发展以及快递行业的服务质量与配送效率的不断提升,每年产生的快递数量也在不断攀升,随之产生的快递信息数据也是企业的重要资产,因此需要对该数据进行保存与维护。快递数据中的面单地址是其中的重要组成部分,但是地址信息混乱是该数据无法发挥其价值的关键,其原因在于填写地址时没有统一的地址填写规范和命名规范,导致地址信息带有较重的地方特色、地址包含其他备注信息等。所以针对快递面单地址的格式化处理需求越来越迫切,同时对格式化的处理能力也提出了更高的要求。
[0003]地理编码的过程一般包括地址的分词、地址标准化、地址查询、空间定位等步骤。目前关于地址标准化的研究大体分为两大类:一种是基于机械分词的研究,另一种是基于自然语言理解方面的研究。基于机械分词的研究又可以分为以全文检索模型为核心的匹配方法和以地址要素层级模型为核心的匹配方法。全文检索地址匹配方法的前提是需要建立一个标准地址库本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种快递地址标准化方法,其特征在于,包括:对原始地址字符串基于国家行政区域划分进行分词,得到分词后的词语数组;其中,所述词语数组包括若干词语,每个词语所代表一个行政区域且每个行政区域的等级不同;获取词语数组的每个词语对应的行政地址;其中,词语数组中的一个词语对应若干个行政地址;所述行政地址由行政区划等级大于和等于所述词语代表的行政区域的若干行政区划依次组成;对于词语数组中的每个词语采用地址标准化算法进行标准化地址匹配;其中,一个词语仅匹配一个标准化地址;将第N个词语对应的标准化地址作为地址字符串的最终标准化地址,其中,所述第N个词语为词语数组中的所代表的行政区划等级最低的词语。2.根据权利要求1所述的快递地址标准化方法,其特征在于,对于词语数组中的每个词语,按照所述词语所代表的行政区域等级大小依次进行标准化地址匹配。3.根据权利要求2所述的快递地址标准化方法,其特征在于,所述标准地址匹配算法包括:遍历每个词语词语所对应的所有行政地址,统计所述词语所代表的行政区域在所述行政地址中出现的次数,选择出现次数最多的行政地址作为该词语对应的标准化地址。4.根据...

【专利技术属性】
技术研发人员:郑博洪崔裕文吴刘青王飞丁凤洋李德鹏汪银洲
申请(专利权)人:广州汇智通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1