一种中文地址自动归户识别系统及方法技术方案

技术编号:5999812 阅读:213 留言:0更新日期:2012-04-11 18:40
本发明专利技术适用于邮政领域,提供了一种中文地址自动归户识别系统及方法,所述方法包括以下步骤:读取地址信息,并按照预设的分类规则,对所述地址信息的字符进行归类;根据归类情况,将地址信息拆分为路径部分及门牌部分;将路径部分转化成设定的标准形式;将门牌部分转化成设定的标准形式;将标准形式的路径部分及标准形式的门牌部分进行组合,并输出。在本发明专利技术的实施例中,通过将地址信息进行归类,并针对门牌部分及路径部分进行标准化,从而避免了人工整理这些书写不规范的地址信息,从而减少了地址整理成本,提高了不规范地址信息的整理效率。

【技术实现步骤摘要】

本专利技术属于邮政领域,尤其涉及。
技术介绍
商函营销数据库在邮政直邮业务中发挥着关键性作用,但营销数据库的数据采集 及更新维护主要靠人工整理,效率低下,质量也不尽如人意。举例说明如下目前,营销数据库有30万条企业名址,现在国家局下发20万条企 业名址。但在这20万企业名址中,大概只有5万条数据是营销数据库中没有的。也就是 说,需要剔除15万条名址,否则将发生大量重复投递的情况,为数据营销带来严重的不良 影响。但这15万条重复的记录,通过与营销数据库名址匹配,只有不到10%的匹配率(因为 名址的写法很不规范),剩下的需要人工查重,工作量很大。就目前而言,人日均处理2000 条左右,而营销数据库的企业数据有30万条,需耗费150个人日。由于用户地址很不规范,人工整理成本高,远远不能满足当前快速增长的业务的 要求。而随着营销数据库建设力度的加大,数据量急剧膨胀,人工整理的效率将会越来越 低,因此,寻求自动化解决方案迫在眉睫。
技术实现思路
本专利技术实施例的目的在于提供一种地址归户识别方法及系统,能节省大量的人力 成本,提高营销数据库的整体质量,并为各局数据营销提供及时、准确的服务。本专利技术实施例是这样实现的,一种地址归户识别方法,所述方法包括以下步骤 读取地址信息,并按照预设的分类规则,对所述地址信息的字符进行归类;根据归类情况,将地址信息拆分为路径部分及门牌部分; 将路径部分转化成设定的标准形式; 将门牌部分转化成设定的标准形式;将标准形式的路径部分及标准形式的门牌部分进行组合,并输出。进一步地,所述读取地址信息,并按照预设的分类规则,对所述地址信息的字符进 行归类的步骤具体为判断是否为地址信息的结尾; 当未到地址信息的结尾时,取下一个汉字或ASC符; 判断该汉字或ASC符所属的Token码类型;判断该汉字或ASC符所属的Token码类型与上一个汉字或ASC符是否相同; 记录本次连续的相同Token码类型的汉字或ASC符的Token码类型、开始位置、长度。进一步地,所述根据归类情况,将地址信息拆分为路径部分及门牌部分的步骤又 包括a、逐一读取token码,判断是否为中英文数字或字母,如果是,则执行步骤b,如果否就 读取下一个token码;4b、对该token码的前一个token码进行分析判断,如果包含“街道”,则执行c步骤,如 果包含“花园”或“小区”或“大厦”,则执行步骤d ;C、将该token码标记为街道门牌,并返回执行步骤a ;d、将该token码标记为住宅门牌,也即门牌部分,前面的所有token码即划分为路径部分。本专利技术实施例的另一目的在于提供一种地址归户识别系统,所述系统包括 分类模块,用于读取地址信息,并按照预设的分类规则,对所述地址信息的字符进行归类;地址拆分模块,用于根据归类情况,将地址信息拆分为路径部分及门牌部分; 路径标准化模块,用于将路径部分转化成设定的标准形式; 门牌标准化模块,用于将门牌部分转化成设定的标准形式;以及 地址组合模块,用于将标准形式的路径部分及标准形式的门牌部分进行组合,并输出。进一步地,所述分类模块又包括结尾判断模块,用于判断是否为地址信息的结尾; 读取模块,用于当未到地址信息的结尾时,取下一个汉字或ASC符; Token码类型判断模块,用于判断该汉字或ASC符所属的Token码类型; Token码类型比较模块,用于判断该汉字或ASC符所属的Token码类型与上一个汉字或 ASC符是否相同;记录模块,用于记录本次连续的相同Token码类型的汉字或ASC符的Token码类型、开 始位置、长度。进一步地,所述地址拆分模块又包括类型判断模块,用于逐一读取token码,判断是否为中英文数字或字母,如果是,则跳 转执行token码分析模块,如果否就读取下一个token码;token码分析模块,用于对该token码的前一个token码进行分析判断,如果包含“街 道”,则跳转执行街道门牌标记模块,如果包含“花园”或“小区”或“大厦”,则执行住宅门牌 标记模块;街道门牌标记模块,用于将该token码标记为街道门牌,并返回执行类型判断模块; 住宅门牌标记模块,用于将该token码标记为住宅门牌,前面的所有token码即划分为 路径部分。在本专利技术的实施例中,通过将地址信息进行归类,并针对门牌部分及路径部分进 行标准化,从而避免了人工整理这些书写不规范的地址信息,从而减少了地址整理成本,提 高了不规范地址信息的整理效率。附图说明图1是本专利技术实施例提供的地址归户识别方法的实施流程图; 图2是本专利技术实施例提供的步骤SlOl的实施流程图3是本专利技术实施例提供的具体实例的Token化的示意图; 图4是本专利技术实施例提供的地址归户识别系统的结构示意图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并 不用于限定本专利技术。图1示出了本专利技术实施例提供的地址归户方法的实施流程,详述如下在步骤SlOl中,读取地址信息,并按照预设的分类规则,对所述地址信息的字符进行 归类。在本专利技术的实施例中,采用Token化的方法,即逐个识别中文地址的单个汉字(或 ASC符)并对其进行归类。基本的token及含义见下表权利要求1.一种地址归户识别方法,其特征在于,所述方法包括以下步骤读取地址信息,并按照预设的分类规则,对所述地址信息的字符进行归类; 根据归类情况,将地址信息拆分为路径部分及门牌部分; 将路径部分转化成设定的标准形式; 将门牌部分转化成设定的标准形式;将标准形式的路径部分及标准形式的门牌部分进行组合,并输出。2.根据权利要求1所述的方法,其特征在于,所述读取地址信息,并按照预设的分类规 则,对所述地址信息的字符进行归类的步骤具体为判断是否为地址信息的结尾; 当未到地址信息的结尾时,取下一个汉字或ASC符; 判断该汉字或ASC符所属的Token码类型;判断该汉字或ASC符所属的Token码类型与上一个汉字或ASC符是否相同; 记录本次连续的相同Token码类型的汉字或ASC符的Token码类型、开始位置、长度。3.根据权利要求1所述的方法,其特征在于,所述根据归类情况,将地址信息拆分为路 径部分及门牌部分的步骤又包括a、逐一读取token码,判断是否为中英文数字或字母,如果是,则执行步骤b,如果否就 读取下一个token码;b、对该token码的前一个token码进行分析判断,如果包含“街道”,则执行c步骤,如 果包含“花园”或“小区”或“大厦”,则执行步骤d ;C、将该token码标记为街道门牌,并返回执行步骤a ;d、将该token码标记为住宅门牌,也即门牌部分,前面的所有token码即划分为路径部分。4.一种地址归户识别系统,其特征在于,所述系统包括分类模块,用于读取地址信息,并按照预设的分类规则,对所述地址信息的字符进行归类;地址拆分模块,用于根据归类情况,将地址信息拆分为路径部分及门牌部分; 路径标准化模块,用于将路径部分转化成设定的标准形式; 门牌标准化模块,用于将门牌部分转化成设定的标准形式;以及 地址组合模块,用于将标准形式的路径部分及标准形式的门牌部分进行组合,并输出。5本文档来自技高网...

【技术保护点】
一种地址归户识别方法,其特征在于,所述方法包括以下步骤:读取地址信息,并按照预设的分类规则,对所述地址信息的字符进行归类;根据归类情况,将地址信息拆分为路径部分及门牌部分;将路径部分转化成设定的标准形式;将门牌部分转化成设定的标准形式;将标准形式的路径部分及标准形式的门牌部分进行组合,并输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱晓东崔超
申请(专利权)人:深圳市络道科技有限公司
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1