按投递地址段自动制作商函的方法及其系统技术方案

技术编号:2842716 阅读:222 留言:0更新日期:2012-04-11 18:40
本发明专利技术为了提高商函分拣投递处理的效率和成本的问题,提供一种中文地名及组织机构名称的识别分类并制作的方法及系统。该系统包括:商函工作站、地名数据库、商函打印机;还包括名址匹配引擎,用于接收所述商函工作站输出的待投递商函用户的原始名称和地址信息,并对该商函用户的原始名称和地址信息进行标准化处理、分词处理,地址层次分析和投递段分析;所述名址匹配引擎的输入端通过数据线连接所述商函工作站和地名数据库,其输出端通过数据线连接所述商函打印机。通过该方法和系统,将直接制作出按投递段分类的商函,消除了中间分拣的环节,从而达到提高商函投递效率,降低商函投递成本的目的。

【技术实现步骤摘要】

本专利技术涉及商函制作系统和方法,尤其涉及中文地名及组织机构名称的识别分类并制作的方法及系统。
技术介绍
现在邮政部门的商函投递过程如下商函局制作出商函邮件后,交由邮政中心局分拣。中心局先进行一次分拣,按商函邮件地址把邮件分拣到不同的投递站,然后把一次分拣后的商函邮件运输到各个投递站。各个投递站对运送来的商函邮件进行二次分拣,按商函邮件地址把邮件分拣到不同的投递段,交由投递员投递。分拣工作一般依靠人工,效率难以满足商函客户对商函时限的要求,同时,也耗费了大量的人力和物力。以深圳移动话费账单为例,以传统业务处理流程制作并投递一批90万封商函需要10天左右。大约一半的时间用于商函的分拣。按分拣环节工作效率为6000件每人每日计算,约需要150个人工作日。针对人工分拣商函的效率低下,成本又相对过高,如中国专利申请号为CN97103463.X的说明书文件公开的一种“按顺序分拣方式拣出和整理信件的方法和装置”,提供一种对邮件进行分拣和重新整理的装置,信件装进计算机控制的分拣机中,分拣机进行多遍分拣,以完成对信件的分拣。但是这种方法仍然需要经过对商函邮件的分拣程序,难以满足对大量商函分拣的效率上的要求。
技术实现思路
本专利技术为了提高商函分拣投递处理的效率和成本的问题,提供一种中文地名及组织机构名称的识别分类并制作的方法及系统。通过该方法和系统,将直接制作出按投递段分类的商函,消除了中间分拣的环节,从而达到提高商函投递效率,降低商函投递成本的目的。为了实现上述技术目的,本专利技术提供了一种按投递地址段自动制作商函的方法,该方法包括如下步骤a.由商函工作站采集待投递商函用户的原始名称和地址;b.所述商函工作站把所述待投递商函用户的原始名称和地址送入名址匹配引擎;c.由所述名址匹配引擎先对用户的原始名称和地址的字符编码进行标准化;d.所述名址匹配引擎调用由系统预置的地名数据库的地名数据,利用该地名数据库的地名数据对标准化了的用户地址进行分词处理,然后进行地址层次分析和投递段分析,最后获得按商函投递段顺序排列的用户地址;e.所述名址匹配引擎把所述按商函投递段顺序排列的用户地址输出到商函打印机;f.所述商函打印机按照商函投递段有顺分类打印制作商函从而实现商函的自动分拣。以上步骤中,所述对用户的原始名称和地址的字符编码进行标准化包括如下步骤a.把商函用户的原始名称和地址所包含的字符串中的小写字符转换为大写字符;b.把商函用户的原始名称和地址所包含的字符串中的全角字符转换为半角字符;c.把商函用户的原始名称和地址所包含的字符串中的中文数字转换为阿拉伯数字。所述系统预置的地名数据库的存放的数据包括地址树的树状结构的地址节点以及该地址节点对应的站段规则。所述地址树是由地市的地名层次节点所形成的一个树状结构;所述地名树上一层次节点包含下一节点的地址范围,末节点建立在能够区分不同投递段的地址范围上,不完全建立在具体的门牌上,所述地名树详细收集和描述了一个地市辖区内的所有地名及主要组织机构名称的信息;地名树的数据结构中包括以下字段1)节点编号,字段名为LNo,字段类型为Numeric,字长为8个字节;2)父节点编号,字段名为PNo,字段类型为Numeric,字长为8个字节;3)节点名称,字段名为MS,字段类型为VARCHAR2,字长为40个字节;4)是否是别名,字段名为BZ,字段类型为Numeric,字长为1个字节;5)地名类型,字段名为NTYPE,字段类型为Numeric,字长为2个字节;6)不包括别名的节点孩子数,字段名为NCHILDREN,字段类型为Numeric,字长为6个字节; 7)地址字节长度,字段名为NLEN,字段类型为Numeric,字长为2个字节;8)使用次数,字段名为NREPEAT,字段类型为Numeric,字长为2个字节;9)节点级别,字段名为NLEVEL,字段类型为Numeric,字长为2个字节;10)是否关键词,字段名为IS_KEY,字段类型为Numeric,字长为1个字节。所述地址树的地址节点对应的站段规则包括,站段编码以及该站段编码指明某个地址节点由那些投递段投递;该站段规则的数据结构包括如下字段1)序列号,字段名为TDNO,字段类型为Numeric,字长为12个字节;2)节点编号,字段名为LNO,字段类型为Numeric,字长为8个字节;3)投递段号,字段名为SNO,字段类型为Numeric,字长为8个字节;4)投递规则,字段名为MS,字段类型为Numeric,字长为40个字节;5)门牌起始编号,字段名为BEGINNO,字段类型为Numeric,字长为6个字节;6)门牌结束编号,字段名为ENDNO,字段类型为Numeric,字长为6个字节;7)投递顺序号,字段名为ord,字段类型为Numeric,字长为6个字节。所述分词处理实现以下功能,名址匹配引擎用正向最大匹配的方法将待分析的地址汉字字符串与所述地名库中的某个词条进行匹配,若在所述地名库中找到该待分析的地址汉字字符串,则匹配成功,或称识别出一个地名;分词处理的工作流程原理方框图,工作流程描述如下a.字符编码进行标准化的名称和地址字符输入分词处理模块、,该模块中的当前位置指针置0,并计算当前地址长度;b.判断当前位置指针是否不大于输入地址的长度与最小关键词长的差;c.如果步骤b判断为“是”,则分词处理完毕;d.如果步骤b判断为“否”,则对输入的地址按词长由大至小的顺序,到所述按照关键词的词长构建的哈希表中,按照词长由大到小查找关键词;e.步骤d没有找到关键词,则当前位置指针增加1,然后进行步骤b的流程;f.如果步骤d找到了关键词,则当前位置指针加上关键词的词长作为位置指针,然后进行步骤b的流程。所述分词处理的字符串结果还要被名址匹配引擎整理,地址别名将被标准化。所述的地址层次分析实现以下功能,计算机根据地名树对用户地址进行语义分析、定位地名,即从众多候选词中选出唯一正确识别到段的地址节点;所述的地址层次分析工作流程如下a.进行了分词处理的用户地址输入地址层次分析模块,其分词结果为地址包含的关键词列表,该模块对关键词进行判断,是否为最后一个关键词;b.如果a步骤判断为“是”,则输出路径及站段匹配的最优节点;c.如果a步骤判断为“否”,则计算该关键词所有上级节点在地址中出现的次数,判断出现的次数是否最大;d.如果c步骤判断为“是”,则记录该最大值,并且计算该节点站段匹配次数,设此值为最大值;e.找到下一个关键词,并再执行a步骤;f.如果c步骤判断为“否”,则判断c步骤中该关键词所有上级节点在地址中出现的次数与最大的次数相比是否相等;g.如果f步骤判断为“是”,则计算该关键词站段匹配次数,并判断该站段匹配次数是否最大;h.如果g步骤判断为“是”,则该节点站段匹配次数设为最大值,再执行步骤e;i.如果g步骤判断为“否”,则执行步骤e;j.如果f步骤判断为“否”,则执行步骤e;所述投递段分析是指,地址层次分析模块对不同投递段的用户名称和地址分别配置到相应的地址段。一种按投递地址段自动制作商函的的系统,包括商函工作站,该商函工作站设置在各商函局或邮政支局,用于采集待投递商函用户的原始名称和地址信息;地名数据库,用于按系统规定的数据格式存储城市地名及商函投递段本文档来自技高网...

【技术保护点】
一种按投递地址段自动制作商函的方法,其特征在于该方法包括如下步骤:    a.由商函工作站(5)采集待投递商函用户的原始名称和地址;    b.所述商函工作站(5)把所述待投递商函用户的原始名称和地址送入名址匹配引擎(1);    c.由所述名址匹配引擎(1)先对用户的原始名称和地址的字符编码进行标准化;    d.所述名址匹配引擎(1)调用由系统预置的地名数据库(2)的地名数据,利用该地名数据库(2)的地名数据对标准化了的用户地址进行分词处理,然后进行地址层次分析和投递段分析,最后获得按商函投递段顺序排列的用户地址;    e.所述名址匹配引擎(1)把所述按商函投递段顺序排列的用户地址输出到商函打印机(3);    f.所述商函打印机(3)按照商函投递段有顺分类打印制作商函从而实现商函的自动分拣。

【技术特征摘要】
1.一种按投递地址段自动制作商函的方法,其特征在于该方法包括如下步骤a.由商函工作站(5)采集待投递商函用户的原始名称和地址;b.所述商函工作站(5)把所述待投递商函用户的原始名称和地址送入名址匹配引擎(1);c.由所述名址匹配引擎(1)先对用户的原始名称和地址的字符编码进行标准化;d.所述名址匹配引擎(1)调用由系统预置的地名数据库(2)的地名数据,利用该地名数据库(2)的地名数据对标准化了的用户地址进行分词处理,然后进行地址层次分析和投递段分析,最后获得按商函投递段顺序排列的用户地址;e.所述名址匹配引擎(1)把所述按商函投递段顺序排列的用户地址输出到商函打印机(3);f.所述商函打印机(3)按照商函投递段有顺分类打印制作商函从而实现商函的自动分拣。2.根据权利要求1所述的按投递地址段自动制作商函的方法,其特征在于所述步骤c中对用户的原始名称和地址的字符编码进行标准化包括如下步骤a.把商函用户的原始名称和地址所包含的字符串中的小写字符转换为大写字符;b.把商函用户的原始名称和地址所包含的字符串中的全角字符转换为半角字符;c.把商函用户的原始名称和地址所包含的字符串中的中文数字转换为阿拉伯数字。3.根据权利要求1所述的按投递地址段自动制作商函的方法,其特征在于所述系统预置的地名数据库(2)存放的数据包括地址树的树状结构的地址节点以及该地址节点对应的站段规则。4.根据权利要求3所述的按投递地址段自动制作商函的方法,其特征在于所述地址树是由地市的地名层次节点所形成的一个树状结构;所述地名树上一层次节点包含下一节点的地址范围,末节点建立在能够区分不同投递段的地址范围上,不完全建立在具体的门牌上,所述地名树详细收集和描述了一个地市辖区内的所有地名及主要组织机构名称的信息;地名树的数据结构中包括以下字段1)节点编号,字段名为LNo,字段类型为Numeric,字长为8个字节;2)父节点编号,字段名为PNo,字段类型为Numeric,字长为8个字节;3)节点名称,字段名为MS,字段类型为VARCHAR2,字长为40个字节;4)是否是别名,字段名为BZ,字段类型为Numeric,字长为1个字节;5)地名类型,字段名为NTYPE,字段类型为Numeric,字长为2个字节;6)不包括别名的节点孩子数,字段名为NCHILDREN,字段类型为Numeric,字长为6个字节;7)地址字节长度,字段名为NLEN,字段类型为Numeric,字长为2个字节;8)使用次数,字段名为NREPEAT,字段类型为Numeric,字长为2个字节;9)节点级别,字段名为NLEVEL,字段类型为Numeric,字长为2个字节;10)是否关键词,字段名为IS KEY,字段类型为Numeric,字长为1个字节。5.根据权利要求3所述的按投递地址段自动制作商函的方法,其特征在于所述地址树的地址节点对应的站段规则包括,站段编码以及该站段编码指明某个地址节点由那些投递段投递;该站段规则的数据结构包括如下字段1)序列号,字段名为TDNO,字段类型为Numeric,字长为12个字节;2)节点编号,字段名为LNO,字段类型为Numeric,字长为8个字节;3)投递段号,字段名为SNO,字段类型为Numeric,字长为8个字节;4)投递规则,字段名为MS,字段类型为Numeric,字长为40个字节;5)门牌起始编号,字段名为BEGINNO,字段类型为Numeric,字长为6个字节;6)门牌结束编号,字段名为ENDNO,字段类型为Numeric,字长为6个字节;7)投递顺序号,字段名为ord,字段类型为Numeric,字长为6个字节。6.根据权利要求1所述的按投递地址段自动制作商函的方法,其特征在于所述分词处理实现以下功能,名址匹配引擎(1)用正向最大匹配的方法将待分析的地址汉字字符串与所述地名库(2)中的某个词...

【专利技术属性】
技术研发人员:李凯乐谈宏王晓敏张强刘宗沛华衡霍俊孙文峰
申请(专利权)人:深圳市络道科技有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利