信函校验识别方法技术

技术编号:2931765 阅读:228 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种信函校验识别方法,包括以下步骤:建立邮政编码与汉字地址对照表;进行邮政编码数字识别获得第一数字识别结果及识别自信度;进行汉字地址识别获得汉字识别结果及识别自信度,井根据所述对照表获得邮政编码第二数字识别结果及识别自信度;根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别。本发明专利技术将函件的数字邮政编码和收信人汉字地址信息结合起来进行校验识别,实现目的地信息的补全和纠错,提高了识别系统的效率和正确率。降低了邮件分检的成本。

【技术实现步骤摘要】

本专利技术属于邮政信函校验识别
,特别涉及一种邮件的目的地信息的校验识别方法。
技术介绍
一封邮件的目的地信息主要由两部分组成,即邮政编码信息和汉字地址信息。目前在邮政自动化领域主要是依靠对邮政编码进行光学字符识别(OCR)来达到邮件自动化分拣处理的;与此同时,近年来汉字尤其是打印体汉字的光学字符识别(OCR)技术也得到了长足的进步,在邮政自动化领域,这项技术在目标汉字地址识别上也是大有用武之地的。然而,无论是邮政编码还是汉字地址识别技术在单一使用时都不同程度地存在一些弊端。一、单纯依靠邮件的邮政编码识别结果来进行邮件自动化处理的缺点我国地域广阔,国家邮政局从很早开始就使用6位邮政编码针对不同的地域进行了划分,但由于各地的推广力度不一以及一直以来人们的书写习惯等原因导致邮政编码在实际的书写或打印中存在不少问题,从而使单纯依靠邮政编码识别结果来进行邮件自动化处理的效率有时并不是很高,以下罗列了一些主要的问题点1、邮政编码书写错误或手工书写不规范导致邮件被错分有些用户虽然不知道邮件目的地的确切邮编,但是仍会凭印象或凭想象信手写上一个,虽然汉字地址书写得完全正确,但是如果分拣机的OCR只识别邮编的话就势必会造成该邮件被分到一个错误的地方,有时甚至是大相径庭的方向,对用户来说耽搁了邮件的到达时间,对邮局来说也增加了邮运的成本。例如,手写体邮编(233500)由于个别数字的书写较随意则被识别成“2R3500”,(R表示OCR拒识),造成邮件被拒识。2、邮政编码打印不规范或不清晰导致邮件被错分或拒分这部分信由于邮编是用打印机打印的,所以在很多情况下邮编可能被打偏位置例如出红框或压红框,从而导致邮编的OCR拒识或者错识。另外在实际情况中由于不少邮编是用针式打印机打印的,所以使得邮编数字字符的分辨率不高,由于数字的点特征本来就较汉字要少很多,所以这种情况下也很容易导致邮编拒识。如果信件邮编的打印位置偏移情况严重,则可能导致该封信的多位数字不能识别,从而无法被有效分拣。3、简写邮政编码的情况大量存在随着商业邮件和广告邮件的大量增加,特别是寄往外地的,很多情况下对其确切邮政编码不清楚的。现在出现了越来越多的只写寄达目的地简码的邮件,这部分邮件即使能被OCR全部识别正确也无法分拣到位。例如,寄到安徽省的一封信,发信人采用简码“230000”的方式表示,即使OCR已经识别出了全部数字,也只能确定其是寄到安徽省的,虽然汉字地址写得很详细,但事实上这封信仍然需要手工分拣。二、单纯依靠邮件的汉字地址识别结果来进行邮件自动化处理的缺点汉字的地址信息虽然详细,但完全按照汉字地址识别结果来进行邮件自动化处理的结果却不能让人满意,原因主要有以下几点1、汉字的书写变化情况较阿拉伯数字要复杂得多,所以在识别技术本身的准确率上存在一定问题,这一点在手写体汉字的识别上尤为突出。2、从地址的识别结果中提取有效或者说正确的地址信息也是一个技术点,因为在我国大部分城市中许多街道和马路是以全国各地的地名或本地邻近地区的地名命名的,因此在处理汉字地址结果时特别容易混淆,需特别注意地名和路名的区别。例如地址信息识别结果中如果有“上海”字样,但并不能就此认定该邮件的目的地就是上海,因为在全国很多城市中都有“上海路”,另外也有可能是“上海市人民政府驻北京办事处”,此外还存在一些特殊情况,例如省名和市名相同的“吉林省吉林市”等等。如何根据邮政编码信息和汉字地址信息准确有效地识别出邮件的目的地信息,是当前需要解决的技术问题。
技术实现思路
本专利技术的目的在于提供一种,将信函上的邮政编码和汉字地址信息识别这两项识别技术综合使用提高邮件自动化处理的效率和正确率。为达上述目的,本专利技术采用如下技术方案,一种,包括以下步骤建立邮政编码与汉字地址对照表;进行邮政编码数字识别获得第一数字识别结果及识别自信度;进行汉字地址识别获得汉字识别结果及识别自信度,并根据所述对照表获得邮政编码第二数字识别结果及识别自信度; 根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别。上述校验识别可以采用多种方式,如直接根据第一、第二数字识别结果及识别自信度的大小进行校验识别,即当第一、第二数字识别结果不相同时,则以自信度大的数字识别结果为最后识别结果。作为本专利技术校验识别方法的一种优选方式,上述根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别的方法为,假设邮政编码数字识别获得第一数字识别结果为(S1,S2,…,SM)及第一识别自信度为(p1,p2,…,pM);用一个二元组表示为((S1,S2,…,SM),(p1,p2,…,pM))假设汉字识别获得地址的地名,根据所述对照表得知该地名对应于长度为M的第二邮政编码数字为(T1,T2,…,TM),且汉字地名识别的第二自信度是q,用一个二元组表示为((T1,T2,…,TM),q),首先根据以下公式判断(S1,S2,…,SM)与(T1,T2,…,TM)的相似度,Sim=1MΣk=1Mf(Sk,Tk)]]>其中,如果Sk=Tk,那么f(Sk,Tk)=1;否则如果Sk=R,那么f(Sk,Tk)=0.5;否则f(Sk,Tk)=0;如果Sim>0.5,则采用如下规则,使两个字符串中的Sk和Tk两个识别结果相互检验,形成最后的识别结果(1)如果Sk=Tk,结果一致;结果为Tk或Sk;(2)如果Sk=R,这里R表示拒识,则结果为Tk;(3)如果Sk与Tk不相等,如果pk>α,并且q<β,则结果为Sk;如果q>α,并且pk<β,则结果为Tk。这里α和β是两个阈值,分别取值为0.8和0.5。本专利技术将函件的数字邮政编码和收信人汉字地址信息结合起来进行校验识别,实现目的地信息的补全和纠错,提高了识别系统的效率和正确率。降低了邮件分检的成本。以下结合附图及实施方式进一步说明本专利技术。附图说明图1为本专利技术的原理框2为本专利技术校验识别信件实施例具体实施方式如图1所示,一种,包括以下步骤建立邮政编码与汉字地址对照表;进行邮政编码数字识别获得第一数字识别结果及识别自信度;进行收件人汉字地址识别获得汉字识别结果及识别自信度,并根据所述对照表获得邮政编码第二数字识别结果及识别自信度;根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别。假设汉字识别获得地址的地名,根据邮政编码与汉字地址对照表得知该地名对应于长度为M的邮政编码数字串(T1,T2,…,TM),而且汉字地名识别的自信度是q。用一个二元组表示为((T1,T2,…,TM),q)。假设该识别结果对应于邮政编码识字识别中的(S1,S2,…,SM),其自信度为(p1,p2,…,pM),用一个二元组表示为((S1,S2,…,SM),(p1,p2,…,pM))本专利技术首先判断(S1,S2,…,SM)与(T1,T2,…,TM)的相似度Sim=1MΣk=1Mf(Sk,Tk)]]>其中,如果Sk=Tk,那么f(Sk,Tk)=1;否则如果Sk=R,那么f(Sk,Tk)=0.5;否则f(Sk,Tk)=0;如果Sim>0.5,则采用如下规则,使两个字符串中的Sk和Tk两个识别结果相互检验,形成最后的识别结果(4)如果Sk=Tk,结果一致;(5)如果Sk=R,本文档来自技高网
...

【技术保护点】
一种信函校验识别方法,包括以下步骤:建立邮政编码与汉字地址对照表;进行邮政编码数字识别获得第一数字识别结果及识别自信度;进行汉字地址识别获得汉字识别结果及识别自信度,并根据所述对照表获得邮政编码第二数字识别结果及识别 自信度;根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕岳邬建中徐海堰原晓梅
申请(专利权)人:邮政科学上海研究所
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1