一种用于邮政分拣系统的邮政编码识别方法技术方案

技术编号:8594263 阅读:353 留言:0更新日期:2013-04-18 07:34
本发明专利技术公开了一种适用于邮政本口分拣的邮政编码识别方法,统计分拣系统所在地域的邮政编码的数字字符的分布情况,确定出现次数最少的数字字符c,设数字字符c的错分代价为1,即Cost[c]=1,其他类别数字的错分代价Cost[i]根据类别的分布统计数据进行计算,根据计算出的所有类别的错分代价得到适用于本地域的代价敏感矩阵Cost。采集大数量的邮政编码组成邮政编码数字字符图像样本库,在该样本库中利用所述的错误代价矩阵采集训练样本集,根据所述的代价敏感矩阵,为错分代价最小的类别c选取训练样本Mc个,其他类别的训练样本个数Mi根据代价敏感矩阵Cost及Mc进行计算得到,用该训练样本集对支持向量机分类器进行训练,然后用训练好的支持向量机分类器对邮政编码进行识别。

【技术实现步骤摘要】

本专利技术属于邮政
,特别涉及。
技术介绍
邮政编码的识别是邮政自动分拣设备能准确分拣函件的核心。目前对于邮政编码识别的算法均基于传统的单个数字的识别,假设每类数字是均衡分布的,没有考虑在邮政编码中各类数字出现的频次。然而在邮政编码中,每类数字的分布不是均衡的,尤其是本口分拣中,由于处理的都是当地信函,邮政编码中的前几位有很大的重复性,数字类别分布的不均衡现象尤其明显,因此邮政编码的识别也是一种类别不均衡问题,需要适合的方法来降低类别分布不均衡带来的影响,提高自动信函分拣系统的性能。近年来,类别不均衡分布问题已经被意识到是机器学习和数据挖掘领域的一个非常重要的问题。人们已经对类别不平衡问题进行了大量的研究,但是一直没有成熟有效的解决方案。
技术实现思路
本专利技术目的是提供,以解决现有技术中邮政分拣系统的邮政编码识别难题。本专利技术的原理是基于研究表明,基于类别不平衡数据集的分类器学习和错识代价不相同或未知情况下分类器的学习可以用相似的方式来实现,而代价敏感学习是这类问题的一个很好的解决方案。本专利技术的技术方案是,,包括以下步骤根据邮政分拣系统提供的名址库统计所在地域的邮政编码的数字字符的分布情况,具体统计所涵盖的所有邮政编码中每类数字的出现次数,统计表I如下所示,表I

【技术保护点】
一种用于邮政分拣系统的邮政编码识别方法,其特征在于,包括以下步骤:根据邮政分拣系统提供的名址库统计所在地域的邮政编码的数字字符的分布情况,具体统计所涵盖的所有邮政编码中每类数字的出现次数,统计表如下所示,数字字符出现次数0N01N12N23N34N45N56N67N78N89N9其中,Ni表示数字字符i,i?∈{0,...,9}出现的次数;确定出现次数最少的数字字符c,满足Nc≤Ni,其中i,c?∈{0,...,9};设数字字符c的错分代价为1,即Cost[c]=1,则其它9类数字字符的错分代价为Cost[i]=NiNc×Cost[c]=NiNc---(1)在邮政分拣系统中采集大数量的邮政编码组成邮政编码数字字符图像样本库,在该样本库中利用所述的错误代价矩阵采集训练样本集,对样本数的选取是,根据所述的错分代价,为错分代价最小的类别c选取训练样本Mc个,为其他9类数字选取训练样本个数为Mi=(1+log(Cost[i]/Cost[c])×Mc????(2)训练样本集采集完成后,用该训练样本集对支持向量机分类器进行训练,该支持向量分类器是一个二类分类器,过程如下:在学习阶段,设训练样本集为{(x1,y1),...,(xi,yi),...,(xl,yl)},其中xi为样本,yi为类别,xi∈Rn,yi∈{?1,1},求最优解满足公式(3), 公式(3)为minα12Σi=1lΣj=1lyiyjαiαjK(xi,xj)-Σi=1lαi---(3)其中Σi=1lyiαi=0,然后选择α*的正分量,计算由此构造出最优分类超平面,得出决策函数为:f(x)=sgn(Σi=1lαi*yi(x·xi)+b*)---(4)在识别阶段,对于待测样本x,输入如公式(4)的决策函数中,得出其二类的分类结果1或-1;在所述的学习阶段的训练样本中,每两类作为一个二类分类,邮政编码的10个数字作为10类,则训练10×(10?1)/2=45个分类器,在所述的识别阶段,用每个分类器来预测测试样本,得到45个预测结果,根据结果对邮政编码的10个类别进行投票,得票最多的类别为测试样本的邮政编码类别。FDA00002592394800012.jpg,FDA00002592394800023.jpg...

【技术特征摘要】
1.一种用于邮政分拣系统的邮政编码识别方法,其特征在于,包括以下步骤 根据邮政分拣系统提供的名址库统计...

【专利技术属性】
技术研发人员:吕淑静吕岳
申请(专利权)人:上海邮政科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1