【技术实现步骤摘要】
本专利技术属于邮政
,特别涉及。
技术介绍
邮政编码的识别是邮政自动分拣设备能准确分拣函件的核心。目前对于邮政编码识别的算法均基于传统的单个数字的识别,假设每类数字是均衡分布的,没有考虑在邮政编码中各类数字出现的频次。然而在邮政编码中,每类数字的分布不是均衡的,尤其是本口分拣中,由于处理的都是当地信函,邮政编码中的前几位有很大的重复性,数字类别分布的不均衡现象尤其明显,因此邮政编码的识别也是一种类别不均衡问题,需要适合的方法来降低类别分布不均衡带来的影响,提高自动信函分拣系统的性能。近年来,类别不均衡分布问题已经被意识到是机器学习和数据挖掘领域的一个非常重要的问题。人们已经对类别不平衡问题进行了大量的研究,但是一直没有成熟有效的解决方案。
技术实现思路
本专利技术目的是提供,以解决现有技术中邮政分拣系统的邮政编码识别难题。本专利技术的原理是基于研究表明,基于类别不平衡数据集的分类器学习和错识代价不相同或未知情况下分类器的学习可以用相似的方式来实现,而代价敏感学习是这类问题的一个很好的解决方案。本专利技术的技术方案是,,包括以下步骤根据邮政分拣系统提供的名址库统计所在地域的邮政编码的数字字符的分布情况,具体统计所涵盖的所有邮政编码中每类数字的出现次数,统计表I如下所示,表I
【技术保护点】
一种用于邮政分拣系统的邮政编码识别方法,其特征在于,包括以下步骤:根据邮政分拣系统提供的名址库统计所在地域的邮政编码的数字字符的分布情况,具体统计所涵盖的所有邮政编码中每类数字的出现次数,统计表如下所示,数字字符出现次数0N01N12N23N34N45N56N67N78N89N9其中,Ni表示数字字符i,i?∈{0,...,9}出现的次数;确定出现次数最少的数字字符c,满足Nc≤Ni,其中i,c?∈{0,...,9};设数字字符c的错分代价为1,即Cost[c]=1,则其它9类数字字符的错分代价为Cost[i]=NiNc×Cost[c]=NiNc---(1)在邮政分拣系统中采集大数量的邮政编码组成邮政编码数字字符图像样本库,在该样本库中利用所述的错误代价矩阵采集训练样本集,对样本数的选取是,根据所述的错分代价,为错分代价最小的类别c选取训练样本Mc个,为其他9类数字选取训练样本个数为Mi=(1+log(Cost[i]/Cost[c])×Mc????(2)训练样本集采集完成后,用该训练样本集对支持向量机分类器进行训练,该支持向量分类器是一个二类分类器,过程如下:在学习阶段,设 ...
【技术特征摘要】
1.一种用于邮政分拣系统的邮政编码识别方法,其特征在于,包括以下步骤 根据邮政分拣系统提供的名址库统计...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。