一种用于邮政分拣系统的邮政编码识别方法技术方案

技术编号：8594263 阅读：368 留言：0更新日期：2013-04-18 07:34

本发明专利技术公开了一种适用于邮政本口分拣的邮政编码识别方法，统计分拣系统所在地域的邮政编码的数字字符的分布情况，确定出现次数最少的数字字符c，设数字字符c的错分代价为1，即Cost[c]＝1，其他类别数字的错分代价Cost[i]根据类别的分布统计数据进行计算，根据计算出的所有类别的错分代价得到适用于本地域的代价敏感矩阵Cost。采集大数量的邮政编码组成邮政编码数字字符图像样本库，在该样本库中利用所述的错误代价矩阵采集训练样本集，根据所述的代价敏感矩阵，为错分代价最小的类别c选取训练样本Mc个，其他类别的训练样本个数Mi根据代价敏感矩阵Cost及Mc进行计算得到，用该训练样本集对支持向量机分类器进行训练，然后用训练好的支持向量机分类器对邮政编码进行识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于邮政
，特别涉及。
技术介绍
邮政编码的识别是邮政自动分拣设备能准确分拣函件的核心。目前对于邮政编码识别的算法均基于传统的单个数字的识别，假设每类数字是均衡分布的，没有考虑在邮政编码中各类数字出现的频次。然而在邮政编码中，每类数字的分布不是均衡的，尤其是本口分拣中，由于处理的都是当地信函，邮政编码中的前几位有很大的重复性，数字类别分布的不均衡现象尤其明显，因此邮政编码的识别也是一种类别不均衡问题，需要适合的方法来降低类别分布不均衡带来的影响，提高自动信函分拣系统的性能。近年来，类别不均衡分布问题已经被意识到是机器学习和数据挖掘领域的一个非常重要的问题。人们已经对类别不平衡问题进行了大量的研究，但是一直没有成熟有效的解决方案。
技术实现思路
本专利技术目的是提供，以解决现有技术中邮政分拣系统的邮政编码识别难题。本专利技术的原理是基于研究表明，基于类别不平衡数据集的分类器学习和错识代价不相同或未知情况下分类器的学习可以用相似的方式来实现，而代价敏感学习是这类问题的一个很好的解决方案。本专利技术的技术方案是，，包括以下步骤根据邮政分拣系统提供的名址库统...

【技术保护点】
一种用于邮政分拣系统的邮政编码识别方法，其特征在于，包括以下步骤：根据邮政分拣系统提供的名址库统计所在地域的邮政编码的数字字符的分布情况，具体统计所涵盖的所有邮政编码中每类数字的出现次数，统计表如下所示，数字字符出现次数0N01N12N23N34N45N56N67N78N89N9其中，Ni表示数字字符i，i?∈{0，...，9}出现的次数；确定出现次数最少的数字字符c，满足Nc≤Ni，其中i，c?∈{0，...，9}；设数字字符c的错分代价为1，即Cost[c]＝1，则其它9类数字字符的错分代价为Cost[i]=NiNc×Cost[c]=NiNc---(1)在邮政分拣系统中采集大数...

【技术特征摘要】
1.一种用于邮政分拣系统的邮政编码识别方法，其特征在于，包括以下步骤根据邮政分拣系统提供的名址库统计...

【专利技术属性】
技术研发人员：吕淑静，吕岳，
申请(专利权)人：上海邮政科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人