当前位置: 首页 > 专利查询>浙江大学专利>正文

一种人民币冠字号自动识别方法技术

技术编号:16271182 阅读:194 留言:0更新日期:2017-09-22 22:45
本发明专利技术公开了一种人民币冠字号自动识别方法,其通过对人民币图像结构布局的深刻认识,设计实现了一套能准确识别人民币边缘、朝向和冠字号区域的算法。本发明专利技术通过高效的算法实现和精心设计的处理步骤,借助成熟OCR引擎的功能,大大提升了冠字号识别的速度;通过对OCR引擎识别效果科学的统计分析和对冠字号模式的认识,综合利用多个引擎的优势,成功的将成熟的开源OCR引擎应用于冠字号识别这一特定领域,并且保证了冠字号识别的准确率,提供了极高的识别速度。

【技术实现步骤摘要】
一种人民币冠字号自动识别方法
本专利技术属于金融OCR(OpticalCharacterRecognition,光学字符识别)
,具体涉及一种人民币冠字号自动识别方法。
技术介绍
OCR是利用光学技术对文字和字符进行扫描,获取文字和字符的图像信息,利用各种模式识别算法对文字形态特征进行分析,获取文字及版面特征信息的过程。随着OCR技术的逐渐成熟,OCR技术开始应用于各个领域,如证件识别、车牌识别、票据识别、银行卡识别、文档识别等,在银行、保险、金融、物流、审计、税务、海关、公安、边检等众多行业都已经形成了成熟的OCR产品。OCR技术的应用减少了设备的配置,降低了人力成本,提高了工作效率。随着中国经济的发展,人民币的监测和管理工作面临越来越大的压力,而人民币的监测和管理关键在于冠字号的管理。冠字号码是用于统计钞票印制数量、标记钞票唯一性的一种符号,由冠字和号码两部分组成,表示钞票的印制数量。人民币一般实行“一票一号”,冠字号码代表着每张钞票独一无二的身份,成了每张人民币的身份证。利用冠字号码的唯一性,在自动柜员机配钞过程中,把这些纸币的冠字号码采集、记录下来,就可以进行查询和统计。因此,在出现假币纠纷时,只要在管理平台中核对一下交易时钞票的冠字号码,就可以证明假币是否来自自动柜员机。随着光学字符识别技术的广泛应用,人民币冠字号识别和追踪已经成为金融领域一种防止经济犯罪的重要手段。根据央行营业管理部要求,银行的ATM和存取款一体机都必须实现人民币冠字号记录功能。目前银行ATM机、存取款循环一体机、金融机构柜台付出的100元面额人民币冠字号码都必须可查询。在这一背景下,如何实现一种高效、高准确度的人民币冠字号识别方法显得尤为重要。传统的冠字号识别方法虽然准确率尚可,但是识别速度较慢,对于污渍和相似字符的问题也并不能很好解决。
技术实现思路
鉴于上述,本专利技术提供了一种人民币冠字号自动识别方法,能够准确、高效的利用验钞机拍摄的人民币图像,实现人民币冠字号的自动识别。一种人民币冠字号自动识别方法,包括如下步骤:(1)首先采集人民币的灰度图像,进而对该灰度图像进行纸币边缘识别得到人民币的四边形轮廓;(2)基于透视变换对人民币的四边形轮廓进行裁剪及矫正,以得到人民币的矩形图像;(3)基于颜色分布情况对人民币矩形图像的朝向进行识别及矫正,以得到正面朝上的人民币矩形图像,对于反面的人民币矩形图像则直接丢弃;(4)对正面朝上的人民币矩形图像进行冠字号区域边界探测,以定位得到所要识别的冠字号区域;(5)对冠字号区域图像进行预处理,依次包括图像二值化、字符切割、直方图拉伸以及连通分量分析,得到冠字号的各个字符图像;(6)针对人民币冠字号字符利用开源的OCR引擎Tesseract提供的训练工具进行训练,得到用于识别冠字号字符的专有引擎;(7)利用所述专有引擎以及OCR引擎Tesseract中自带识别拉丁字符的原生引擎对步骤(5)中得到的各个字符图像进行识别,以得到各字符图像所对应的候选字符列表及各候选字符的置信度;(8)根据冠字号的组合特点以及置信度,从候选字符列表为各字符图像选取一个字符作为其识别结果。进一步地,所述步骤(1)中对人民币的灰度图像进行纸币边缘识别,具体过程如下:1.1对人民币的灰度图像进行中值滤波处理;1.2将滤波后的灰度图像进行膨胀处理;1.3将膨胀后的灰度图像进行二值化处理;1.4对二值化图像采用Suzuki85算法[Suzuki,S.andAbe,K.,TopologicalStructuralAnalysisofDigitizedBinaryImagesbyBorderFollowing.CVGIP301,pp32-46(1985)]进行轮廓识别,得到图像中面积最大的外部轮廓;1.5利用道格拉斯-普克算法对该外部轮廓进行四边形近似或检测其最小外接矩形,从而得到人民币的四边形轮廓。进一步地,所述步骤(4)中对人民币矩形图像进行冠字号区域边界探测,具体过程如下:4.1按照465×231的尺寸对人民币矩形图像进行重采样得到其缩略图;4.2选定缩略图中第5列第168行像素点为冠字号区域的左上顶点,以该顶点为基准选定高为33宽为116的区域为ROI(regionofinterest,感兴趣区域);4.3对选定的ROI进行直方图拉伸和二值化处理;4.4基于预设的行列黑白点比例阈值,对二值化后ROI中冠字号的上下左右边界进行两轮探测逼近,去除白色空白边框以最终得到所要识别的冠字号区域。进一步地,所述步骤(7)的具体实现过程如下:7.1对于任一字符图像,利用专有引擎对其进行识别得到候选字符列表及各候选字符的置信度;7.2比较各候选字符的置信度,若置信度最大的候选字符为B、Z、0、4、8或G,则执行步骤7.3;否则,直接将该候选字符列表及各候选字符置信度作为最终输出结果;7.3利用原生引擎对该字符图像进行识别得到候选字符列表及各候选字符的置信度;7.4以专有引擎识别得到的候选字符列表作为最终输出结果,关于其中各候选字符的置信度:对于同时出现在两个引擎候选字符列表中的字符,则通过两个引擎所计算出的置信度加权确定后最终输出;对于只在专有引擎候选字符列表中出现的字符,则以专有引擎计算出的置信度为最终输出。所述步骤7.4中两个引擎对于不同字符置信度的加权系数通过逻辑回归的方法确定。进一步地,所述步骤(8)的具体实现过程如下:8.1对于冠字号中的第1位字符图像,从其对应的候选字符列表中选择置信度最高的字母作为识别结果;8.2对于冠字号中的后6位字符图像,从各自对应的候选字符列表中选择置信度最高的数字作为识别结果;8.3对于冠字号中的第2~4位字符图像,遍历所有出自各自候选字符列表且包含1个字母2个数字的字符组合,选择字符置信度之和最高的字符组合作为识别结果。优选地,对于步骤(8)中识别结果为T或J且置信度低于85%的字符图像,截取该字符图像的下70%部分并利用原生引擎对其进行识别:若识别结果为J,则判定该字符图像为J;若识别结果为I或1,则判定该字符图像为T。本专利技术的有益技术效果如下:(1)本专利技术中引入了基于图像预处理方法组合以及Suzuki85轮廓识别算法,可以从验钞机捕获的纸币图像中提取纸币主体,并纠正图像扭曲。(2)本专利技术中引入了基于像素特征规则的冠字号区域边界检测方法,能够高速且有效的从纸币图像中提取冠字号区域;此外本专利技术还综合利用了一系列高效的图像预处理方法,对冠字号区域进行了清理,最大化的去除污渍、设备漏光等噪声对识别的影响。(3)本专利技术利用了开源的成熟OCR引擎,经过训练用于人民币冠字号识别场景,在训练数据质量和数量都存在困难的前提下,能够通过综合利用多引擎加权识别结果,以及合理有效的纠错方案,将识别准确率提升到99%以上。(4)本专利技术在保证识别结果准确率的同时,一方面采用高效的算法,优化实现性能,一方面简化图像处理的步骤,利用缩略图和粗定位减少计算量。在树莓派Model3B(1.2GHz四核ARMv8CPU)环境测试,识别速度可以达到1000张/分以上。附图说明图1为本专利技术方法的系统实现示意图。图2为本专利技术纸币边缘识别及透视变换的流程示意图。图3为本专利技术冠字号区域边界探测及双引擎识别的流程示意图。具体实本文档来自技高网
...
一种人民币冠字号自动识别方法

【技术保护点】
一种人民币冠字号自动识别方法,包括如下步骤:(1)首先采集人民币的灰度图像,进而对该灰度图像进行纸币边缘识别得到人民币的四边形轮廓;(2)基于透视变换对人民币的四边形轮廓进行裁剪及矫正,以得到人民币的矩形图像;(3)基于颜色分布情况对人民币矩形图像的朝向进行识别及矫正,以得到正面朝上的人民币矩形图像,对于反面的人民币矩形图像则直接丢弃;(4)对正面朝上的人民币矩形图像进行冠字号区域边界探测,以定位得到所要识别的冠字号区域;(5)对冠字号区域图像进行预处理,依次包括图像二值化、字符切割、直方图拉伸以及连通分量分析,得到冠字号的各个字符图像;(6)针对人民币冠字号字符利用开源的OCR引擎Tesseract提供的训练工具进行训练,得到用于识别冠字号字符的专有引擎;(7)利用所述专有引擎以及OCR引擎Tesseract中自带识别拉丁字符的原生引擎对步骤(5)中得到的各个字符图像进行识别,以得到各字符图像所对应的候选字符列表及各候选字符的置信度;(8)根据冠字号的组合特点以及置信度,从候选字符列表为各字符图像选取一个字符作为其识别结果。

【技术特征摘要】
1.一种人民币冠字号自动识别方法,包括如下步骤:(1)首先采集人民币的灰度图像,进而对该灰度图像进行纸币边缘识别得到人民币的四边形轮廓;(2)基于透视变换对人民币的四边形轮廓进行裁剪及矫正,以得到人民币的矩形图像;(3)基于颜色分布情况对人民币矩形图像的朝向进行识别及矫正,以得到正面朝上的人民币矩形图像,对于反面的人民币矩形图像则直接丢弃;(4)对正面朝上的人民币矩形图像进行冠字号区域边界探测,以定位得到所要识别的冠字号区域;(5)对冠字号区域图像进行预处理,依次包括图像二值化、字符切割、直方图拉伸以及连通分量分析,得到冠字号的各个字符图像;(6)针对人民币冠字号字符利用开源的OCR引擎Tesseract提供的训练工具进行训练,得到用于识别冠字号字符的专有引擎;(7)利用所述专有引擎以及OCR引擎Tesseract中自带识别拉丁字符的原生引擎对步骤(5)中得到的各个字符图像进行识别,以得到各字符图像所对应的候选字符列表及各候选字符的置信度;(8)根据冠字号的组合特点以及置信度,从候选字符列表为各字符图像选取一个字符作为其识别结果。2.根据权利要求1所述的人民币冠字号自动识别方法,其特征在于:所述步骤(1)中对人民币的灰度图像进行纸币边缘识别,具体过程如下:1.1对人民币的灰度图像进行中值滤波处理;1.2将滤波后的灰度图像进行膨胀处理;1.3将膨胀后的灰度图像进行二值化处理;1.4对二值化图像采用Suzuki85算法进行轮廓识别,得到图像中面积最大的外部轮廓;1.5利用道格拉斯-普克算法对该外部轮廓进行四边形近似或检测其最小外接矩形,从而得到人民币的四边形轮廓。3.根据权利要求1所述的人民币冠字号自动识别方法,其特征在于:所述步骤(4)中对人民币矩形图像进行冠字号区域边界探测,具体过程如下:4.1按照465×231的尺寸对人民币矩形图像进行重采样得到其缩略图;4.2选定缩略图中第5列第168行像素点为冠字号区域的左上顶点,以该顶点为基准选定高为33宽为116的区域为RO...

【专利技术属性】
技术研发人员:尹建伟赵景晨岑超邓水光李莹吴健吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1