票据信息区域自动识别和提取方法及设备技术

技术编号:8934631 阅读:195 留言:0更新日期:2013-07-18 03:14
本发明专利技术提供票据信息区域自动识别和提取方法及设备,涉及计算机图像处理和信息识别领域。本发明专利技术通过票据图像预处理、利用预先通过信息区域训练自学习而构建的信息区域特征数据库进行信息区域识别、边界和底纹处理、字符区域增强处理、信息区域提取等处理,能够以良好的准确率和适应性自动地识别和提取多类票据中的感兴趣区域信息,从而节省票据处理的人力和时间。

【技术实现步骤摘要】

本专利技术涉及计算机图像处理和信息识别领域,尤其是票据的信息区域的自动识别和提取技术。
技术介绍
现代社会的各种商业活动,特别是银行业务,广泛使用各种票据。例如,随着现代社会的发展,人们越来越多地使用支票代替现金进行消费和结算。支票等票据的广泛使用必然导致票据的存储、管理以及票据信息的查找愈来愈麻烦。虽然目前在银行等有关行业广泛使用计算机来管理海量票据信息,但是向计算机系统人工输入票据信息需耗费大量的人力和时间。为此,有人提出了可以自动识别票据中的区域信息的票据自动识别技术,能够从票据中自动提取有用信息,并按照一定的分类规则保存到数据库中供用户检索查询,从而减少用户的工作量。然而,目前的票据自动识别技术存在以下问题:首先,票据格式多种多样,没有统一的识别格式,目前没有快速有效的分类方式来识别票据的样式;其次,票据大多由人用笔填写,之后通过扫描等手段输入计算机识别系统,其中的污损、残缺、摆放不正等因素都会极大地影响系统的识别准确率;第三,目前针对票据的识别方式都是通过版面分类的方式进行预处理,这对于规规矩矩的扫描件是有效的,而对于票据形状、扫描坐标、旋转、倾斜度等处理效率都不高。
技术实现思路
为了克服现有技术存在的上述问题,本专利技术提供一种票据信息区域自动识别和提取技术,能够以良好的准确率和适应性自动地识别和提取多类票据中的感兴趣区域信息,从而节省票据处理的人力和时间。根据本专利技术的一种票据信息区域自动识别和提取方法包括以下步骤:票据图像预处理,包括对票据图像进行去黑边、去噪点、纠偏以及灰度化处理;利用预先通过信息区域训练自学习而构建的信息区域特征数据库,对经过预处理的票据图像进行信息区域识别;边界和底纹处理,包括对所识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理;字符区域增强处理,包括对经过边界和底纹处理的信息区域中的字符区域进行字符区域分割和膨胀腐蚀处理;以及提取经过字符区域增强处理的各个信息区域。根据本专利技术的一种票据信息区域自动识别和提取设备包括:票据图像预处理装置,用于对票据图像进行去黑边、去噪点、纠偏以及灰度化处理;信息区域识别装置,用于利用预先通过信息区域训练自学习而构建的信息区域特征数据库,对经过票据图像预处理装置处理的票据图像进行信息区域识别;边界和底纹处理装置,用于对由信息区域识别装置识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理;字符区域增强处理装置,用于对经过边界和底纹处理装置处理的信息区域中的字符区域进行字符区域分割和膨胀腐蚀处理;以及信息区域提取装置,用于提取经过字符区域增强处理装置处理的各个信息区域。本专利技术通过票据图像预处理、边界和底纹处理,能够显著地减小票据摆放不正、票据污损或残缺等因素对票据自动识别的准确率的影响。本专利技术利用通过训练自学习而构建的信息区域特征数据库来进行票据信息区域识别,从而能够适应于多种票据格式,自动地识别和提取多类票据中的感兴趣区域信息。此外,本专利技术通过字符区域增强处理,能够显著地提高后续的光学字符识别(OCR)的准确率。附图说明图1是根据本专利技术的票据信息区域自动识别和提取方法的流程图;图2例示根据本专利技术的票据图像预处理过程;图3例示根据本专利技术的票据信息区域训练自学习过程;图4例示根据本专利技术的票据信息区域识别过程;图5例示根据本专利技术的边界和底纹处理过程;图6例示根据本专利技术的字符区域增强处理过程;以及图7是根据本专利技术的票据信息区域自动识别和提取设备的框图。具体实施例方式如图1所示,根据本专利技术的票据信息区域自动识别和提取方法包括以下步骤:票据图像预处理、信息区域识别、边界和底纹处理、字符区域增强处理、以及信息区域提取。如图2所示,票据图像预处理包括对例如从扫描仪等装置输入的票据图像进行去黑边、去噪点、纠偏以及灰度化处理。例如,可以通过边界连续黑值判断,去除票据图像中因为扫描出现的黑边;可以对整幅票据图像进行中值滤波,其中区域大小设为3*3,以有效地去除扫描产生的噪点;可以通过Hough变换来检测票据图像中的长线段,统计相应最大的两个垂直方向,然后根据标准的矩形方向进行旋转,以实现对票据图像的纠偏;最后对票据图像进行灰度化处理。在信息区域识别步骤中,利用信息区域特征数据库对经过预处理的票据图像进行信息区域识别,该信息区域特征数据库是预先通过信息区域训练自学习而构建的。在图3所示的例子中,信息区域训练自学习是针对多种样本票据图像进行的。优选地,这些样本票据图像都经过去黑边、去噪点、纠偏以及灰度化等处理,以便达到最佳的训练效果。每种样本票据图像中的票据分割线的位置以及字符区域、印章区域等信息区域的位置和大小等是预先已知的。针对样本票据图像的信息区域训练自学习过程可以包括:对样本票据图像进行AdaBoost算法和Haar算法训练,以获取每个信息区域的级联分类器特征值;使用Canny边缘检测算子和Hough变换算法来检测票据分割线;采用尺度不变特征变换(SIFT)或快速鲁棒特征(SURF)特征点算法来区分字符区域、印章区域等不同的信息区域。通过信息区域训练自学习而获取的每种样本票据图像的不同信息区域的标识符(ID)、名称、功能描述、字符和底纹的颜色RGB值、SIFT/SURF特征向量、级联分类器特征值、相对的票据分割线位置、相对的信息区域的位置和大小等信息区域特征被集中保存,构成信息区域特征数据库。如图4所示,利用信息区域特征数据库进行票据信息区域识别的过程可以包括:通过SIFT/SURF特征点算法获得经过预处理的票据图像的SIFT/SURF特征向量,将其与所述信息区域特征数据库中的SIFT/SURF特征向量进行比对,以排查没有任何待识别的信息区域的票据;利用所述信息区域特征数据库中的级联分类器特征值对该票据图像进行窗口搜索,找到匹配的信息区域;根据所述信息区域特征数据库中的相对的票据分割线位置,判断匹配的信息区域的合理性,以去掉不合理的匹配信息区域;从所述信息区域特征数据库中获取合理的匹配信息区域的区域信息。该区域信息可以包括区域ID、位置和大小等。如图5所示,边界和底纹处理包括对所识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理。例如,可以将所识别的信息区域中的重叠区域合并成连通域,通过水平投影、垂直投影、像素连续性检测算法来获取更精细的连续边界;可以通过信息区域特征数据库中的颜色RGB值对所识别的信息区域进行颜色过滤,以去除底纹干扰;可以对所识别的信息区域中的字符相近颜色进行加强处理,以突出字符颜色;可以通过动态阈值算法,对所识别的信息区域进行二值化处理。如图6所示,字符区域增强处理包括对经过边界和底纹处理的信息区域中的字符区域进行字符区域分割和膨胀腐蚀处理。所述字符区域分割处理可以包括:对字符周边有边框的,去除该边框;采用引入先验知识的基于连通域的层次化切分方法进行普通字符分割。在这种层次化切分方法中,使用Canny边缘检测算子来检测边缘,并且采用基于行列投影的方法来递归分割粘连在一起的目标,其中,初始的目标是通过种子填充得到的每个运动目标,在每次迭代的过程中对当前目标进行行列投影以找到一个最佳的切分位置,这个切分位置具有最小的投影值也即所花代价最小,在该最佳的切分位置将当前目本文档来自技高网...

【技术保护点】
一种票据信息区域自动识别和提取方法,包括以下步骤:票据图像预处理,包括对票据图像进行去黑边、去噪点、纠偏以及灰度化处理;利用预先通过信息区域训练自学习而构建的信息区域特征数据库,对经过预处理的票据图像进行信息区域识别;边界和底纹处理,包括对所识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理;字符区域增强处理,包括对经过边界和底纹处理的信息区域中的字符区域进行字符区域分割和膨胀腐蚀处理;以及提取经过字符区域增强处理的各个信息区域。

【技术特征摘要】

【专利技术属性】
技术研发人员:谭宜勇张屹吴玉峰郑邦东
申请(专利权)人:北京英迈杰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1