一种轻量级的票据OCR识别方法及系统技术方案

技术编号：38553179 阅读：14 留言：0更新日期：2023-08-22 20:58

本发明专利技术提供了一种轻量级的票据OCR识别方法及系统，首先从票据设备获取混合票据数据；通过预处理模块对混合票据数据预处理，通过票据分类模块对旋转之后的票据图像进行组合分类；通过票据识别模块检测组合分类的票据图像文字所在区域，在该区域包含印章特定的目标文本时检测印章区域，之后提取所有区域的结构化字段逆袭，并利用先验知识和纠错字典进行纠错。本发明专利技术针对所有混合票据实现自动化分类具有较高的分类效率，且利用开源的文本识别模型和文本检测模型先微调再进入优化算法保证分类成本的同时满足分类精度要求，最后通过综合纠错可以提高返回结果的准确性。纠错可以提高返回结果的准确性。纠错可以提高返回结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种轻量级的票据OCR识别方法及系统

[0001]本专利技术属于票据识别
，具体涉及一种轻量级的票据OCR识别方法及系统。

技术介绍

[0002]当前，各个行业的业务办理中都会产生大量的票据，为了实现将这些数据巨大，种类烦多的票据信息进行电子化存储，需要消耗巨大的人力进行信息录入和信息校对的工作。OCR技术的发展使票据信息的自动录入成为可能，其远快于人工录入的速度能节约大量的人力资源，但是由于票据种类烦多，如果保证OCR识别的准确性，已成为现在急需解决的问题。
[0003]中国银行股份有限公司所申请的专利“票据识别方法及装置”(申请号201910921362.7)公开了一种票据识别方法及装置，通过获取待识别票据的OCR识别结果和每个票据元素对应的多个数据元组，计算每个票据元素与对应各个数据元组的相似度，将相似度最大的数据元组，确定为每个票据元素的识别结果，然后根据待识别票据中各个票据元素的识别结果，生成待识别票据的识别结果。该专利的不足在于，针对相似度的计算需要获取票据的真实信息，而对于数量巨大的票据来说，这本身就是一个非常大的工作量，实现的时候也需要付出巨大的人力资源。
[0004]深圳供电局有限公司所申请的专利“财务票据OCR识别及影像处理方法、系统及可读存储介质”(申请号202011303601.1)公布了一种财务票据OCR识别及影像处理方法、系统及可读存储介质。通过研究OCR图像识别技术在财务票据领域的应用，预先训练票据类型识别模型识别并获取所述票据影像的票据类型，根据所述票据的票据类型...

【技术保护点】

【技术特征摘要】
1.一种轻量级的票据OCR识别方法，其特征在于，包括：步骤1，从票据设备获取混合票据数据；步骤2，通过预处理模块对混合票据数据进行票据定位以及清晰度判别，并对符合清晰度要求的票据图像进行去噪，再进行旋转；步骤3，通过票据分类模块对旋转之后的票据图像进行组合分类；步骤4，通过票据识别模块检测组合分类的票据图像所有文字所在区域，并对该区域进行文本识别得到文本内容，如果文本内容包含印章特定的目标文本则票据图像进行目标检测得到所有字段内容以及对应的坐标，并利用正则化匹配方式对字段内容和坐标进行匹配，得到结构化的字段信息；步骤5，结合先验知识和错误字典，通过后处理纠错模块对结构化的字段信息进行纠错，得到票据识别结果。2.根据权利要求1所述的轻量级的票据OCR识别方法，其特征在于，所述预处理模块包括依次连接的格式转化层、票据定位处理层、二值化处理层、灰度化处理层以及图像角度矫正层。3.根据权利要求2所述的轻量级的票据OCR识别方法，其特征在于，步骤2包括：步骤21，判断所述混合票据的数据格式是图像类型还是非图像类型；步骤22，如果所述混合票据的数据格式为非图像类型，则通过格式转化层将混合票据转化为票据图像，如果所述混合票据的数据格式为图像类型，则将其作为票据定位处理层的输入；步骤22，通过所述数据定位处理层，对票据图像中的有效信息进行定位得到有效信息的定位区域；其中，票据图像为数据格式为图像类型的混合票据或转化得到的票据图像；步骤23，将所述定位区域作为输入图像，并对该输入图像依次进行灰度化处理、二值化处理，得到黑白的票据图片；步骤24，对票据图片的方向进行判别，并按照判别结果旋转票据图片的方向使所有票据图片统一为正方向。4.根据权利要求1所述的轻量级的票据OCR识别方法，其特征在于，所述票据识别模块包括基于模式的分类层、MobileNetV2分类层、分类结果融合层；所述基于模式的分类层与所述MobileNetV2分类层并行，输出均连接至分类结果融合层，所述分类结果融合层输出票据种类。5.根据权利要求4所述的轻量级的票据OCR识别方法，其特征在于，步骤3包括：步骤31，将旋转之后的票据图像通过基于模式的分类层以及MobileNetV2分类层进行分类；其中，基于模式的分类...

【专利技术属性】
技术研发人员：褚华，李青山，杨雨函，周洋涛，李佳楠，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人