一种海量发票的识别方法、系统及存储介质技术方案

技术编号：31834039 阅读：29 留言：0更新日期：2022-01-12 13:11

本发明专利技术公开了一种海量发票的识别方法，涉及计算机图像识别技术领域，解决发票识别精确度差的技术问题，方法包括：步骤S1.获取图片；步骤S2.检测图片中是否存在发票，若存在发票，则定位发票的四个角，根据四个角对图片进行矫正得到矫正图片；否则退出；步骤S3.通过yolo模型定位所述矫正图片中的二维码和需要识别的字符；步骤S4.对所述二维码和需要识别的字符进行预处理，并输入到tensorflow模型中识别得到识别结果。本发明专利技术还公开了一种海量发票的识别系统及存储介质。本发明专利技术通过yolo模型可以快速精确定位发票需要识别区域，使用tensorflow模型不断学习，对发票字段中不同字体进行训练，可以提高识别率。可以提高识别率。可以提高识别率。

全部详细技术资料下载

【技术实现步骤摘要】
一种海量发票的识别方法、系统及存储介质

[0001]本专利技术涉及计算机图像识别
，更具体地说，它涉及一种海量发票的识别方法、系统及存储介质。

技术介绍

[0002]发票图片信息提取最传统的方式是OCR识别。传统OCR技术框架主要分为五个步骤：首先文本定位，接着进行倾斜文本矫正，之后分割出单字后，并对单字识别，最后基于统计模型进行语义纠错。传统OCR冗长的处理流程以及大量人工规则的存在，无法处理二维码，识别要素有限，效率低下，精确度不高。

技术实现思路

[0003]本专利技术要解决的技术问题是针对现有技术的上述不足，本专利技术的目的一是提供一种可以提高识别精度的海量发票的识别方法。
[0004]本专利技术的目的二是提供一种可以提高识别精度的海量发票的识别系统。
[0005]本专利技术的目的三是提供一种可以实现上述识别方法的计算机可读存储介质。
[0006]为了实现上述目的一，本专利技术提供一种海量发票的识别方法，包括：
[0007]步骤S1.获取图片；
[0008]步骤S2.检测所述图片中是否存在发票，若存在发票，则定位所述发票的四个角，根据所述四个角对所述图片进行矫正得到矫正图片；否则退出；
[0009]步骤S3.通过yolo模型定位所述矫正图片中的二维码和需要识别的字符；
[0010]步骤S4.对所述二维码和需要识别的字符进行预处理，并输入到tensorflow模型中识别得到识别结果。
[0011]作为进一步地改进，在所述步骤S...

【技术保护点】

【技术特征摘要】
1.一种海量发票的识别方法，其特征在于，包括：步骤S1.获取图片；步骤S2.检测所述图片中是否存在发票，若存在发票，则定位所述发票的四个角，根据所述四个角对所述图片进行矫正得到矫正图片；否则退出；步骤S3.通过yolo模型定位所述矫正图片中的二维码和需要识别的字符；步骤S4.对所述二维码和需要识别的字符进行预处理，并输入到tensorflow模型中识别得到识别结果。2.根据权利要求1所述的一种海量发票的识别方法，其特征在于，在所述步骤S2中，采用tensorflow模型来识别所述图片中的发票，并将所述图片矫正，具体步骤包括：步骤S21.通过人工打标标注多个发票的四个直角；步骤S22.对所述多个发票进行增加样本量处理得到标注图片样本，增加样本量处理包括对发票进行旋转、腐蚀、加噪、划线中的至少一种处理；步骤S23.将所述标注图片样本输入基于tensorflow模型实现的crnn目标检索网络，经过迭代训练后得到定位发票四角模型；步骤S24.将获取的图片输入所述定位发票四角模型，若能检测到发票的四个角落，则认为该图片中存在发票，执行步骤S25；否则，认为该图片中不存在发票，退出；步骤S25.以所述定位发票四角模型得到的四个角落坐标位置为原坐标，以实际发票的长、宽为目标坐标，使用图像处理工具的透视变换，将该图片摆正。3.根据权利要求2所述的一种海量发票的识别方法，其特征在于，所述crnn目标检索网络包括7个cnn卷积层、2个rnn层、5个池化层。4.根据权利要求2所述的一种海量发票的识别方法，其特征在于，将所述标注图片样本归一化为768*1536后，再输入tensorflow模型训练得到所述定位发票四角模型。5.根据权利要求2所述的一种海量发票的识别方法，其特征在于，在所述步骤S3中，通过yolov3
‑
tiny模型定位二维码和需要识别的字符，具体步骤包括：步骤S31.对所述标注图片样本使用labelimg进行打标，标出需要识别的内容；步骤S32.将打标好的标注图片样本输入yolov3
‑
tiny模型中训练并获取权重值；步骤S33.根据所述权重值将所述矫正图片输入yolov3
‑
tiny模型得到二维码和需要识别的字符的位置信息、置信度；步骤S34.通过图像处理工具把置信度最高的相应位置图片裁剪出来，得到二...

【专利技术属性】
技术研发人员：潘宏沣，黄发龙，林耀坚，林载辉，汪建，
申请(专利权)人：广东亿迅科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人