基于深度学习关键点检测的发票图像畸变校正方法技术

技术编号：23085639 阅读：21 留言：0更新日期：2020-01-11 01:20

本发明专利技术提出一种基于深度学习关键点检测的发票图像畸变校正方法，属于图像处理技术领域。本发明专利技术解决了对票据图像畸变进行校正的问题，其技术方案要点为：首先，训练数据标注及增强；其次，设置网络结构及训练参数；然后，利用网络结构及训练参数设置训练关键点检测模型，保存训练后的模型；再然后，利用训练后的模型进行票据关键点检测；最后，利用检测到的关键点进行票据对齐。本发明专利技术可以快速、精确、适用于自然场景，对校正后的图片进行识别很大程度上提高了OCR识别的准确率，为下游OCR应用减少人力物力投入，节省资源。

Distortion correction method of invoice image based on key point detection of deep learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习关键点检测的发票图像畸变校正方法
本专利技术涉及图像处理
，特别涉及一种基于深度学习关键点检测的发票图像畸变校正方法。
技术介绍
近几年，AI技术的发展突飞猛进，其应用领域也越来越广，如机器人、语音识别、图像识别、计算机视觉、自动驾驶等领域。在图像识别方面，基于深度学习的OCR识别以其识别精度高、识别速度快等优点被业界广泛采用。众所周知，OCR技术一般分为文本检测和文本识别两个技术分支，虽然近期也有推出基于神经网络的端到端OCR识别，但其在特定场景下的效果还不理想。因此，主流的OCR识别技术还是分为文本检测和文本识别两个方向。而OCR识别精度不仅受限于识别算法的好坏，文本检测的效果也起到了决定性的作用。而图像质量对文本检测效果的影响也较为显著。尤其是移动互联网时代下，移动设备的兴起使得普通用户对OCR应用的需求也日益增大，然而，由于用户行为的不可控性，各种场景下移动设备采集到的图像也千差万别。其中，图像畸变(非平拍)对图像文字区域定位与识别的影响尤为明显，如果能在图像识别之前对采集到的图像进行校正，则能从源头有效提高文字识别的准确度。
技术实现思路
本专利技术的目的是提供一种基于深度学习关键点检测的发票图像畸变校正方法，解决对票据图像畸变进行校正的问题。本专利技术解决其技术问题，采用的技术方案是：基于深度学习关键点检测的发票图像畸变校正方法，包括如下步骤：步骤1、训练数据标注及增强；步骤2、设置网络结构及训练参数；步骤3、利用网络结构及训练参数设置...

【技术保护点】
1.基于深度学习关键点检测的发票图像畸变校正方法，其特征在于，包括如下步骤：/n步骤1、训练数据标注及增强；/n步骤2、设置网络结构及训练参数；/n步骤3、利用网络结构及训练参数设置训练关键点检测模型，保存训练后的模型；/n步骤4、利用训练后的模型进行票据关键点检测；/n步骤5、利用检测到的关键点进行票据对齐。/n

【技术特征摘要】
1.基于深度学习关键点检测的发票图像畸变校正方法，其特征在于，包括如下步骤：
步骤1、训练数据标注及增强；
步骤2、设置网络结构及训练参数；
步骤3、利用网络结构及训练参数设置训练关键点检测模型，保存训练后的模型；
步骤4、利用训练后的模型进行票据关键点检测；
步骤5、利用检测到的关键点进行票据对齐。

2.根据权利要求1所述的基于深度学习关键点检测的发票图像畸变校正方法，其特征在于，步骤1中，采用部分人工标注数据，而后用数据增强的策略生成大量训练数据，其具体包括如下步骤：
步骤101、标注数据准备；
步骤102、数据标注；
步骤103、数据增强；
步骤104、数据格式转换；
步骤105、数据集划分。

3.根据权利要求2所述的基于深度学习关键点检测的发票图像畸变校正方法，其特征在于，步骤101中，标注数据准备时，收集不同类别的待标注图片，每类1000张，定义每类票据的关键点位置及名称，关键点个数大于4个；
所述关键点的定义按如下准则执行：
若发票图片中有表格且表格样式固定，则实际定义时以表格中的角点为准，且选取的关键点分布于发票票面的各个位置；
若发票图片无表格，则应按照发票的固定文字区域位置为准来定义关键点；
若实际发票图片存在不规整的问题导致部分定义的关键点不可见，则在执行实际标注任务时只标注相应的可见关键点。

4.根据权利要求2所述的基于深度学习关键点检测的发票图像畸变校正方法，其特征在于，步骤102中，数据标注时，有表格的发票图片采用VIA工具的points任务类型来执行标注，无表格的采用VIA的rect任务类型来执行标注。

5.根据权利要求2所述的基于深度学习关键点检测的发票图像畸变校正方法，其特征在于，步骤103中，数据增强时，采用标注部分数据，然后对已标注的数据根据实际业务票据图像情况进行图像增强，对训练数据的增强策略使用python的imgaug图像增强库，采用如下方式：
图像随机仿射变换，其中缩放尺度范围为(0.5,2)，旋转角度范围为[(-15,15),(75,105),(165,195),(255,285)]，单位为度，平移量为(-200，200)，单位为像素；
图像随机透视变换，scale参数随机取值范围为(0.025,0.15)；
图像随机加噪；
图像对比度拉伸；
图像增加阴影噪声；
以上数据增强方式融合将已标注训练数据进行扩充增强。

6.根据权利要求2所述的基于深度学习关键点检测的发票图像畸变校正方法，其特征在于，步骤1...

【专利技术属性】
技术研发人员：池明辉，肖欣庭，梁欢，罗珊珊，赵冬，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人