一种OCR系统中采用深度学习矫正发票图片分割结果的方法技术方案

技术编号:21362574 阅读:25 留言:0更新日期:2019-06-15 09:35
本发明专利技术公开了一种OCR系统中采用深度学习矫正发票图片分割结果的方法一种OCR系统中采用深度学习矫正发票图片分割结果的方法包括1:获取训练图片,并提取训练生成矫正模型;步骤2:搜集票据图片的第一属性和第二属性,然后再提取截取的非发票的图片或被截取的残缺的发票图片标记为负样本,不记录其第二属性信息;步骤3:构建矫正网络对步骤1和2所得的图片通过神经网络进行处理,运用常用的人脸检测常用数据集运用得出的模型进行迁移训练;步骤4:对步骤3所得票据图片进行初步切图,并获取的第三属性和第四属性结合票据图片输入步骤1所得的矫正模型得到修正后的第三属性和第四属性,即得到最终的票据图片分割结果。

A Method of Correcting Invoice Picture Segmentation Results by Deep Learning in OCR System

The invention discloses a method for correcting the segmentation result of invoice pictures by deep learning in OCR system. A method for correcting the segmentation result of invoice pictures by deep learning in OCR system includes: 1. acquiring training pictures and extracting training to generate correction model; 2. collecting the first and second attributes of bill pictures, and then extracting intercepted non-invoice pictures or intercepted pictures. The incomplete invoice pictures are marked as negative samples without recording their second attribute information; Step 3: Construct a correction network to process the pictures obtained in steps 1 and 2 through neural networks, and use the models obtained from commonly used face detection data sets for migration training; Step 4: Preliminary cut the bill pictures obtained in step 3, and obtain the third attribute and the fourth attribute. The third and fourth attributes are obtained by combining the attributes with the correction model obtained in step 1 of the bill image input, that is, the final bill image segmentation result.

【技术实现步骤摘要】
一种OCR系统中采用深度学习矫正发票图片分割结果的方法
本专利技术涉及液晶电视
,具体的说,是一种OCR系统中采用深度学习矫正发票图片分割结果的方法。
技术介绍
在做发票核算、票面信息录入等批量业务OCR时,往往都是一张发票粘贴在一张A4纸张上,而票面OCR仅仅关注票据的主体部分,非发票主体部分空白边缘会对OCR处理时的计算资源造成浪费。所以就需要首先对A4纸进行分割。自动分割发票技术虽已应用,但由于发票图片的一些特殊性,难以和背景底色准确区分,所以分割后仍需对分割后的结果进行坐标纠正,以满足OCR处理需求。由于人工矫正很难统一标准,且批量矫正的工作量大,造成业务处理效率低下。
技术实现思路
本专利技术的目的在于提供一种OCR系统中采用深度学习矫正发票图片分割结果的方法,用于解决现有技术中做发票核算、票面信息录入等批量业务OCR时发票图片难以和背景底色准确区分,而人工矫正很难统一标准,且批量矫正的工作量大,造成业务处理效率低下的问题。本专利技术通过下述技术方案解决上述问题:一种OCR系统中采用深度学习矫正发票图片分割结果的方法,所述方法包括如下步骤:步骤1:获取训练图片,并提取其第一属性和第二属性进行训练,根据第一属性和第二属性返回训练图片取得正负样本标签,联合训练图片、第一属性和第二属性共同以生成矫正模型;步骤2:搜集票据图片的第一属性和第二属性,联合扫描件发票图片提取训练的正样本图片,然后再提取截取的非发票的图片或被截取的残缺的发票图片标记为负样本,不记录其第二属性信息;步骤3:构建矫正网络对步骤1和2所得的图片通过神经网络进行处理,运用常用的人脸检测常用数据集运用得出的模型进行迁移训练;步骤4:对步骤3所得票据图片进行初步切图,并获取的第三属性和第四属性结合票据图片输入步骤1所得的矫正模型得到修正后的第三属性和第四属性,即得到最终的票据图片分割结果。通过本方法,通过训练好的神经网络进行分割并且通过神经网络模型进行矫正,不用再人工进矫正或者审核,很好的解决了现有技术中做发票核算、票面信息录入等批量业务OCR时发票图片难以和背景底色准确区分,而人工矫正很难统一标准,且批量矫正的工作量大,造成业务处理效率低下的问题。优选地,所述第一属性包括切出主体的中心点在原图中的坐标、切出主体的左上角点在原图中的坐标和右下角点在原图中的坐标;第二属性包括票据图片主体区域的宽度与高度;第三属性包括初步切图后的切出主体的中心点在原图中的坐标、切出主体的左上角点在原图中的坐标和右下角点在原图中的坐标;第四属性包括初步切图后票据图片主体区域的宽度与高度。优选地,所述步骤2中正负样本的比例为10:1。优选地,所述步骤3中的迁移训练包括如下步骤:步骤3.1:使用已经标注好的人脸定位识别常用数据集WIDERFACE获取正样本数据,从人脸定位识别常用数据集CelebA分别提取正样本和负样本数据,同时获得图片的第一属性和第二属性;步骤3.2:将上述步骤2中准备好的数据,在已有的人脸定位矫正网络模型权重的基础上,进行迁移学习训练。本专利技术与现有技术相比,具有以下优点及有益效果:(1)本专利技术通过训练好的神经网络进行分割并且通过神经网络模型进行矫正,不用再人工进矫正或者审核,很好的解决了现有技术中做发票核算、票面信息录入等批量业务OCR时发票图片难以和背景底色准确区分,而人工矫正很难统一标准,且批量矫正的工作量大,造成业务处理效率低下的问题。(2)本专利技术使用神经网络进行图片分割和矫正,减轻工作人员工作量提升工作效率的同时,还大大提升了矫正的稳定性和准确率。附图说明图1为根据本专利技术一个实施例用于扫描件发票图片分割结果矫正模型生成流程图;图2为一个实施例的用于扫描件发票图片分割结果矫正的模型的结构;具体实施方式下面结合实施例对本专利技术作进一步地详细说明,但本专利技术的实施方式不限于此。实施例1:一种OCR系统中采用深度学习矫正发票图片分割结果的方法,所述方法包括如下步骤:步骤1:获取训练图片,并提取其第一属性和第二属性进行训练,根据第一属性和第二属性返回训练图片取得正负样本标签,联合训练图片、第一属性和第二属性共同以生成矫正模型;步骤2:搜集票据图片的第一属性和第二属性,联合扫描件发票图片提取训练的正样本图片,然后再提取截取的非发票的图片或被截取的残缺的发票图片标记为负样本,不记录其第二属性信息;步骤3:构建矫正网络对步骤1和2所得的图片通过神经网络进行处理,运用常用的人脸检测常用数据集运用得出的模型进行迁移训练;步骤4:对步骤3所得票据图片进行初步切图,并获取的第三属性和第四属性结合票据图片输入步骤1所得的矫正模型得到修正后的第三属性和第四属性,即得到最终的票据图片分割结果。优选地,所述第一属性包括切出主体的中心点在原图中的坐标、切出主体的左上角点在原图中的坐标和右下角点在原图中的坐标;第二属性包括票据图片主体区域的宽度与高度;第三属性包括初步切图后的切出主体的中心点在原图中的坐标、切出主体的左上角点在原图中的坐标和右下角点在原图中的坐标;第四属性包括初步切图后票据图片主体区域的宽度与高度。优选地,所述步骤2中正负样本的比例为10:1。优选地,所述步骤3中的迁移训练包括如下步骤:步骤3.1:使用已经标注好的人脸定位识别常用数据集WIDERFACE获取正样本数据,从人脸定位识别常用数据集CelebA分别提取正样本和负样本数据,同时获得图片的第一属性和第二属性;步骤3.2:将上述步骤2中准备好的数据结合步骤3.1所得,在已有的人脸定位矫正网络模型权重的基础上,进行迁移学习训练。如上所述的方法,结合附图,一种OCR系统中采用深度学习矫正发票图片分割结果的方法,包括如下步骤:步骤1:如图1所示,获取第一属性,和第二属性。第一属性包括切出主体的中心点在原图中的坐标(c_x,,c_y)、切出主体的左上角点在原图中的坐标(x_left,y_top),右下角点在原图中的坐标(x_right,y_bottom)等,第二属性包括发票图片主体区区域的宽度w与高度h。举例而言,具体办法如采用已有的手段,通过付费方式,将贴有发票的A4纸扫描件发票图片的关键信息打马赛克后统一上传至众包平台AmazonMechanicalTurk,设定好发票主体区面积需占据的切后图片面积的占比,不超过此阈值的分割均为合格,一般返回xml文件,xml文件内包含分割区左上角的坐标点(x_left,y_left),发票主体区宽w和高度h,中心点坐标即可经简单计算得出为(x_left+1/2*w,y_top+1/2*h)步骤2:搜集发票图片的第一属性和第二属性,联合扫描件发票图片通过第一提取模块提取训练的正样本图片,此类图片边缘合适,且均为正样本发票图片,然后再使用第一提取模块提取截取的非发票的图片或被截取的残缺的发票图片,这些标记为负样本,不记录其第二属性信息。举例而言,上述得出的含有左上角点坐标和主体区宽和高的xml使用opencv等现有的工具包,在原图裁切,得到正样本发票的图片,负样本发票图片的定义这里规定为:1、从扫描件原件图片的左顶点开始,随机截取出来的图片;2、非发票图片。一般地,正负样本比例设置为10:1。步骤3:构建矫正网络,构建矫正网络对步骤1和2所得的图片通过神经网络进行处理,本文档来自技高网...

【技术保护点】
1.一种OCR系统中采用深度学习矫正发票图片分割结果的方法,其特征在于,所述方法包括如下步骤:步骤1:获取训练图片,并提取其第一属性和第二属性进行训练,根据第一属性和第二属性返回训练图片取得正负样本标签,联合训练图片、第一属性和第二属性共同以生成矫正模型;步骤2:搜集票据图片的第一属性和第二属性,联合扫描件发票图片提取训练的正样本图片,然后再提取截取的非发票的图片或被截取的残缺的发票图片标记为负样本,不记录其第二属性信息;步骤3:构建矫正网络对步骤1和2所得的图片通过神经网络进行处理,运用常用的人脸检测常用数据集运用得出的模型进行迁移训练;步骤4:对步骤3所得票据图片进行初步切图,并获取的第三属性和第四属性结合票据图片输入步骤1所得的矫正模型得到修正后的第三属性和第四属性,即得到最终的票据图片分割结果。

【技术特征摘要】
1.一种OCR系统中采用深度学习矫正发票图片分割结果的方法,其特征在于,所述方法包括如下步骤:步骤1:获取训练图片,并提取其第一属性和第二属性进行训练,根据第一属性和第二属性返回训练图片取得正负样本标签,联合训练图片、第一属性和第二属性共同以生成矫正模型;步骤2:搜集票据图片的第一属性和第二属性,联合扫描件发票图片提取训练的正样本图片,然后再提取截取的非发票的图片或被截取的残缺的发票图片标记为负样本,不记录其第二属性信息;步骤3:构建矫正网络对步骤1和2所得的图片通过神经网络进行处理,运用常用的人脸检测常用数据集运用得出的模型进行迁移训练;步骤4:对步骤3所得票据图片进行初步切图,并获取的第三属性和第四属性结合票据图片输入步骤1所得的矫正模型得到修正后的第三属性和第四属性,即得到最终的票据图片分割结果。2.根据权利要求1所述的一种OCR系统中采用深度学习矫正发票图片分割结果的方法,其特征在于:所述第一属性包括切出主体...

【专利技术属性】
技术研发人员:梁欢肖欣庭池明辉赵冬
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1