一种针对带表格合同的OCR识别方法技术

技术编号：25757392 阅读：36 留言：0更新日期：2020-09-25 21:06

本发明专利技术公开了一种针对带表格合同的OCR识别方法，涉及OCR及深度学习领域。该方法具体包括：对输入的带表格合同图片使用基于YOLOv4的表格检测模型进行检测，利用检测结果对合同图片进行切片处理，得到表格图片；对表格图片使用基于YOLOv4的表格单元格检测模型进行检测，利用检测结果对表格图片进行切片处理，得到表格单元格切片；对表格单元格切片使用基于CRNN+CTC的文字识别模型进行识别，得到单元格内容；结合上述步骤输出信息得到整张合同图片结构化输出。该方法通过将带表格合同识别分成表格检测，单元格检测，单元格识别三个步骤，分别针对性地优化每个步骤模型的性能，提高了表格识别的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对带表格合同的OCR识别方法
本专利技术涉及OCR及深度学习
，具体涉及一种针对带表格合同的OCR识别方法。
技术介绍
随着越来越多的公司采用电子签约的形式完成合同的签署，线下的纸质合同进行线上化处理的需求就变得很迫切。线下合同通过扫描成图片的形式上传，合同中存在大量的表格，而且一般而言，表格中的信息对于整个合同有着非常重要的意义，所以OCR(OpticalCharacterRecognition，光学字符识别)系统对表格识别的支持显得非常重要。目前基于OCR技术对包含表格文件的识别存在表格定位不准、表格本身的结构干扰识别结果、不同类型表格的差异化支持以及表格中存在的多行文字识别等问题。公开号CN107133621A(申请号为CN201710334784.5)的中国专利技术专利了一种基于OCR的格式化传真的分类和信息提取方法，包括：对传真的图像进行自适应阈值的二值化；对图像进行校正；找到校正后的图像中表格的最大包围框的轮廓，从图像中表格的最大包围框的上部区域截取图像的表头区域；筛选表头区域中的字体轮廓并对字体轮廓进行融合；检测表头区域合并后的字段的数量，对图像进行分类；提取分类成功的图像，对图像中待识别区域进行定位；根据OCR识别技术对表格中的待识别的区域的字段进行识别；优化已识别的字段。该技术方案基于传统的特征分析的方法处理表格，要求表格具备特定的明显的特征，对无表头，无边框，边框不清晰，表外包含直线等异型表格不能很好地进行识别。因此，特别需要一种基于深度学习的识别方法，能很好地适应特征...

【技术保护点】
1.一种针对带表格合同的OCR识别方法，其特征在于，包括以下步骤：/n1)对输入的合同图片进行表格检测，如果合同图片中包含表格，将表格从合同图片中切片出来，得到表格切片，剩余部分作为非表格切片，并记录各切片在原合同图片中的位置信息，得到表格切片的位置信息和非表格切片的位置信息；如果合同图片中不含表格，整张合同图片就作为一个非表格切片；/n2)对步骤1)得到的表格切片进行单元格检测，根据检测结果对表格切片中的单元格进行切片，得到单元格切片，每个单元格切片仅包含原表格样式中的一个单元格，并且记录单元格切片在表格切片中的位置信息，得到单元格位置信息；/n3)对步骤2)产生的单元格切片进行文本识别，得到单元格的文本信息，并对步骤1)产生的非表格切片进行文本识别，得到非表格切片的文本信息；/n4)结合步骤3)得到的单元格的文本信息以及步骤2)得到的单元格位置信息，得到结构化的表格信息，再结合步骤3)得到的非表格切片的文本信息和步骤1)得到的表格切片的位置信息和非表格切片的位置信息，得到整张合同图片的识别结果。/n

【技术特征摘要】
1.一种针对带表格合同的OCR识别方法，其特征在于，包括以下步骤：
1)对输入的合同图片进行表格检测，如果合同图片中包含表格，将表格从合同图片中切片出来，得到表格切片，剩余部分作为非表格切片，并记录各切片在原合同图片中的位置信息，得到表格切片的位置信息和非表格切片的位置信息；如果合同图片中不含表格，整张合同图片就作为一个非表格切片；
2)对步骤1)得到的表格切片进行单元格检测，根据检测结果对表格切片中的单元格进行切片，得到单元格切片，每个单元格切片仅包含原表格样式中的一个单元格，并且记录单元格切片在表格切片中的位置信息，得到单元格位置信息；
3)对步骤2)产生的单元格切片进行文本识别，得到单元格的文本信息，并对步骤1)产生的非表格切片进行文本识别，得到非表格切片的文本信息；
4)结合步骤3)得到的单元格的文本信息以及步骤2)得到的单元格位置信息，得到结构化的表格信息，再结合步骤3)得到的非表格切片的文本信息和步骤1)得到的表格切片的位置信息和非表格切片的位置信息，得到整张合同图片的识别结果。

2.根据权利要求1所述的针对带表格合同的OCR识别方法，其特征在于，步骤1)中，所述的表格检测采用训练后的表格检测模型，表格检测模型的训练过程包括：
1.1)将模板合同转换成docx格式的word文档，在word文档中插入表格，插入表格后的word文档解压出document.xml文件，然后操作文档里面的document.xml文件，将表格外框修改成特定颜色，得到表格外框修改成特定颜色的word文档；
1.2)将表格外框修改成特定颜色的word文档转换成pdf文档，利用pdf转图片工具转换成合同图片，然后对合同图片进行矩形识别，得到表格在合同图片中的位置和大小，再将未修改的word文档转换成图片，得到标注数据；
1.3)在不同的模板合同中不同位置插入不同类型的表格，重复步骤1.1)和1.2)得到不同的标注数据；
1.4)利用步骤1.2)和1.3)得到的标注数据训练表格检测模型，得到训练后的表格检测模型。

3.根据权利要求2所...

【专利技术属性】
技术研发人员：程欢，吴青昀，徐俊杰，
申请(专利权)人：杭州尚尚签网络科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人