一种针对带表格合同的OCR识别方法技术

技术编号:25757392 阅读:36 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开了一种针对带表格合同的OCR识别方法,涉及OCR及深度学习领域。该方法具体包括:对输入的带表格合同图片使用基于YOLOv4的表格检测模型进行检测,利用检测结果对合同图片进行切片处理,得到表格图片;对表格图片使用基于YOLOv4的表格单元格检测模型进行检测,利用检测结果对表格图片进行切片处理,得到表格单元格切片;对表格单元格切片使用基于CRNN+CTC的文字识别模型进行识别,得到单元格内容;结合上述步骤输出信息得到整张合同图片结构化输出。该方法通过将带表格合同识别分成表格检测,单元格检测,单元格识别三个步骤,分别针对性地优化每个步骤模型的性能,提高了表格识别的效果。

【技术实现步骤摘要】
一种针对带表格合同的OCR识别方法
本专利技术涉及OCR及深度学习
,具体涉及一种针对带表格合同的OCR识别方法。
技术介绍
随着越来越多的公司采用电子签约的形式完成合同的签署,线下的纸质合同进行线上化处理的需求就变得很迫切。线下合同通过扫描成图片的形式上传,合同中存在大量的表格,而且一般而言,表格中的信息对于整个合同有着非常重要的意义,所以OCR(OpticalCharacterRecognition,光学字符识别)系统对表格识别的支持显得非常重要。目前基于OCR技术对包含表格文件的识别存在表格定位不准、表格本身的结构干扰识别结果、不同类型表格的差异化支持以及表格中存在的多行文字识别等问题。公开号CN107133621A(申请号为CN201710334784.5)的中国专利技术专利了一种基于OCR的格式化传真的分类和信息提取方法,包括:对传真的图像进行自适应阈值的二值化;对图像进行校正;找到校正后的图像中表格的最大包围框的轮廓,从图像中表格的最大包围框的上部区域截取图像的表头区域;筛选表头区域中的字体轮廓并对字体轮廓进行融合;检测表头区域合并后的字段的数量,对图像进行分类;提取分类成功的图像,对图像中待识别区域进行定位;根据OCR识别技术对表格中的待识别的区域的字段进行识别;优化已识别的字段。该技术方案基于传统的特征分析的方法处理表格,要求表格具备特定的明显的特征,对无表头,无边框,边框不清晰,表外包含直线等异型表格不能很好地进行识别。因此,特别需要一种基于深度学习的识别方法,能很好地适应特征不明显的各种异型表格。
技术实现思路
针对上述问题,本专利技术提出了一种针对带表格合同的OCR识别方法,可以支持类型众多的表格识别,同时提高了表格信息识别的准确率。一种针对带表格合同的OCR识别方法,包括以下步骤:1)对输入的合同图片进行表格检测,如果合同图片中包含表格,将表格从合同图片中切片出来,得到表格切片,剩余部分作为非表格切片,并记录各切片在原合同图片中的位置信息,得到表格切片的位置信息和非表格切片的位置信息;如果合同图片中不含表格,整张合同图片就作为一个非表格切片;2)对步骤1)得到的表格切片进行单元格检测,根据检测结果对表格切片中的单元格进行切片,得到单元格切片,每个单元格切片仅包含原表格样式中的一个单元格,并且记录单元格切片在表格切片中的位置信息,得到单元格位置信息;3)对步骤2)产生的单元格切片进行文本识别,得到单元格的文本信息,并对步骤1)产生的非表格切片进行文本识别,得到非表格切片的文本信息;4)结合步骤3)得到的单元格的文本信息以及步骤2)得到的单元格位置信息,得到结构化的表格信息,再结合步骤3)得到的非表格切片的文本信息和步骤1)得到的表格切片的位置信息和非表格切片的位置信息,得到整张合同图片的识别结果。本专利技术的方法为一种基于深度学习的识别方法,能很好地适应特征不明显的各种异型表格。以下作为本专利技术的优选技术方案:步骤1)中,所述的表格检测采用训练后的表格检测模型,表格检测模型的训练过程包括:1.1)将模板合同转换成docx格式的word文档,在word文档中插入表格,插入表格后的word文档解压出document.xml文件,然后操作文档里面的document.xml文件,将表格外框修改成特定颜色,得到表格外框修改成特定颜色的word文档;特定颜色可以自己设定,与文字和表格的颜色能够区分即可,如可选红色。1.2)将表格外框修改成特定颜色的word文档转换成pdf文档,利用pdf转图片工具转换成合同图片,然后对合同图片进行矩形识别,得到表格在合同图片中的位置和大小,再将未修改的word文档转换成图片,得到标注数据;步骤1.2)中,对图片进行矩形识别可采用基于opencv库的矩形识别方法。1.3)在不同的模板合同中不同位置插入不同类型的表格,重复步骤1.1)和1.2)得到不同的标注数据;1.4)利用步骤1.2)和1.3)得到的标注数据训练表格检测模型,得到训练后的表格检测模型。步骤1.4)中,所述的表格检测模型为YOLOv4,属于目标检测模型。表格检测模型是基于YOLOv4目标检测模型使用数据集通过微调训练而得。步骤2)中,所述的单元格检测采用训练后的表格单元格检测模型,表格单元格检测模型的训练过程包括:2.1)在空白的docx格式word文档中插入表格,插入表格后的word文档解压出document.xml文件,然后操作文档里面的document.xml文件,将表格线框修改成特定颜色,得到表格线框修改成特定颜色的word文档;特定颜色可以自己设定,与文字和表格的颜色能够区分即可,如可选红色。2.2)将表格线框修改成特定颜色的word文档转换成pdf文档,利用pdf转图片工具转换成合同图片,然后对合同图片进行矩形识别,得到表格在合同图片中的位置和大小,再将未修改的word文档转换成图片,得到标注数据;步骤2.2)中,对图片进行矩形识别可采用基于opencv库的矩形识别方法。2.3)利用步骤2.2)的标注数据训练表格单元格检测模型,得到训练后的表格单元格检测模型。步骤2.3)中,所述的表格单元格检测模型为YOLOv4,属于目标检测模型。表格单元格检测模型是基于YOLOv4目标检测模型使用数据集通过微调训练而得。步骤3)中,对步骤2)产生的单元格切片进行文本识别采用训练后的表格单元格识别模型,表格单元格识别模型的训练过程具体包括:3.1)根据常用于表格中的字符及组合生成文字图片,得到标注数据;3.2)采用标注数据训练表格单元格识别模型,得到训练后的表格单元格识别模型。步骤3.2)中,表格单元格识别模型采用CRNN+CTC模型。表格单元格识别模型是基于CRNN+CTC构建的文字识别模型,使用针对表格单元格的数据集训练而得。与现有技术相比,本专利技术具有如下优点:本专利技术方法具体包括:对输入的带表格合同图片使用基于YOLOv4的表格检测模型进行检测,利用检测结果对合同图片进行切片处理,得到表格图片;对表格图片使用基于YOLOv4的表格单元格检测模型进行检测,利用检测结果对表格图片进行切片处理,得到表格单元格切片;对表格单元格切片使用基于CRNN+CTC的文字识别模型进行识别,得到单元格内容;结合上述步骤输出信息得到整张合同图片结构化输出。该方法还包括使用弱监督方式为三种模型生成大量高质量标注数据,用来训练模型,提高模型性能。该方法通过将带表格合同识别分成表格检测,单元格检测,单元格识别三个步骤,分别针对性地优化每个步骤模型的性能,提高了表格识别的效果。本专利技术方法可以支持类型众多的表格识别,同时提高了表格信息识别的准确率。本专利技术方法不仅可以支持企业的线下合同线上化需求,还可以支持企业年报、员工报销发票中的表格信息提取等。附图说明图1为本专利技术的流程图。图2为本专利技术中使本文档来自技高网
...

【技术保护点】
1.一种针对带表格合同的OCR识别方法,其特征在于,包括以下步骤:/n1)对输入的合同图片进行表格检测,如果合同图片中包含表格,将表格从合同图片中切片出来,得到表格切片,剩余部分作为非表格切片,并记录各切片在原合同图片中的位置信息,得到表格切片的位置信息和非表格切片的位置信息;如果合同图片中不含表格,整张合同图片就作为一个非表格切片;/n2)对步骤1)得到的表格切片进行单元格检测,根据检测结果对表格切片中的单元格进行切片,得到单元格切片,每个单元格切片仅包含原表格样式中的一个单元格,并且记录单元格切片在表格切片中的位置信息,得到单元格位置信息;/n3)对步骤2)产生的单元格切片进行文本识别,得到单元格的文本信息,并对步骤1)产生的非表格切片进行文本识别,得到非表格切片的文本信息;/n4)结合步骤3)得到的单元格的文本信息以及步骤2)得到的单元格位置信息,得到结构化的表格信息,再结合步骤3)得到的非表格切片的文本信息和步骤1)得到的表格切片的位置信息和非表格切片的位置信息,得到整张合同图片的识别结果。/n

【技术特征摘要】
1.一种针对带表格合同的OCR识别方法,其特征在于,包括以下步骤:
1)对输入的合同图片进行表格检测,如果合同图片中包含表格,将表格从合同图片中切片出来,得到表格切片,剩余部分作为非表格切片,并记录各切片在原合同图片中的位置信息,得到表格切片的位置信息和非表格切片的位置信息;如果合同图片中不含表格,整张合同图片就作为一个非表格切片;
2)对步骤1)得到的表格切片进行单元格检测,根据检测结果对表格切片中的单元格进行切片,得到单元格切片,每个单元格切片仅包含原表格样式中的一个单元格,并且记录单元格切片在表格切片中的位置信息,得到单元格位置信息;
3)对步骤2)产生的单元格切片进行文本识别,得到单元格的文本信息,并对步骤1)产生的非表格切片进行文本识别,得到非表格切片的文本信息;
4)结合步骤3)得到的单元格的文本信息以及步骤2)得到的单元格位置信息,得到结构化的表格信息,再结合步骤3)得到的非表格切片的文本信息和步骤1)得到的表格切片的位置信息和非表格切片的位置信息,得到整张合同图片的识别结果。


2.根据权利要求1所述的针对带表格合同的OCR识别方法,其特征在于,步骤1)中,所述的表格检测采用训练后的表格检测模型,表格检测模型的训练过程包括:
1.1)将模板合同转换成docx格式的word文档,在word文档中插入表格,插入表格后的word文档解压出document.xml文件,然后操作文档里面的document.xml文件,将表格外框修改成特定颜色,得到表格外框修改成特定颜色的word文档;
1.2)将表格外框修改成特定颜色的word文档转换成pdf文档,利用pdf转图片工具转换成合同图片,然后对合同图片进行矩形识别,得到表格在合同图片中的位置和大小,再将未修改的word文档转换成图片,得到标注数据;
1.3)在不同的模板合同中不同位置插入不同类型的表格,重复步骤1.1)和1.2)得到不同的标注数据;
1.4)利用步骤1.2)和1.3)得到的标注数据训练表格检测模型,得到训练后的表格检测模型。


3.根据权利要求2所...

【专利技术属性】
技术研发人员:程欢吴青昀徐俊杰
申请(专利权)人:杭州尚尚签网络科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1