当前位置: 首页 > 专利查询>南京大学专利>正文

一种电子卷宗表格式OCR识别的方法技术

技术编号:34242596 阅读:19 留言:0更新日期:2022-07-24 09:36
本发明专利技术公开了一种电子卷宗表格式OCR识别的方法,包括以下步骤:图像预处理,包括图像二值化,灰度化,倾斜矫正;表格线检测,使用Canny进行边缘检测之后,采用形态学变换的方法分别提取横线图和竖线图,之后相交得到线图;单元格定位,根据交点,收缩点团,确定单元格顶点和对角点坐标;在Word上进行表格重绘;文字内容回填,训练文字识别引擎,切分单元格内容分别进行文字识别,最后回填入表格。本发明专利技术旨在处理电子卷宗OCR识别过程中对于带表格图像的处理,将表格转换为易于后续处理的Word文档格式,提高了其可修改性和可处理性。提高了其可修改性和可处理性。提高了其可修改性和可处理性。

A method of OCR recognition of electronic file table format

【技术实现步骤摘要】
一种电子卷宗表格式OCR识别的方法


[0001]本专利技术涉及一种OCR图像识别方法,具体涉及一种电子卷宗表格式OCR识别的方法,属于数字图像处理


技术介绍

[0002]随着社会的不断发展,信息技术已经全面融入到人们的工作与生活中。信息技术和社会的高速发展同时伴随着信息爆炸,尤其在法律系统中,需要记录和存储的文书越来越多,各式各样的卷宗资料出现了爆炸式的增长,为了对这些资料中的关键信息进行有效利用,人们需要将这些文档进行合理的储存、筛选、分类以及关键信息的抽取和检索。显然,传统的纸质材料以及人工分拣的方式已经满足不了现在的需求,而基于电子文档,由程序进行的存储分类提取工作在效率和成本上都有着无可比拟的优势。
[0003]目前的文档资料主要由纸质和电子两种存储形式存在。纸质资料有着上千年的历史,而电子资料是在近几十年才逐步发展起来的。同时由于纸质资料有着易书写,不易篡改等特征,现在,很多场合依然使用各种纸质的文档资料。在人类历史中,纸质资料在知识保存和传播中发挥了非常重要的作用,其内容丰富,数量巨大。为了有效利用这规模庞大的纸质资料,并且将纸质版的特征和电子版易保存易处理的优点相结合,光学识别技术(Optical Character Recognition,OCR)应运而生。可以通过OCR方便快捷的将纸质文书转换为电子文档,为之后的信息提取和整理提供了极大地便利,有效的结合了这两类出版物的优势,摒弃各自的劣势,大大提高了工作效率。
[0004]在使用OCR技术处理法院相关文书的时候,纸质文书中有着大量的表格文档。而在OCR识别过程中,表格框线往往会对文字的识别造成很大的干扰。尤其是在法院文书的电子卷宗中,常常会出现手写体,例如签名,日期等等,手写文字因表格单元格紧凑,可能会超出单元格,这使得框线的存在进一步加大了对此类文书进行OCR识别的难度。由于印刷表格结构的复杂多样性,很难找到一种适用于任何表格的通用识别方法。如何正确的识别表格框线,并将其复现在识别后的文档中,以及如何定位表格中的文字并将其准确填入复现的表格中是目前急需解决的难点。
[0005]本专利技术将以处理法院文书中的表格为主要目标,设计一个能复现电子卷宗图片中表格文档的模块,取代传统的手工录入表格数据的方式,生成便于处理的Word形式,方便后续对文本内容进行处理。

技术实现思路

[0006]本专利技术是一种电子卷宗表格式OCR识别的方法,提供一种电子卷宗图像预处理方法,包括图像灰度化,图像二值化,倾斜图像矫正。并对预处理之后的图像进行表格线的提取,通过Canny边缘检测结合形态学变换的方法分别提取出图像的横线图和竖线图,以进一步得到图像的线图。之后通过线图定位单元格,使用单元格坐标信息在Word上重绘表格,并切分图像单元格内容进行文字识别,最终回填表格。该方法能有效的提取图像中的表格框
线,将图片表格内容重现到Word文档中,便于对电子卷宗文件内容的进一步处理。
[0007]1.本专利技术所述的一种电子卷宗表格式OCR识别的方法,其特征在于包含以下步骤:
[0008]步骤(1)卷宗图像预处理;
[0009]步骤(2)表格线检测与提取;
[0010]步骤(3)单元格定位;
[0011]步骤(4)在Word上重绘表格;
[0012]步骤(5)文字内容识别与回填。
[0013]2.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(1)中卷宗图像预
[0014]处理,具体子步骤包括:
[0015]步骤(1.1)使用加权平均数灰度化的方式将图像进行灰度化,得到去除了彩色分量的灰度图像;
[0016]步骤(1.2)使用Sauvola算法对灰度图像进行二值化,得到呈现非黑即白特征的二值图像;
[0017]步骤(1.3)对于图像主体倾斜的图像,使用OpenCV求取其主体邻接矩阵,计算邻接矩阵相对图像的
[0018]倾斜角,旋转图像主体。
[0019]3.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(2)中表格线检测与提取,具体子步骤包括:
[0020]步骤(2.1)对二值图像采用Canny算法,进行边缘检测,将边缘凸显出来;
[0021]步骤(2.2)取长为p,高为1的横向形态核区间,对步骤(2.1)中的图像进行先腐蚀后膨胀的形态学变换操作,得到横线图。不断改变p的取值以改变检测到的最短线段长度,并计算识别的精确度,以得到最合适的p值;
[0022]步骤(2.3)取高为1,长为p的纵向形态核区间,对步骤(2.1)中的图像进行先腐蚀后膨胀的形态学变换操作,得到竖线图。不断改变p的取值以改变检测到的最短线段长度,并计算识别的精确度,以得到最合适的p值;
[0023]步骤(2.4)将步骤(2.2)得到的横线图和步骤(2.3)得到的竖线图进行相交,得到线图。
[0024]4.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(3)中单元格定位,,具体子步骤包括:
[0025]步骤(3.1)提取步骤(2)中线图的交点,得到交点图;
[0026]步骤(3.2)使用阈值法收缩交点图中的点团,使每个交点由单个像素代表,得到交点像素的坐标序列,根据其横纵坐标,按照横竖线排列;
[0027]步骤(3.3)遍历交点的坐标序列,下一条横线和下一条竖线上存在邻接点的交点视为单元格的顶点,根据邻接点确定对角点。
[0028]5.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(4)中在Word上重绘表格。具体子步骤包括:
[0029]步骤(4.1)根据左上角单元格顶点坐标和右下角单元格对角点坐标计算整个表格长宽;
[0030]步骤(4.2)寻找最短的单元格长宽,设定为基础长宽值;
[0031]步骤(4.3)根据表格长宽和基础长宽,使用python

docx在Word文件上绘制标准表格;
[0032]步骤(4.4)根据单元格坐标计算单元格长宽,以及单元格向左和向下的合并单元格的数目,从左上角开始合并单元格。
[0033]6.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(5)中根据步骤(3)中得到的单元格坐标信息,切分单元格识别文字内容,并回填入步骤(4)绘制的表格。具体子步骤包括:
[0034]步骤(5.1)训练Tesseract引擎;
[0035]步骤(5.2)根据单元格坐标,截取图像中对应单元格内的图像;
[0036]步骤(5.3)使用Tesseract引擎识别步骤(5.1)中截取的图像,得到单元格内文字内容;
[0037]步骤(5.4)将识别的内容根据单元格位置信息,回填入步骤(4)绘制的表格中。
[0038]本专利技术与现有技术相比,其显著优点是:使用加权平均数灰度化的方法使图片灰度化,去除了RGB色彩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子卷宗表格式OCR识别的方法,其特征在于包含以下步骤:步骤(1)卷宗图像预处理;步骤(2)表格线检测与提取;步骤(3)单元格定位;步骤(4)在Word上重绘表格;步骤(5)文字内容识别与回填。2.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(1)中卷宗图像预处理,具体子步骤包括:步骤(1.1)使用加权平均数灰度化的方式将图像进行灰度化,得到去除了彩色分量的灰度图像;步骤(1.2)使用Sauvola算法对灰度图像进行二值化,得到呈现非黑即白特征的二值图像;步骤(1.3)对于图像主体倾斜的图像,使用OpenCV求取其主体邻接矩阵,计算邻接矩阵相对图像的倾斜角,旋转图像主体。3.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法,其特征在于步骤(2)中表格线检测与提取,具体子步骤包括:步骤(2.1)对二值图像采用Canny算法,进行边缘检测,将边缘凸显出来;步骤(2.2)取长为p,高为1的横向形态核区间,对步骤(21)中的图像进行先腐蚀后膨胀的形态学变换操作,得到横线图。不断改变p的取值以改变检测到的最短线段长度,并计算识别的精确度,以得到最合适的p值;步骤(2.3)取高为1,长为p的纵向形态核区间,对步骤(2.1)中的图像进行先腐蚀后膨胀的形态学变换操作,得到竖线图。不断改变p的取值以改变检测到的最短线段长度,并计算识别的精确度,以得到最合适的p值;步骤(2.4)将步骤(2.2)得到的横线图和步骤(2.3)得到的竖线图进行相交,得到线图。4.根据权利要求1所述的一种电子卷宗表格式...

【专利技术属性】
技术研发人员:葛季栋朱宇煊朱润之骆斌
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1