一种全线表表格结构识别方法技术

技术编号：33564819 阅读：10 留言：0更新日期：2022-05-26 23:03

本发明专利技术公开了一种全线表表格结构识别方法，包括：采用实例分割算法对文档图像进行单元格分割，得到每一个单元格对应于文档图像中单元格所在区域的二值化掩码图像；将每一个单元格的二值化掩码图像进行或运算和形态学闭操作，得到表格整体区域图像及表格整体区域图像的二值化掩码图像；采用矫正算法，在获得表格整体区域图像中表格区域的四个顶点后，利用TPS变换以这四个顶点为基准将弯曲表格修正为以这四个顶点为顶点的近似四边形表格区域，并使用透视变换将近似四边形表格区域转换成水平矩形的正表格图像；进行单元格目标检测获得每一个单元格的边界框；利用基于规则化排序算法进行排序以识别表格结构，将表格结构表达成对应的标记语言描述。对应的标记语言描述。对应的标记语言描述。

全部详细技术资料下载

【技术实现步骤摘要】
一种全线表表格结构识别方法

[0001]本专利技术属于图像处理与人工智能
，特别是涉及一种全线表表格结构识别方法。

技术介绍

[0002]表格，不仅仅是一种可视化的交流模式，也是一种组织整理数据的方式。在过去几十年里，随着信息技术、电子计算机科技的快速发展，智能手机、扫描仪等电子设备得到了广泛的应用，越来越多的客户通过这些设备对文档进行拍照、扫描和上传，使得数字文档的生产和存储呈指数级增长。因此，对于提取这类非结构化文档图像(如零售收据、保险索赔表格和金融发票等)中的信息的需求正变得越来越迫切。从这些文档中提取信息的一个关键任务是提取表格的结构信息，但是，依赖人工从如此大规模且多样化的文档图像库中准确地提取表格结构信息是不现实的。具体地，表格文档图像手工处理，劳动力成本高，数据处理时间长等。随着计算机技术的发展，研究如何利用自动化技术加速表格文档图像的信息抽取，以便更好地提取文档图像中的表格信息，具有十分重大的现实意义。通常，这些文档包含存储在表格中的数据，不仅仅表格在布局和视觉外观上有多种变化，而且除了表格之外，文档图像中还有许多其他页面对象(如文本和图形)，这些页面对象在外观上也有很大差异。表格结构的变化，用于可视化分离表格组件的图形元素的变化，以及在文档图像中存在的大量残缺、破损、遮挡等噪声，特别是由纸质文档等拍摄、扫描而得的表格图像在生成过程中由于纸张自然弯曲、拍摄角度等造成的表格不规则形变，进一步加大了图像中提取表格结构信息难度，使得从这些表格文档图像中抽取信息成为一个非常具有挑战性的问题。
...

【技术保护点】

【技术特征摘要】
1.一种全线表表格结构识别方法，其特征在于，包括以下步骤：步骤1，采用实例分割算法对文档图像I进行单元格分割，得到每一个单元格对应于文档图像中单元格所在区域的二值化掩码图像；步骤2，将每一个单元格的二值化掩码图像进行或运算和形态学闭操作，裁剪出表格整体区域，得到表格整体区域图像I
’
及表格整体区域图像的二值化掩码图像；步骤3，采用矫正算法，在获得表格整体区域图像I
’
中表格区域的四个顶点后，利用TPS变换以这四个顶点为基准将弯曲表格修正为以这四个顶点为顶点的近似四边形表格区域，并使用透视变换将近似四边形表格区域转换成水平矩形的正表格图像T；步骤4，对正表格图像T进行单元格目标检测，获得每一个单元格的边界框；步骤5，利用基于规则化排序算法进行排序以识别表格结构，将表格结构表达成对应的标记语言描述。2.根据权利要求1所述的一种全线表表格结构识别方法，其特征在于，步骤2包括以下步骤：步骤201，将每个单元格对应于文档图像所在区域的二值化掩码图像集合之间进行或运算；步骤202，进行形态学闭操作去掉或运算结果中的空隙部分；步骤203，使用最小外接水平矩形裁剪出表格区域图像，即得到精准的表格整体区域图像I
’
及表格整体区域图像的二值化掩码图像。3.根据权利要求1所述的一种全线表表格结构识别方法，其特征在于，步骤3包括以下步骤：步骤301，采用OpenCV中的轮廓求取算法，求得表格整体区域图像I
’
的二值化掩码图像中的表格掩码轮廓，然后获取表格掩码轮廓的最小外接矩形，从而获取表格的倾斜角度，在得到的倾斜角度的基础上，分别构造倾斜角度加上45
°
的两条直线与加上135
°
的两条直线共四条直线，分别位于表格掩码轮廓四个对角方向之外，将表格掩码轮廓中距离四条直线最近的点作为表格轮廓的四个顶点；步骤302，分别在左上、右上顶点连线间以及左下、右下顶点连线间等距离取点，作为TPS变换目标点，两两连接目标点，得到等距垂直直线系，直线系与表格轮廓的交点作为初始点且与目标点两两匹配，然后进行TPS变换，使初始点尽可能拉近目标点，得到以轮廓的四个顶点为顶点的去弯曲后的近似四边形表格图像；步骤303，将去弯曲后的近似四边形表格图像中表格的四个顶点在图像中的坐标与图像边界的四个顶点坐标相结合计算透视变换矩阵参数，对去弯曲后的近似四边形表格图像进行透视变换，得到平铺满图片的正表格图像T；透视变换操作如下：
式中的和分别为变换前后的像素坐标，变换参数矩阵中的元素由透视变换前后表格四个顶点的坐标联立方程解得，为假设处于平面内的原图上的点乘以变换参数矩阵进行三维映射至三维空间后的坐标。4.根据权利要求1所述的一种全线表表格结构识别方法，其特征在于，步骤4具体包括以下步骤：利用CBNetV2算法或Faster RCNN算法对步骤3中的正表格图像T进行单元格目标检测，分别获得每一个单元格的边界框，边界框的形式为：即单元格边界框的左上角与右下角在正表格图像T中的空间位置坐标和，将检测结果中的每一个单元格边界框的左上角组成左上角点集，将每一个单元格边界框的右下角组成右下角点集。5.根据权利要求1所述的一种全线表表格结构识别方法，其特征在于，步骤5中，所述的基于规则化排序算法分别利用单元格边界框的左上角顶点和右下角顶点来代表单元格进行依行列排序和依列行排序，以获得每个单元格中的逻辑位置，求取每个单元格跨行跨列属性，以此识别表格结构；所述的依行列排序是指：每次以一行的单元格为排序对象，先完成第一行的单元格从左到右的空间位置列排序，再完成第二行的单元格从左到右的空间位置列排序，直到最后一行，即从上至下依行进行每一行中单元格的列排序获取单元格在所在行中的列号，又因为是逐行进行的排序，第一次排序的一整行内的单元格的行号即为1，第二次排序的一整行内的单元格的行号即为2，以此类推，获得单元格在表格中代表逻辑位置的行列号；所述的依列行排序是指：每次以一列的单元格为排序对象，先完成第一列的单元格从上到下的空间位置行排序，再完成第二列的单元格从上到下的空间位置行排序，直到最后一列，即从左至右依列进行每一列中单元格的行排序获取单元格在所在列中的行号，又因为是逐列进行的排序，第一次排序的一整列内的单元格的列号即为1，第二次排序的一整列内的单元格的列号即为2，以此类推，获得单元格在表格中代表逻辑位置的行列号。6.根据权利要求5所述的一种全线表表格结构识别方法，其特征在于，步骤5中，所述的分别利用单元格边界框的左上角顶点和右下角顶点来代表单元格进行依行列排序和...

【专利技术属性】
技术研发人员：黄双萍，彭政华，杨帆，
申请(专利权)人：人工智能与数字经济广东省实验室广州，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人