一种基于深度学习的表格提取和识别方法及系统技术方案

技术编号:36516652 阅读:19 留言:0更新日期:2023-02-01 15:48
本申请公开了一种基于深度学习的表格提取和识别方法及系统,所述方法包括:S1,使用目标检测模型定位文档图片中表格的位置,去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片;S2,使用图像分割模型检测表格线,获取检测表格线的首尾坐标,对表格线检测不全的线条进行填补,对表格边界未闭合的线条进行补全,通过标记二值化图片的八连通区域获取表格线搭建的单元格坐标,去除重合和不符要求的单元格;S3,对所有横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,对原图做OCR识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建。本申请提高了表格提取和识别的正确率。提高了表格提取和识别的正确率。提高了表格提取和识别的正确率。

【技术实现步骤摘要】
一种基于深度学习的表格提取和识别方法及系统


[0001]本专利技术涉及图像处理
,尤其涉及一种基于深度学习的表格提取和识别方法及系统。

技术介绍

[0002]随着计算机技术的迅速发展,将表格文档图像转换为文本文件的需求正在增加,在政务领域需要频繁且大量审核和录入表格类材料,如果可以智能识别出图像上的表格,并规范输出每个单元格的行列,可以辅助政务窗口服务人员提高工作效率,同时也能帮助用户在办件过程实现预填功能。
[0003]目前市面上的表格识别大多基于规则和版面对齐等方法,存在正确率低且通用性差等问题。
[0004]因此,如何提供一种有效的方案以准确识别图片表格,是现有技术中亟待解决的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于深度学习的表格提取和识别方法及系统,以解决上述技术背景中提出的问题。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]本申请第一个方面提供了一种基于深度学习的表格提取和识别方法,包括:
[0008]S1,表格检测:使用目标检测模型定位文档图片中表格的位置;去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片;
[0009]S2,检测表格线,获取单元格:
[0010]S21,使用图像分割模型检测表格线,图像分割模型预测出的目标区域是多边形区域;
[0011]S22,对预测的目标区域的二值化图片做八连通区域标记,获取目标区域的轮廓点集坐标,求取每个目标区域的最小外接矩形,由最小外接矩形的左上角和右下角坐标作为表格线的首尾坐标;
[0012]S23,对表格线检测不全的线条进行填补;
[0013]S24,对表格边界未闭合的线条进行补全;
[0014]S25,对处理后的表格线生成的二值化图像做八连通区域标记,获取由所有表格线所搭建的单元格坐标;
[0015]S26,去除重合的单元格和尺寸不符合预设要求的单元格;
[0016]S3,表格重建:对表格线中所有的横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,以及对原图做OCR(Optical Character Recognition,光学字符识别)识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建。
[0017]优选地,步骤S1具体包括如下步骤:
[0018]S11,使用yolov5模型对表格位置进行定位;
[0019]S12,采用非极大值抑制NMS算法对yolov5模型预测的候选框去除重复检测框,获得表格的具体坐标。
[0020]更优选地,步骤S12具体包括如下步骤:
[0021]计算n个候选框的面积大小;
[0022]对置信度进行降序排序,获取排序后的下标序号,即采用argsort;
[0023]将当前置信度最大的候选框加入到结果列表中;
[0024]计算当前置信度最大的候选框与其他任意候选框的相交面积;
[0025]利用相交面积和两个候选框的自身面积计算候选框的交并比,将交并比大于预设阈值的候选框删除;
[0026]对剩余的候选框重复以上过程,直到处理完所有的候选框。
[0027]优选地,步骤S23具体包括如下步骤:
[0028]识别表格线中至少一条目标线段,并确定一条参考线,所述目标线段所在直线的方向与所述参考线所在直线的方向互相垂直;
[0029]设目标线段的首尾点坐标分别为p1(x1,y1)、p2(x2,y2),设参考线的直线方程为Ax+By+C=0,其中,A=y2‑
y1,B=x2‑
x1,C=x2*y1‑
x1*y2;计算目标线段所在直线与参考线所在直线的交点:
[0030]Ax1+By1+C1=0,Ax2+By2+C2=0
[0031]x=(B1*C2‑
B2*C1)/(A1*B2‑
A2*B1)
[0032]y=(A2*C1‑
A1*C2)/(A1*B2‑
A2*B1)
[0033]其中,(x,y)为两条直线的交点坐标;
[0034]计算目标线段的首尾点坐标到交点的距离,判断计算出的两个距离中的最小距离是否大于预设的距离阈值,若大于,则需要对目标线段进行补全。
[0035]优选地,步骤S24具体包括如下步骤:
[0036]遍历表格中所有的横线和竖线,求取处于表格区域的边界处的上下左右各四条线段;
[0037]判断这四条线段之间的位置关系,判断各线段之间是否相交,分别计算出每条线段的起始坐标和终止坐标,共获得八个边界坐标;
[0038]根据这八个边界坐标,分别计算表格区域的边界的上横线、下横线、左竖线和右竖线的直线方程;
[0039]根据该边界的四条直线,分别求取这四条直线相交的交点坐标,以这些交点坐标为准,补全表格区域的边界线条。
[0040]优选地,步骤S25中,所述获取由所有表格线所搭建的单元格坐标,具体包括如下步骤:
[0041]对二值化图像做八连通区域标记,求出标记的所有多边形区域;
[0042]求出多边形区域的最小外接矩形,获取其左上角、右上角、左下角和右下角的坐标;
[0043]根据四点坐标求取最小外接矩形的宽和高,计算公式如下:
[0044]已知一个框的坐标值为(x1,y1,x1,y2,x3,y3,x4,y4),计算所有横坐标的均值为c
x

(x1+x2+x3+x4)/4.0,计算所有纵坐标的均值为c
y
=(y1+y2+y3+y4)/4.0,则
[0045][0046]其中,w为最小外接矩形的宽,h为最小外接矩形的高;
[0047]保留面积小于表格区域面积一半的单元格。
[0048]优选地,步骤S26具体包括如下步骤:
[0049]计算一个单元格与其他单元格的交并比IOU,若交并比大于两者之间最小面积的第一预设倍数,则保留两者之间面积偏小的单元格,另一个单元格则舍弃掉;
[0050]根据所有单元格的坐标求出每个单元格的宽和高,对所有单元格的宽做排序处理,去掉宽度最大和最小的值,计算所有剩余单元格的宽的均值,对所有单元格的高做排序处理,去掉高度最大和最小的值,计算所有剩余单元格的高的均值;然后遍历所有的单元格,若该单元格的宽小于均值宽的第一预设比例,和/或该单元格的高小于均值高的第二预设比例,则该单元格判定为非常规框,需要被删除。
[0051]优选地,步骤S3具体包括如下步骤:
[0052]S31,将表格的所有横线和竖线进行排序,计算所有横线与直线x=0的交点(0,y),比较交点(0,y)中y坐标的大小关系,对所有横线进行上下关系排序,计算所有竖线与直线y=0的交点(x,0),比较交点(x,0)中x坐标的大小关系,对所有竖线进行左右关系排序;
[0053]S32,根据表格线为每个单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的表格提取和识别方法,其特征在于,包括:S1,表格检测:使用目标检测模型定位文档图片中表格的位置;去除重复检测框,获取表格的坐标,并从原图中以该坐标截取出表格图片;S2,检测表格线,获取单元格:S21,使用图像分割模型检测表格线,图像分割模型预测出的目标区域是多边形区域;S22,对预测的目标区域的二值化图片做八连通区域标记,获取目标区域的轮廓点集坐标,求取每个目标区域的最小外接矩形,由最小外接矩形的左上角和右下角坐标作为表格线的首尾坐标;S23,对表格线检测不全的线条进行填补;S24,对表格边界未闭合的线条进行补全;S25,对处理后的表格线生成的二值化图像做八连通区域标记,获取由所有表格线所搭建的单元格坐标;S26,去除重合的单元格和尺寸不符合预设要求的单元格;S3,表格重建:对表格线中所有的横线和竖线进行排序,获取单元格的行列分布,实现表格结构的重建,以及对原图做OCR识别,将文本识别内容和表格的单元格一一对应,实现表格内容的重建。2.根据权利要求1所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S1具体包括如下步骤:S11,使用yolov5模型对表格位置进行定位;S12,采用非极大值抑制NMS算法对yolov5模型预测的候选框去除重复检测框,获得表格的具体坐标。3.根据权利要求2所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S12具体包括如下步骤:计算n个候选框的面积大小;对置信度进行降序排序,获取排序后的下标序号,即采用argsort;将当前置信度最大的候选框加入到结果列表中;计算当前置信度最大的候选框与其他任意候选框的相交面积;利用相交面积和两个候选框的自身面积计算候选框的交并比,将交并比大于预设阈值的候选框删除;对剩余的候选框重复以上过程,直到处理完所有的候选框。4.根据权利要求1所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S23具体包括如下步骤:识别表格线中至少一条目标线段,并确定一条参考线,所述目标线段所在直线的方向与所述参考线所在直线的方向互相垂直;设目标线段的首尾点坐标分别为p1(x1,y1)、p2(x2,y2),设参考线的直线方程为Ax+By+C=0,其中,A=y2‑
y1,B=x2‑
x1,C=x2*y1‑
x1*y2;计算目标线段所在直线与参考线所在直线的交点:Ax1+By1+C1=0,Ax2+By2+C2=0x=(B1*C2‑
B2*C1)/(A1*B2‑
A2*B1)
y=(A2*C1‑
A1*C2)/(A1*B2‑
A2*B1)其中,(x,y)为两条直线的交点坐标;计算目标线段的首尾点坐标到交点的距离,判断计算出的两个距离中的最小距离是否大于预设的距离阈值,若大于,则需要对目标线段进行补全。5.根据权利要求1所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S24具体包括如下步骤:遍历表格中所有的横线和竖线,求取处于表格区域的边界处的上下左右各四条线段;判断这四条线段之间的位置关系,判断各线段之间是否相交,分别计算出每条线段的起始坐标和终止坐标,共获得八个边界坐标;根据这八个边界坐标,分别计算表格区域的边界的上横线、下横线、左竖线和右竖线的直线方程;根据该边界的四条直线,分别求取这四条直线相交的交点坐标,以这些交点坐标为准,补全表格区域的边界线条。6.根据权利要求1所述的一种基于深度学习的表格提取和识别方法,其特征在于,步骤S25中,所述获取由所有表格线所搭建的单元格坐标,具体包括如下步骤:对二值化图像做八连通区域标记,求出标记的所有多边形区域;求出多边形区域的最小外接矩形,获取其左上角、右上角、左下角和右下角的坐标;根据四点坐标求取最小外接矩形的宽和高,计算公式如下:已知一个框的坐标值为(x1,y1,x1,y2,x3,y3,x4,y4),计算所有横坐标的均值为c
x
=(x1+X2+X3+x4)/4.0计算所有纵坐标的均值为c
...

【专利技术属性】
技术研发人员:郭大勇王明月张海龙
申请(专利权)人:上海通办信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1