图像有线表格检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:38766446 阅读:7 留言:0更新日期:2023-09-10 10:39
本发明专利技术涉及计算机视觉技术领域,提供了一种图像有线表格检测方法、装置、计算机设备和存储介质,所述方法包括:获取有线表格图像的二值图像,基于所述二值图像检测候选直线线段;确定各所述候选直线线段在所述二值图像中的连通像素点的外连通轮廓,根据所述外连通轮廓将不满足粗细预设要求的所述候选直线线段过滤;对各所述候选直线线段进行扩宽和标准化处理后输入至训练好的模型预测类别,根据所述类别从所述候选直线线段中过滤非表格线段;根据斜率从各所述候选直线线段中过滤不满足角度要求的候选直线线段;基于过滤后剩余的候选直线线段生成表格的线框,得到有线表格。采用本方法能够快速且准确地检测有线表格。本方法能够快速且准确地检测有线表格。本方法能够快速且准确地检测有线表格。

【技术实现步骤摘要】
图像有线表格检测方法、装置、计算机设备和存储介质


[0001]本专利技术属于计算机视觉
,尤其涉及一种图像有线表格检测方法、装置、计算机设备和存储介质。

技术介绍

[0002]表格是信息呈现的一种重要的形式,通过将复杂的数据组织成标准的结构,便于信息检索、对比和分析,已经成为人们日常信息化办公中不可或缺的元素。但是在实际应用过程中,为方便传输和阅读,表格通常以PDF或者图像的格式进行信息传递,这导致计算机无法直接理解表格信息,需要人工提取和处理。而由于信息化时代下表格的数量巨大和样式复杂多变,导致人工进行处理繁琐且耗时,使得PDF或图像载体下的表格理解成为了亟待解决的问题。
[0003]目前,随着科技飞速发展,表格理解技术迎来了发展的春天,其成为了学术界和工业界研究热点。根据目前的研究进展,表格理解技术可以划分为表格检测和表格识别。表格检测是指从图像中定位出表格区域,是表格识别的前提。常见的表格检测方法包括基于目标检测的方法和基于语义分割的方法。然而,由于表格尺寸变化多端,尤其是有线表格,少则几行多则上百行,从而导致目标检测模型和语义分割模型容易出现表格区域检测不全的情况,降低了有线表格检测的准确率。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够快速且准确的图像有线表格检测方法、装置、计算机设备和存储介质。
[0005]本专利技术提供一种图像有线表格检测方法,包括:
[0006]获取有线表格图像的二值图像,基于所述二值图像检测候选直线线段;/>[0007]确定各所述候选直线线段在所述二值图像中的连通像素点的外连通轮廓,根据所述外连通轮廓将不满足粗细预设要求的所述候选直线线段过滤;
[0008]对各所述候选直线线段进行扩宽和标准化处理后输入至训练好的模型预测类别,根据所述类别从所述候选直线线段中过滤非表格线段;
[0009]根据斜率从各所述候选直线线段中过滤不满足角度要求的候选直线线段;
[0010]基于过滤后剩余的候选直线线段生成表格的线框,得到有线表格。
[0011]在其中一个实施例中,所述获取有线表格图像的二值图像,基于所述二值图像检测候选直线线条,包括:
[0012]利用大津法对有线表格图像进行自适应阈值分割,得到二值图像;
[0013]反转所述二值图像,得到反转二值图像;
[0014]对所述二值图像和所述反转二值图像进行直线检测,得到候选直线线条。
[0015]在其中一个实施例中,所述确定各所述候选直线线段在所述二值图像中的连通像素点的外连通轮廓,根据所述外连通轮廓将不满足粗细预设要求的所述候选直线线段过
滤,包括:
[0016]从所述二值图像中找到与所述候选直线线段存在连通的像素点集合;
[0017]轮廓拟合所述像素点集合确定外连通轮廓,得到外连通轮廓像素点集合;
[0018]分别计算所述外连通轮廓像素点集合中各像素点与所述候选直线线段的直线距离,并计算各所述直线距离的标准差;
[0019]将所述直线距离与所述标准差的差值大于粗细阈值的所述候选直线线段剔除。
[0020]在其中一个实施例中,所述对各所述候选直线线段进行扩宽和标准化处理后输入至训练好的模型预测类别,根据所述类别从所述候选直线线段中过滤非表格线段,包括:
[0021]以所述候选直线线段的起点和终点进行线段延伸,得到延伸坐标;
[0022]根据坐标原点、延伸长度、所述起点坐标和终点坐标之间的距离构建坐标作为标准点,以所述延伸坐标作为基本点,基于所述标准点和所述基本点计算变换矩阵;
[0023]利用所述变换矩阵对所述有线表格图像进行标准化处理后截取对应的子图区域,得到所述候选直线线段的线段子图;
[0024]将所述线段子图输入至训练好的模型预测类别,将所述类别为非表格线段的所述候选直线线段剔除。
[0025]在其中一个实施例中,所述以所述候选直线线段的起点和终点进行线段延伸,得到延伸坐标,包括:
[0026]根据所述候选直线线段的长度与长度阈值的乘积确定延伸长度;
[0027]以所述起点和终点为中心,基于所述延伸长度分别沿着所述候选直线线段的垂直方向向两边延伸,得到延伸坐标。
[0028]在其中一个实施例中,所述根据斜率从各所述候选直线线段中过滤不满足角度要求的候选直线线段,包括:
[0029]基于各所述候选直线线段的斜率对各所述候选直线线段进行聚类,确定横线线段和竖线线段;
[0030]分别计算各所述横线线段和各所述竖线线段的标准斜率,得到横线标准斜率和竖线标准斜率;
[0031]根据所述横线线段的斜率和所述横线标准斜率计算对应的角度差值,以及根据所述竖线线段的斜率和所述竖线标准斜率计算对应的角度差值;
[0032]将所述角度差值大于角度阈值的所述候选直线线段过滤。
[0033]在其中一个实施例中,所述基于过滤后剩余的候选直线线段生成表格的线框,得到有线表格,包括:
[0034]构建与所述有线表格图像尺寸一致的空白二值图像;
[0035]基于所述过滤后剩余的候选直线线段在所述空白二值图像中绘制直线,得到表格线图像;
[0036]对所述表格线图像进行膨胀和腐蚀后查找连通区域,根据所述连通区域的最小外接矩形绘制表格的边框,得到有线表格。
[0037]一种图像有线表格检测装置,包括:
[0038]直线检测模块,用于获取有线表格图像的二值图像,基于所述二值图像检测候选直线线段;
[0039]粗细过滤模块,用于确定各所述候选直线线段在所述二值图像中的连通像素点的外连通轮廓,根据所述外连通轮廓将不满足粗细预设要求的所述候选直线线段过滤;
[0040]模型过滤模块,用于对各所述候选直线线段进行扩宽和标准化处理后输入至训练好的模型预测类别,根据所述类别从所述候选直线线段中过滤非表格线段;
[0041]角度过滤模块,用于根据斜率从各所述候选直线线段中过滤不满足角度要求的候选直线线段;
[0042]线框生成模块,用于基于过滤后剩余的候选直线线段生成表格的线框,得到有线表格。
[0043]本专利技术还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的图像有线表格检测方法的步骤。
[0044]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的图像有线表格检测方法的步骤。
[0045]上述图像有线表格检测方法、装置、计算机设备和存储介质,通过获取有线表格图像的二值图像,基于二值图像检测候选直线线段后,确定各候选直线线段在二值图像中的连通像素点的外连通轮廓将不满足粗细预设要求的候选直线线段过滤。同时,对各候选直线线段进行扩宽和标准化处理后输入至训练好的模型预测并过滤类别为非表格线段地候选直线线段,以本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像有线表格检测方法,其特征在于,包括:获取有线表格图像的二值图像,基于所述二值图像检测候选直线线段;确定各所述候选直线线段在所述二值图像中的连通像素点的外连通轮廓,根据所述外连通轮廓将不满足粗细预设要求的所述候选直线线段过滤;对各所述候选直线线段进行扩宽和标准化处理后输入至训练好的模型预测类别,根据所述类别从所述候选直线线段中过滤非表格线段;根据斜率从各所述候选直线线段中过滤不满足角度要求的候选直线线段;基于过滤后剩余的候选直线线段生成表格的线框,得到有线表格。2.根据权利要求1所述的方法,其特征在于,所述获取有线表格图像的二值图像,基于所述二值图像检测候选直线线条,包括:利用大津法对有线表格图像进行自适应阈值分割,得到二值图像;反转所述二值图像,得到反转二值图像;对所述二值图像和所述反转二值图像进行直线检测,得到候选直线线条。3.根据权利要求1所述的方法,其特征在于,所述确定各所述候选直线线段在所述二值图像中的连通像素点的外连通轮廓,根据所述外连通轮廓将不满足粗细预设要求的所述候选直线线段过滤,包括:从所述二值图像中找到与所述候选直线线段存在连通的像素点集合;轮廓拟合所述像素点集合确定外连通轮廓,得到外连通轮廓像素点集合;分别计算所述外连通轮廓像素点集合中各像素点与所述候选直线线段的直线距离,并计算各所述直线距离的标准差;将所述直线距离与所述标准差的差值大于粗细阈值的所述候选直线线段剔除。4.根据权利要求1所述的方法,其特征在于,所述对各所述候选直线线段进行扩宽和标准化处理后输入至训练好的模型预测类别,根据所述类别从所述候选直线线段中过滤非表格线段,包括:以所述候选直线线段的起点和终点进行线段延伸,得到延伸坐标;根据坐标原点、延伸长度、所述起点坐标和终点坐标之间的距离构建坐标作为标准点,以所述延伸坐标作为基本点,基于所述标准点和所述基本点计算变换矩阵;利用所述变换矩阵对所述有线表格图像进行标准化处理后截取对应的子图区域,得到所述候选直线线段的线段子图;将所述线段子图输入至训练好的模型预测类别,将所述类别为非表格线段的所述候选直线线段剔除。5.根据权利要求4所述的方法,其特征在于,所述以所述候选直线线段的起点和终点进行线段延伸,得到延伸坐标,包括:根据所述候选直...

【专利技术属性】
技术研发人员:段炼黄九鸣张圣栋
申请(专利权)人:湖南星汉数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1