表格识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38546934 阅读:14 留言:0更新日期:2023-08-22 20:55
本公开实施例公开了一种表格识别方法、装置、电子设备及存储介质,涉及图像处理领域。该方法包括:确定待处理图像中的原始单元格;在待处理图像上,对原始单元格的边框线段进行延长操作,确定细分单元格;其中,细分单元格包括延长操作后的原始单元格在待处理图像上占据的单元格;确定每个细分单元格与原始单元格的面积重叠参数;根据面积重叠参数,对细分单元格进行合并操作,得到目标单元格;对目标单元格进行文字识别操作。采用本公开实施例,可以结合原始单元格中边框线段的多元性,对原始单元格进行更细粒度的划分,提高了对原始单元格的格式复原概率,实现了对待处理图像中结构复杂的表格的识别准确性。杂的表格的识别准确性。杂的表格的识别准确性。

【技术实现步骤摘要】
表格识别方法、装置、电子设备及存储介质


[0001]本申请涉及图像处理领域,尤其涉及一种表格识别方法、装置、电子设备及存储介质。

技术介绍

[0002]在图像识别领域,可能会涉及到对图像中的文字、图形、表格等的识别。
[0003]相关技术中,在对表格进行识别时,通常会采用目标检测算法对图像中的表格进行定位,采用表格线识别算法,对定位得到的表格中的表格线进行识别,进一步根据识别得到的表格向对定位得到的表格进行结构分解,识别出表格中的单元格,并各单元格进行文字识别。
[0004]但采用该方式,所识别的各单元格的边缘线段可能会存在漏线、错线、重线等情况,导致最终对图像中的单元格识别不准确。

技术实现思路

[0005]本公开实施例提供了一种表格识别方法,以解决相关技术中,对图像中的单元格识别不准确的问题。
[0006]相应的,本公开实施例还提供了一种表格识别装置、一种电子设备以及一种存储介质,用以保证上述方法的实现及应用。
[0007]一方面,本公开实施例提供一种表格识别方法,该方法包括:确定待处理图像中的原始单元格;在待处理图像上,对原始单元格的边框线段进行延长操作,确定细分单元格;其中,细分单元格包括延长操作后的原始单元格在待处理图像上占据的单元格;确定每个细分单元格与原始单元格的面积重叠参数;根据面积重叠参数,对细分单元格进行合并操作,得到目标单元格;对目标单元格进行文字识别操作。
[0008]另一方面,本公开实施例提供了一种表格识别装置,该装置包括:原始单元格确定模块,用于确定待处理图像中的原始单元格;延长操作处理模块,用于在待处理图像上,对原始单元格的边框线段进行延长操作,确定细分单元格;其中,细分单元格包括延长操作后的原始单元格在待处理图像上占据的单元格;面积重叠参数确定模块,用于确定每个细分单元格与原始单元格的面积重叠参数;单元格合并模块,用于根据所述面积重叠参数,对细分单元格进行合并操作,得到目标单元格;文字识别模块,用于对目标单元格进行文字识别操作。
[0009]另一方面,本公开实施例提供了一种电子设备,包括处理器和存储器,该处理器和
存储器相互连接;上述存储器用于存储计算机程序;上述处理器被配置用于在调用上述计算机程序时,执行本公开实施例提供的表格识别方法。
[0010]另一方面,本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本公开实施例提供的表格识别方法。
[0011]在本公开实施例中,通过对原始单元格的边框线段进行延长操作,将延长操作后的原始单元格在待处理图像上占据的单元格确定为细分单元格,可以结合原始单元格中边框线段的多元性,对原始单元格进行更细粒度的划分,避免所识别的单元格存在漏线、错线、重线等情况;再确定并细分单元格和原始单元格的包含关系,对细分单元格进行合并,得到目标单元格,提高了对原始单元格的格式复原概率。并进一步将目标单元格进行文字识别操作,实现了对待处理图像中结构复杂的表格的识别准确性。
附图说明
[0012]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1示出了本公开实施例提供的表格识别方法的流程示意图;图2a示出了本公开实施例提供的表格识别方法的场景示意图之一;图2b示出了本公开实施例提供的表格识别方法的场景示意图之二;图2c示出了本公开实施例提供的表格识别方法的场景示意图之三;图2d示出了本公开实施例提供的表格识别方法的场景示意图之四;图2e示出了本公开实施例提供的表格识别方法的场景示意图之五;图2f示出了本公开实施例提供的表格识别方法的场景示意图之六;图2g示出了本公开实施例提供的表格识别方法的场景示意图之七;图2h示出了本公开实施例提供的表格识别方法的场景示意图之六;图2i示出了本公开实施例提供的表格识别方法的场景示意图之七;图2j示出了本公开实施例提供的表格识别方法的场景示意图之六;图2k示出了本公开实施例提供的表格识别方法的场景示意图之七;图3示出了本公开实施例提供的表格识别方法的场景示意图之八;图4示出了本公开实施例提供的表格识别方法的场景示意图之九;图5a示出了本公开实施例提供的表格识别方法的场景示意图之十;图5b示出了本公开实施例提供的表格识别方法的场景示意图之十一;图6示出了本公开实施例提供的表格识别装置的结构示意图;图7示出了本公开实施例提供的电子设备的结构示意图。
具体实施方式
[0014]下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0015]针对前述技术问题,本公开实施例提供了一种表格识别方法,该方法可以通过任一终端或服务器执行,本公开实施例对此不做限制。
[0016]可选地,终端可以为具有图像采集功能的电子设备,例如,电脑、pad、手机、扫描仪或数码相机等。服务器可以为本地服务器或云服务器等。其中,在通过服务器执行该方法时,可以预先接收待处理图像,并对待处理图像进行文字识别。
[0017]具体地,如图1所示,该方法包括:步骤S110:确定待处理图像中的原始单元格。
[0018]在该实现方式中,可以基于任一种单元格检测方式,确定待处理图像中的原始单元格,在此不做具体限制。
[0019]作为一个示例,可以通过目标检测算法(例如,yolo深度学习算法),定位出待处理图像中表格的位置(例如,表格的左上顶点和右下顶点的坐标),并采用表格线检测算法(例如,传统CV(computer version,计算机视觉技术)图像处理算法或者图像分割深度学习算法),检测表格中的表格线,再基于表格线的方向,将表格线分类为表格横线和表格竖线,并基于表格横线与表格竖线的交叉点、表格横线和表格竖线,对表格进行结构分解,得到原始单元格。
[0020]作为一个示例,可以通过对图2a示出的第一待处理图像20进行识别,确定出图2b示出的第一原始单元格21。
[0021]可以理解的是,随着表格格式的多样性发展,所识别到的原始单元格可以是不同形状的单元格,例如,单元格的形状可以为矩形、三角形、圆形等,本公开实施例对此不做限制。对应地,原始单元格的边框线段可以为直线段、曲线段、弧线段、折线段等,本公开实施例对此不做限制。
[0022]在本公开实施例中,以原始单元格的形状为矩形、原始单元格的边框线段(在下文中,可以简称为线段)为直线段为例,对该表格识别方法进行说明。
[0023]步骤S120:在待处理图像上,对原始单元格的边框线段进行延长操作,确定细分单元格;其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格识别方法,其特征在于,所述方法包括:确定待处理图像中的原始单元格;在所述待处理图像上,对所述原始单元格的边框线段进行延长操作,确定细分单元格;其中,所述细分单元格包括延长操作后的原始单元格在所述待处理图像上占据的单元格;确定每个所述细分单元格与所述原始单元格的面积重叠参数;根据所述面积重叠参数,对所述细分单元格进行合并操作,得到目标单元格;对所述目标单元格进行文字识别操作。2.根据权利要求1所述的方法,其特征在于,所述根据所述面积重叠参数,对所述细分单元格进行合并操作,得到目标单元格,包括:确定与所述原始单元格的面积重叠参数大于或等于第一预设阈值的目标细分单元格;对各所述目标细分单元格进行合并操作,得到所述目标单元格。3.根据权利要求1所述的方法,其特征在于,所述对所述原始单元格的边框线段进行延长操作,包括:采用单元格聚类算法,对所述原始单元格进行聚类,确定待处理图像中的原始表格;其中,在所述原始表格中,所述原始单元格之间的间距小于或等于第二预设阈值;对所述原始表格中的所述原始单元格的边框线段进行延长操作。4.根据权利要求3所述的方法,其特征在于,所述采用单元格聚类算法,对所述原始单元格进行聚类,包括:确定任意两个所述原始单元格之间的间距;在所述间距小于或等于所述第二预设阈值的情况下,将所述任意两个所述原始单元格聚类为同一原始表格中的单元格。5.根据权利要求4所述的方法,其特征在于,所述确定任意两个所述原始单元格之间的间距,包括:确定所述原始单元格的边框线段在目标方向下的第一距离;确定所述任意两个所述原始单元格的任意两条边框线段在所述目标方向下的第二距离;根据所述第一距离和所述第二距离,确定所述间距。6...

【专利技术属性】
技术研发人员:王怀照
申请(专利权)人:亚信科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1