一种表格识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36810367 阅读:48 留言:0更新日期:2023-03-09 00:40
本申请提供一种表格识别方法、装置、电子设备及存储介质,其中表格识别方法包括:获取待识别图像;提取待识别图像中的直线段端点;针对每个直线段端点,根据预设待拟合点筛选规则,获取每个直线段端点的待拟合点;对直线段端点以及该直线段端点的待拟合点进行拟合,获取第一候选单元格角点;根据候选角点合并规则,对第一候选单元格角点进行合并,获取第二候选单元格角点;基于第二候选单元格角点,重建待识别图像中的表格。通过对候选单元格角点的拟合,提高了候选单元格角点的提取精度;同时,还对拟合后的候选单元格角点进行合并处理,进一步提高了候选单元格角点的提取精度,从而提升了上述表格识别方法的识别效果。从而提升了上述表格识别方法的识别效果。从而提升了上述表格识别方法的识别效果。

【技术实现步骤摘要】
一种表格识别方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,具体而言,涉及一种表格识别方法、装置、电子设备及存储介质。

技术介绍

[0002]现有技术中针对表格识别的方式一般分为传统表格识别方法和非传统表格识别方法,其中传统表格检测识别例如:采用霍夫变换检测检测图像中的直线,利用直线之间的交点确定矩形,进而实现表格识别。非传统表格检测方法例如:采用深度学习方法进行表格识别。
[0003]在使用上述传统表格识别方法进行表格识别时,需要调整的参数过多,使得直线检测的时间复杂度较高,并且直线的检出率并不高,不能准确重建图像中的表格,导致表格识别效果较差。
[0004]在使用上述非传统表格识别方法进行表格识别时,其识别精度依赖于训练数据,而在实际使用时,训练数据的数量和质量往往无法保证,使得上述非传统表格识别方法的识别效果也较差。

技术实现思路

[0005]本申请实施例的目的在于提供一种表格识别方法、装置、电子设备及存储介质,用以改善表格识别效果。
[0006]第一方面,本申请实施例提供一种表格识别方法,包括:获取待识别图像;提取所述待识别图像中的直线段端点;针对每个所述直线段端点,根据预设待拟合点筛选规则,获取每个所述直线段端点的待拟合点;对所述直线段端点以及该直线段端点的所述待拟合点进行拟合,获取第一候选单元格角点;根据候选角点合并规则,对所述第一候选单元格角点进行合并,获取第二候选单元格角点;基于所述第二候选单元格角点,重建待识别图像中的表格。
[0007]在上述方案的实现过程中,通过对候选单元格角点的拟合,提高了候选单元格角点的提取精度;同时,还对拟合后的候选单元格角点进行合并处理,进一步提高了候选单元格角点的提取精度,从而提升了上述表格识别方法的识别效果。
[0008]在第一方面的一种实现方式中,所述针对每个所述直线段端点,根据预设待拟合点筛选规则,获取每个所述直线段端点的待拟合点,包括:获取距离当前直线段端点第一距离阈值内的直线段端点;确定所述当前直线段端点所在的直线段,以及距离所述当前直线段端点第一距离阈值内的直线段端点所在的直线段;若所述当前直线段端点所在的直线段与距离所述当前直线段端点第一距离阈值内的直线段端点所在的直线段的夹角满足预设角度阈值,则将该距离所述当前直线段端点第一距离阈值内的直线段端点确定为所述当前直线段端点的待拟合点。
[0009]在上述方案的实现过程中,通过将直线段端点附近的满足作为单元格角点要求的
点进行拟合,以获得候选单元格角点,提高单元格角点的提取精度,同时也提高了上述表格识别方法的表格识别效果。
[0010]在第一方面的一种实现方式中,所述根据候选角点合并规则,对所述第一候选单元格角点进行合并,获取第二候选单元格角点,包括:针对每个所述第一候选单元格角点,获取距离当前第一候选单元格角点第二距离阈值内的第一候选单元格角点;将所述当前第一候选单元格角点与所述距离当前第一候选单元格角点第二距离阈值内的第二候选单元格角点进行合并;进行重复迭代,直至满足迭代退出条件,获取所述第二候选单元格角点。
[0011]在上述方案的实现过程中,通过对第一候选单元格角点进行合并,使得在每个第二候选单元格角点附近仅存在该第二候选单元格角点,进而使得在候选进行表格重建时无需再判断候选单元格角点的有效性,提高了上述表格识别方法的表格识别效率;同时,由于每个第二候选单元格角点附近仅存在该第二候选单元格角点,因此所重构出的表格不会出现表格线冗杂的情况,进一步提高了上述表格识别方法的表格识别效果。
[0012]在第一方面的一种实现方式中,所述基于所述第二候选单元格角点,重建待识别图像中的表格,包括:
[0013]针对每个所述第二候选单元格角点,将当前第二候选单元格角点确定为某类单元格角点,基于预设角点类型判断规则确定包含有所述当前第二候选单元格角点的单元格的其他类角点,完成包含有所述第二候选单元格角点的所述单元格的重建;完成所有包含有所述第二候选单元格角点的所述单元格的重建后,即完成表格重建。
[0014]在上述方案的实现过程中,通过基于确定单元格角点类型的方式确定单元格的四个角点,使用该四个角点即可实现对单元格的重建,进而完成对整个表格的重建,其重建效率较高,进而提高了上述表格识别方法的识别效率。
[0015]在第一方面的一种实现方式中,在所述基于所述第二候选单元格角点,重建待识别图像中的表格之前,还包括:针对每个所述第二候选单元格角点,确定与当前第二候选单元格角点处于同一行的第二候选单元格角点数量;针对每个所述第二候选单元格角点,确定与当前第二候选单元格角点处于同一列的第二候选单元格角点数量;根据第二候选角点过滤规则,对所述第二候选单元格角点进行过滤。
[0016]在上述方案的实现过程中,采用同处一行或者一列的第二候选单元格角点数量对第二候选单元格进行过滤,去除在理论上不可能是单元格角点的第二候选单元格角点,使得后续基于第二候选单元格角点对表格进行重建的效率更高,效果更好。
[0017]在第一方面的一种实现方式中,在所述确定与当前第二候选单元格角点处于同一行的第二候选单元格角点数量之前,还包括:提取所述待识别图像中的直线段的倾斜角度;基于所述直线段的倾斜角度,确定所述待识别图像的倾斜角度θ;
[0018]所述确定与当前第二候选单元格角点处于同一行的第二候选单元格角点数量,包括:针对每个所述第二候选单元格角点,获取经过当前第二候选单元格角点的斜率为tanθ的直线A1,若某第二候选单元格角点与所述直线A1之间的距离满足第三距离阈值,则将该第二候选单元格角点确定为与所述当前第二候选单元格角点处于同一行的第二候选单元格角点;统计与当前第二候选单元格角点处于同一行的第二候选单元格角点数量;
[0019]所述确定与当前第二候选单元格角点处于同一列的第二候选单元格角点数量,包
括:针对每个所述第二候选单元格角点,获取经过当前第二候选单元格角点的斜率为的直线A2,若某第二候选单元格角点与所述直线A2之间的距离满足第四距离阈值,则将该第二候选单元格角点确定为与当前第二候选单元格角点处于同一列的第二候选单元格角点;统计与当前第二候选单元格角点处于同一列的第二候选单元格角点数量。
[0020]在上述方案的实现过程中,通过待识别图像的倾斜角度、以及第三距离阈值和第四距离阈值来筛选与当前第二候选单元格角点处于同一行和同一列的第二候选单元格角点,从而统计出处于同一行以及同一列的第二候选单元格角点的数量,提高了对第二候选单元格角点进行过滤的容错率,进而提高了通过第二候选单元格角点对表格进行重建的效果。
[0021]在第一方面的一种实现方式中,在所述提取所述待识别图像中的直线段端点之前,还包括:对所述待识别图像进行预处理;所述预处理包括灰度化处理和规范化处理。
[0022]在上述方案的过程中,通过对待识别图像预处理,使得后续步骤可以更快速地在待识别图像中提取所需数据,提高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格识别方法,其特征在于,包括:获取待识别图像;提取所述待识别图像中的直线段端点;针对每个所述直线段端点,根据预设待拟合点筛选规则,获取每个所述直线段端点的待拟合点;对所述直线段端点以及该直线段的所述待拟合点进行拟合,获取第一候选单元格角点;根据候选角点合并规则,对所述第一候选单元格角点进行合并,获取第二候选单元格角点;基于所述第二候选单元格角点,重建待识别图像中的表格。2.根据权利要求1所述的表格识别方法,其特征在于,所述针对每个所述直线段端点,根据预设待拟合点筛选规则,获取每个所述直线段端点的待拟合点,包括:获取距离当前直线段端点第一距离阈值内的直线段端点;确定所述当前直线段端点所在的直线段,以及距离所述当前直线段端点第一距离阈值内的直线段端点所在的直线段;若所述当前直线段端点所在的直线段与距离所述当前直线段端点第一距离阈值内的直线段端点所在的直线段的夹角满足预设角度阈值,则将该距离所述当前直线段端点第一距离阈值内的直线段端点确定为所述当前直线段端点的待拟合点。3.根据权利要求1所述的表格识别方法,其特征在于,所述根据候选角点合并规则,对所述第一候选单元格角点进行合并,获取第二候选单元格角点,包括:针对每个所述第一候选单元格角点,获取距离当前第一候选单元格角点第二距离阈值内的第一候选单元格角点;将所述当前第一候选单元格角点与所述距离当前第一候选单元格角点第二距离阈值内的第二候选单元格角点进行合并;进行重复迭代,直至满足迭代退出条件,获取所述第二候选单元格角点。4.根据权利要求1所述的表格识别方法,其特征在于,所述基于所述第二候选单元格角点,重建待识别图像中的表格,包括:针对每个所述第二候选单元格角点,将当前第二候选单元格角点确定为某类单元格角点,基于预设角点类型判断规则确定包含有所述当前第二候选单元格角点的单元格的其他类角点,完成包含有所述第二候选单元格角点的所述单元格的重建;完成所有包含有所述第二候选单元格角点的所述单元格的重建后,即完成表格重建。5.根据权利要求1~4中任一项所述的表格识别方法,其特征在于,在所述基于所述第二候选单元格角点,重建待识别图像中的表格之前,还包括:针对每个所述第二候选单元格角点,确定与当前第二候选单元格角点处于同一行的第二候选单元格角点数量;针对每个所述第二候选单元格角点,确定与当前第二候选单元格角点处于同一列的第二候选单元格角点数量;根据第二候选角点过滤规则,对所述第二候选单元格角点...

【专利技术属性】
技术研发人员:梁椅辉董牛牛邹昆冯夫健刘贵松夏大文
申请(专利权)人:电子科技大学中山学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1