【技术实现步骤摘要】
表格识别方法、装置、电子设备、存储介质
本申请实施例涉及图像识别技术,尤其涉及一种表格识别方法、装置、电子设备、存储介质。
技术介绍
随着时代的发展,图像识别的需求越来越普遍。光学字符识别(OpticalCharacterRecognition,OCR)技术被应用于识别图像中的文字。OCR技术检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR技术还被应用于识别表格图像,目前的OCR技术采用对表格全文进行识别的方式,但是当表格出现倾斜等形变时,无法准确识别出表格,进而无法准确识别表格中不同区域中的数据,表格识别鲁棒性差。
技术实现思路
本申请提供一种表格识别方法、装置、电子设备、存储介质,以提高表格识别鲁棒性。第一方面,本申请实施例提供了一种表格识别方法,包括:提取待识别表格包含的交点,待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,交点为第一方向的线段与第二方向的线段相交的点;根据待识 ...
【技术保护点】
1.一种表格识别方法,其特征在于,包括:/n提取待识别表格包含的交点,所述待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,所述交点为第一方向的线段与第二方向的线段相交的点;/n根据所述待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据所述网格对所述待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;/n查找先验交点所在的目标网格,统计所述目标网格以及所述目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,所述先验交点为预设待识别区域的区域顶点,所述目标方向包括所述第一方向或所述第二方向;/n根据所述目 ...
【技术特征摘要】
1.一种表格识别方法,其特征在于,包括:
提取待识别表格包含的交点,所述待识别表格包括第一方向的线段和第二方向的线段,第一方向的线段和第二方向的线段相交,所述交点为第一方向的线段与第二方向的线段相交的点;
根据所述待识别表格的表格边上的交点之间的距离确定网格的尺寸,根据所述网格对所述待识别表格进行划分,使每个网格最多包含一个交点,且每个网格的相邻网格不包含交点;
查找先验交点所在的目标网格,统计所述目标网格以及所述目标网格的相邻网格在目标方向上包含的网格中的目标交点数量,所述先验交点为预设待识别区域的区域顶点,所述目标方向包括所述第一方向或所述第二方向;
根据所述目标交点数量确定是否保留所述目标网格在所述目标方向线段;根据保留的目标方向线段生成目标表格。
2.根据权利要求1所述的表格识别方法,其特征在于,所述提取待识别表格包含的交点,包括:
提取待识别表格中第一方向的线段和第二方向的线段;
将所述第一方向的线段和所述第二方向的线段进行与操作,确定交点。
3.根据权利要求1所述的表格识别方法,其特征在于,在提取待识别表格包含的交点之后,还包括:
根据所述交点的位置信息确定所述待识别表格的四个顶点;
根据所述四个顶点的位置信息对所述交点和所述顶点进行透视变换,所述透视变换用于将所述顶点和所述交点的分布校正为预设几何图形的坐标关系。
4.根据权利要求1所述的表格识别方法,其特征在于,所述根据所述待识别表格的表格边上的交点之间的距离确定网格的尺寸,包括:
分别获取所述待识别表格的各表格边上的交点;
分别计算各表格边上交点之间的最短距离;
根据所述最短距离确定网格的尺寸。
5.根据权利要求4述的表格识别方法,其特征在于,所述根据所述最短距离确定网格的尺寸,包括:
根据所述最短距离的预设倍数确定网格的尺寸,所述预设倍数小于二分之一。
6.根据权利要求1所述的表格识别方法,其特征在于,所述统计所述...
【专利技术属性】
技术研发人员:梁宇舒,
申请(专利权)人:上海交通大学苏州人工智能研究院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。