System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及图像处理,尤其涉及一种表格图像还原方法、装置、电子设备、存储介质及芯片。
技术介绍
1、表格是我们生活中记录和传递信息的重要方式,与自然语言相比,表格提供了一种以更紧凑和结构化的数据格式,能够汇总大量的数据,同时表格还提供了一种便于查找和比较信息的形式,便于读者快速获取有效的信息,因此表格在各个领域中都被广泛使用。在版面分析和文档理解飞速发展的今天,表格作为文档中的重要组成部分,具有极大的研究价值。然而,很多情况下,表格以不可编辑的图像形式存在,例如以照片的形式存在,这种情况下,需要将图像中的表格还原为可编辑的表格文件。示例地,将表格图像转换为超文本标记语言(hyper text markup language,html)网页的形式,也即是,将表格识别过程转换为由图到序列的识别过程。
技术实现思路
1、为克服相关技术中存在的问题,本公开提供一种表格图像还原方法、装置、电子设备、存储介质及芯片。
2、根据本公开实施例的第一方面,提供一种表格图像还原方法,包括:
3、获取待还原表格图像;
4、对所述待还原表格图像进行检测,以得到所述待还原表格图像的检测结果,所述检测结果至少包括所述待还原表格图像中包括的单元格的位置信息;
5、根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式;
6、根据所述每一单元格的对齐格式,对所述待还原表格图像进行还原。
7、可选地,所述根据所述待还原表格图像中
8、确定所述待还原表格图像中的表头单元格和跨列合并单元格;
9、将除所述表头单元格和所述跨列合并单元格之外的其他单元格确定为第一单元格;
10、针对每一列,确定位于该列的第一单元格的左顶点的水平坐标的偏移量、中间点的水平坐标的偏移量和右顶点的水平坐标的偏移量,其中,所述中间点的水平坐标为左顶点的水平坐标与右顶点的水平坐标的平均值;
11、根据每一列的第一单元格的左顶点的水平坐标的偏移量、中间点的水平坐标的偏移量和右顶点的水平坐标的偏移量,确定每一列的第一单元格的对齐格式。
12、可选地,所述根据每一列的第一单元格的左顶点的水平坐标的偏移量、中间点的水平坐标的偏移量和右顶点的水平坐标的偏移量,确定每一列的第一单元格的对齐格式,包括:
13、针对每一列,若所述左顶点的水平坐标的偏移量最小,则确定该列的第一单元格的对齐格式为左对齐格式,若所述右顶点的水平坐标的偏移量最小,则确定该列的第一单元格的对齐格式为右对齐格式,以及,若所述中间点的水平坐标的偏移量最小,则确定该列的第一单元格的对齐格式为居中对齐格式。
14、可选地,所述确定位于该列的第一单元格的左顶点的水平坐标的偏移量、中间点的水平坐标的偏移量和右顶点的水平坐标的偏移量,包括:
15、分别确定位于该列的每一第一单元格的左顶点的水平坐标、中间点的水平坐标和右顶点的水平坐标;
16、将所述左顶点的水平坐标的最大值与所述左顶点的水平坐标的最小值的差值确定为所述左顶点的水平坐标的偏移量;
17、将所述中间点的水平坐标的最大值与所述中间点的水平坐标的最小值的差值确定为所述中间点的水平坐标的偏移量;
18、将所述右顶点的水平坐标的最大值与所述右顶点的水平坐标的最小值的差值确定为所述右顶点的水平坐标的偏移量。
19、可选地,所述根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式,还包括:
20、针对每一表头单元格,确定位于所述表头单元格下方的第一单元格的对齐格式,若该第一单元格的对齐格式为左对齐格式,则确定所述表头单元格的左顶点的水平坐标与该第一单元格的左顶点的水平坐标的偏移量,并在所述偏移量小于或等于第一预设阈值时,确定所述表头单元格的对齐格式为左对齐格式,其中,所述第一预设阈值是根据所述待还原表格图像中文本框的平均高度确定的。
21、可选地,所述根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式,还包括:
22、若位于所述表头单元格下方的第一单元格的对齐格式为左对齐格式,且所述偏移量大于所述第一预设阈值,则确定所述表头单元格的对齐格式为居中对齐格式;或者
23、若位于所述表头单元格下方的第一单元格的对齐格式为居中对齐格式或右对齐格式,则确定所述表头单元格的对齐格式为居中对齐格式;或者
24、若位于所述表头单元格下方的第一单元格的对齐格式为右对齐格式,则确定所述表头单元格的右顶点的水平坐标与该第一单元格的右顶点的水平坐标的偏移量,并在所述偏移量小于或等于所述第一预设阈值时,确定所述表头单元格的对齐格式为右对齐格式。
25、可选地,所述根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式,还包括:
26、针对每一跨列合并单元格,确定该跨列合并单元格和位于该跨列合并单元格上方的单元格的左顶点的水平坐标的偏移量、中间点的水平坐标偏移量和右顶点的水平坐标偏移量,若左顶点的水平坐标的偏移量最小,则确定该跨列合并单元格的对齐格式为左对齐,若中间点的水平坐标的偏移量最小,则确定该跨列合并单元格的对齐格式为居中对齐,以及,若右顶点的水平坐标的偏移量最小,则确定该跨列合并单元格的对齐格式为右对齐格式。
27、可选地,所述检测结果还包括用于表征每一单元格类别的标识,所述单元格类别包括用于表征所述单元格是否为表头单元格的第一类别、以及用于表征所述单元格是否为跨列合并单元格的第二类别;
28、所述确定所述待还原表格图像中的表头单元格和跨列合并单元格,包括:
29、根据所述每一单元格类别的标识,确定所述待还原表格图像中的表头单元格和跨列合并单元格。
30、可选地,所述方法还包括:
31、对所述每一单元格内的文本进行识别,以确定所述每一单元格内包括的文本框;
32、针对包括多个文本框的单元格,获取所述单元格内包括的每一文本框的左上顶点的位置坐标,根据所述左上顶点的位置坐标中的纵坐标对所述单元格内包括的多个文本框进行纵向方向上的排序,若上下相邻的两个文本框的纵坐标的偏移量大于第二预设阈值,则确定所述上下相邻的两个文本框的排版策略为换行排版策略,若上下相邻的两个文本框的纵坐标的偏移量小于或等于所述第二预设阈值,则确定所述上下相邻的两个文本框的排版策略为同一行排版策略;以及
33、确定包括一个文本框的单元格内的文本框的排版策略为所述同一行排版策略;
34、所述根据所述每一单元格的对齐格式,对所述待还原表格图像进行还原,包括:
35、根据所述每一单元格的对齐格式和每一单元格包括的文本框的排版策略,对所述待还原表格图像进行还原。
36、根据本公开实施例的第二方面,提供一种本文档来自技高网...
【技术保护点】
1.一种表格图像还原方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据每一列的第一单元格的左顶点的水平坐标的偏移量、中间点的水平坐标的偏移量和右顶点的水平坐标的偏移量,确定每一列的第一单元格的对齐格式,包括:
4.根据权利要求2所述的方法,其特征在于,所述确定位于该列的第一单元格的左顶点的水平坐标的偏移量、中间点的水平坐标的偏移量和右顶点的水平坐标的偏移量,包括:
5.根据权利要求2所述的方法,其特征在于,所述根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式,还包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式,还包括:
7.根据权利要求2所述的方法,其特征在于,所述根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式,还包括:
...【技术特征摘要】
1.一种表格图像还原方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据每一列的第一单元格的左顶点的水平坐标的偏移量、中间点的水平坐标的偏移量和右顶点的水平坐标的偏移量,确定每一列的第一单元格的对齐格式,包括:
4.根据权利要求2所述的方法,其特征在于,所述确定位于该列的第一单元格的左顶点的水平坐标的偏移量、中间点的水平坐标的偏移量和右顶点的水平坐标的偏移量,包括:
5.根据权利要求2所述的方法,其特征在于,所述根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式,还包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述待还原表格图像中包括的单元格的位置信息,确定每一单元格的对齐格式,还包括:
【专利技术属性】
技术研发人员:郭沛,彭鑫,王海睿,周代国,
申请(专利权)人:小米科技武汉有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。