一种将图像中表格转换为电子表格的方法及装置制造方法及图纸

技术编号：30973934 阅读：20 留言：0更新日期：2021-11-25 20:58

本申请公开了一种将图像中表格转换为电子表格的方法。步骤S1：根据图像中的文字行及线，对图像做转正及矫正处理。步骤S2：在图像中采用无锚的目标检测方法来确定图像中表格的位置，也称图像的表格区域。步骤S3：在图像的表格区域中检测表格线。步骤S4：根据对图像的表格区域进行光学字符识别获取的文字行信息，移除虚假表格线，得到真实表格线。步骤S5：根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。步骤S6：根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。步骤S7：如有缺失的单元格，在相应位置补齐单元格，以得到完整的结构化的电子表格。以得到完整的结构化的电子表格。以得到完整的结构化的电子表格。

全部详细技术资料下载

【技术实现步骤摘要】
一种将图像中表格转换为电子表格的方法及装置

[0001]本申请涉及一种图像识别方法，特别是涉及一种将图像中的表格识别出来并转换为电子表格(例如Excel文件)的方法。

技术介绍

[0002]表格作为常见的文档形式，在办公、日常生活中得到广泛使用。在财务处理、数据分析等工作中，存在大量将图像(图片)中的表格转化为电子表格的需求。由于打印质量、拍摄角度、拍摄光线、纸张弯折等方面的问题，现有的转换方法经常出现表格线误检、表格线漏检、单元格位置错误、单元格丢失等情况，从而使电子表格的版式还原出现错误。

技术实现思路

[0003]本申请所要解决的技术问题是对于不同图像质量的图像中的不同版式的表格，给出一种具有良好的版式还原效果的转换为电子表格的方法。
[0004]为解决上述技术问题，本申请提出的将图像中表格转换为电子表格的方法包括如下步骤。步骤S1：根据图像中的文字行及线，对图像做转正及矫正处理。步骤S2：在图像中采用无锚的目标检测方法来确定图像中表格的位置，也称图像的表格区域。步骤S3：在图像的表格区域中检测表格线。步骤S4：根据对图像的表格区域进行光学字符识别获取的文字行信息，对步骤S3检测得到的表格线进行过滤，移除虚假表格线，得到真实表格线。步骤S5：根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。步骤S6：根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。步骤S7：根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有...

【技术保护点】

【技术特征摘要】
1.一种将图像中表格转换为电子表格的方法，其特征是，包括如下步骤；步骤S1：根据图像中的文字行及线，对图像做转正及矫正处理；步骤S2：在图像中采用无锚的目标检测方法来确定图像中表格的位置，也称图像的表格区域；步骤S3：在图像的表格区域中检测表格线；步骤S4：根据对图像的表格区域进行光学字符识别获取的文字行信息，对步骤S3检测得到的表格线进行过滤，移除虚假表格线，得到真实表格线；步骤S5：根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别；步骤S6：根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存；步骤S7：根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙，判断是否有缺失的单元格；如有缺失的单元格，在相应位置补齐单元格，以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙，得到完整的结构化的电子表格。2.根据权利要求1所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤S1中，检测图像中的文字行及表格线的角度，并使图像中的每一行文字大致为水平排列，使表格线中的水平线大致为水平，使表格线中的竖直线大致为竖直的方式对整幅图像进行转正及矫正处理。3.根据权利要求1所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤S2中，所述无锚的目标检测方法包括CornerNet算法、CenterNet算法、ExtremeNet算法、DenseBox算法、YOLO算法、FSAF算法、FCOS算法、FoveaBox算法、RepPoints算法、Sparse RCNN算法、CentripetalNet算法、SaccadeNet算法的任意一种或多种。4.根据权利要求1所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤S3具体包括如下子步骤；步骤S31：采用基于语义分割网络的算法在图像的表格区域中预测和提取表格线区域，表格线区域是指表格线可能出现的位置，就是一些孤立的像素点；步骤S32：在图像的表格线区域通过曲线拟合方法检测出表格线，也就是采用曲线拟合方法将前一步预测的孤立的像素点连接成线段。5.根据权利要求4所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤S31中，所述基于语义分割网络的算法是先通过标注的表格线数据进行训练，然后再使用训练好的算法预测和提取表格线区域。6.根据权利要求1所述的将图像中表格转换为电子表格的方法，其特征是...

【专利技术属性】
技术研发人员：郭丰俊，龙伟，丁凯，龙腾，
申请(专利权)人：上海临冠数据科技有限公司上海生腾数据科技有限公司上海盈五蓄数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人