一种图像导出表格的方法、系统、存储介质及设备技术方案

技术编号:26971755 阅读:35 留言:0更新日期:2021-01-06 00:03
本发明专利技术提供一种图像导出表格的方法、系统、存储介质及设备,该方法包括:获取扫描图像中的表格的轮廓信息;基于轮廓信息对表格进行行列划分,得到表格的行列信息及行列索引序号;对比行列索引序号与行列信息,判断表格的行列是否存在合并关系;若是,根据行列索引序号与行列信息,拆分表格并输出。在本方案中,通过检测扫描图像中的表格的轮廓信息,对表格进行单元格的行列划分,截取划分后的行列信息进行识别,有效地提高文字识别的准确率和位置准确度,另外,计算了单元格的合并关系,使得识别的结果能够导出为表格文件供用户做进一步的数据分析,解决了现有技术中通过直线的相交关系确认表格位置的方案无法识别单元格合并信息的技术问题。

【技术实现步骤摘要】
一种图像导出表格的方法、系统、存储介质及设备
本专利技术涉及图像识别
,特别涉及一种图像导出表格的方法、系统、存储介质及设备。
技术介绍
随着图像文字的深入发展,越来越多种类的图像文字资料,被纳入图像文字识别的范畴中,其中表格作为文字数据记录汇总最精简表达方式,在各行各业应用的广泛性不言而喻。现有技术当中,采用的OCR文字识别(OpticalCharacterRecognition,光学字符识别)技术是基于开源的流行OCR引擎Tesseract,Tesseract识别图像中的文字时,受表格线的影响导致识别率很低,而表格线在扫描图像中也不是理想的直线,无法识别单元格的合并信息,难以通过去除直线的方式完全避免表格的干扰,而且识别的坐标位置也很不准确。
技术实现思路
基于此,本专利技术的目的是提供一种图像导出表格的方法、系统、存储介质及设备,用于解决现有技术中通过直线的相交关系确认表格位置的方案无法识别单元格合并信息的技术问题。为实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供了一种图本文档来自技高网...

【技术保护点】
1.一种图像导出表格的方法,其特征在于,所述方法包括如下步骤:/n获取扫描图像中的表格的轮廓信息;/n基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号;/n对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系;/n若是,根据所述行列索引序号与所述行列信息,拆分所述表格并输出。/n

【技术特征摘要】
1.一种图像导出表格的方法,其特征在于,所述方法包括如下步骤:
获取扫描图像中的表格的轮廓信息;
基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号;
对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系;
若是,根据所述行列索引序号与所述行列信息,拆分所述表格并输出。


2.根据权利要求1所述的图像导出表格的方法,其特征在于,所述基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号的步骤包括:
根据单元格左顶点纵坐标的值,提取属于同一行单元格;
根据单元格左顶点横坐标的值,提取属于同一列单元格;
根据单元格行列对应关系,提取表格的行数和列数,求取每一行高和列宽,及单元格所在的行列索引序号。


3.根据权利要求2所述的图像导出表格的方法,其特征在于,所述对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系的步骤包括:
若一行单元格的数量小于表格总列数,则该行存在合并单元格,遍历该行单元格,如果单元格高度明显高于行高,则上下存在合并关系;如果单元格宽度明显宽于所在列宽,则左右存在合并关系,将合并的单元格索引记录成一组。


4.根据权利要求1所述的图像导出表格的方法,其特征在于,所述获取扫描图像中的表格的轮廓信息的步骤包括:
对所述扫描图像进行预处理,得到二值图像;
根据所述二值图像,得出所述表格的外框数据;
根据所述外框数据,得出所述表格的线框数据。


5.根据权利要求4所述的图像导出表格的方法,其特征在于,所述对所述扫描图像进行预处理,得到二值图像的步骤包括:
输入源图像,彩色图像转换为灰度图;
缩放灰度图像,使图像最大边长为1000像素,扫描文档图像通常尺寸为2479像素×3508像素,且主要区域较大,缩小图像再处理可缩...

【专利技术属性】
技术研发人员:朱林生万慧建于雪熊慧江曾江佑
申请(专利权)人:江西博微新技术有限公司
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1