基于OCR的图片缺线表格的重建方法、装置及存储介质制造方法及图纸

技术编号:36387782 阅读:9 留言:0更新日期:2023-01-18 09:51
本发明专利技术公开一种基于OCR的图片缺线表格的重建方法、装置及存储介质,属于图片处理技术领域。该重建方法包括:S1、将表格中的所有文本按照纵坐标进行聚类,将所有文本划分为不同的行;S2、构建出行坐标,将相邻的两行的第一中间坐标值的纵坐标的均值对应的位置作为相邻的两行文本的第一分界处;S3、构建出列坐标,将相邻的两列第二中间坐标值的横坐标的均值对应的的位置作为相邻的两列文本的第二分界处;S4、将OCR识别出的线条的位置坐标与第二分界处的坐标进行比较,若匹配,则显示竖线。本发明专利技术依据缺线表中文本和线条的位置等信息,对缺线表格进行重构,提升了缺线表格的还原度。提升了缺线表格的还原度。提升了缺线表格的还原度。

【技术实现步骤摘要】
基于OCR的图片缺线表格的重建方法、装置及存储介质


[0001]本专利技术涉及图片处理
,具体涉及一种基于OCR的图片缺线表格的重建方法、装置及存储介质。

技术介绍

[0002]自动进行图片以及扫描文件的识别,并从中提取有用数据成为一个备受关注的问题。图片或者扫描件文档主要由文本、图像、表格、公式等内容组成。其中,作为一种高效的数据组织和展现形式,表格的识别和重构成为一个亟待解决的问题。
[0003]表格识别是指从图片中识别出表格中的文本内容和表格的框线;表格重构是指利用识别出的文本和框线对表格的逻辑结构和单元格内容进行重构,进而将表格插入到一个DOCX文件供用户使用。图片或扫描件文档中的表格主要可以分为两类:完整框线表格和不完整框线表格,即缺线表格。其中,完整框线表格的识别和重构较为简单,目前开源的表格提取工具已经可以达到较高的准确率;而缺线表格的识别和重构则存在较多问题,还原度低。

技术实现思路

[0004]本专利技术的目的在于克服上述技术不足,提供一种基于OCR的图片缺线表格的重建方法、装置及存储介质,解决现有技术中缺线表格的还原度低的技术问题。
[0005]为达到上述技术目的,本专利技术的技术方案提供一种基于OCR的图片缺线表格的重建方法,包括以下步骤:
[0006]S1、将表格中的所有文本按照纵坐标进行聚类,将所有文本划分为不同的行;
[0007]S2、利用步骤S1中不同行的文本对应的纵坐标计算出表格不同行的坐标范围,构建出行坐标,根据不同行中文本的坐标,计算出所有文本纵坐标的均值,然后取出现的频率最大的均值作为该行的第一中间坐标值,将相邻的两行的第一中间坐标值的纵坐标的均值对应的位置作为相邻的两行文本的第一分界处;
[0008]S3、将表格中的所有文本按行划分后,利用横坐标将行内的文本划分为不同的列,构建出列坐标,根据不同列中文本的坐标,计算出所有文本横坐标的均值,然后取出现的频率最大的均值作为该列的第二中间坐标值,将相邻的两列的第二中间坐标值的横坐标的均值对应的位置作为相邻的两列文本的第二分界处;
[0009]S4、将OCR识别出的线条的位置坐标与步骤S2中构建的第一分界处的坐标进行比较,若匹配,则显示横线;将OCR识别出的线条的位置坐标与步骤S3中构建的第二分界处的坐标进行比较,若匹配,则显示竖线。
[0010]进一步地,在步骤S1中,将所有文本划分为不同的行之前还包括步骤S0:判断文本是否属于同一行,若文本间的纵坐标的差值小于设定的第一阈值,则判定该文本处于同一行。
[0011]进一步地,在步骤S3中,利用横坐标将行内的文本划分为不同的列之前还包括:判
断所述行内的文本是否属于同一列,若文本间的横坐标的差值小于设定的第二阈值,则判定该文本处于同一列。
[0012]进一步地,在步骤S4中,将OCR识别出的线条的位置坐标的纵坐标值与步骤S2中构建的第一分界处的纵坐标值进行比较,若两者的差值小于设定的第三阈值,则匹配,则显示横线。
[0013]进一步地,在步骤S4中,将OCR识别出的线条的位置坐标的横坐标值与步骤S2中构建的第二分界处的横坐标值进行比较,若两者的差值小于设定的第四阈值,则匹配,则显示竖线。
[0014]进一步地,在步骤S1之前还包括步骤S0:判断表格是否为缺线表格,判断表格区域中所有的线条是否为封闭的结构,若所有线条构成的表格为封闭的结构,则对应的表格为完整表格;若所有线条无法构成封闭的结构,则对应的表格为缺线表格。
[0015]进一步地,在步骤S4之后还包括步骤S5:根据重建后的表格和线条信息构建出基本的表格逻辑结构和不同单元格内容的索引。
[0016]进一步地,在步骤S5之后还包括步骤S6:对不同单元格中的内容进行检测,并对空白单元格进行合并,对不同单元格内的文本进行排版,将单元格中的字符合并为对应的段落,构建最终的表格结构,利用合并后的单元格和不同单元格中的段落内容构建单元格的表格逻辑结构和单元格中文本段落的索引信息,将构建的缺线表格写入DOCX文件中进行表格的还原。
[0017]此外,本专利技术还提出一种图片中缺线表格的重建装置,包括:
[0018]行划分单元,用于将表格中的所有文本按照纵坐标进行聚类,将所有文本划分为不同的行;
[0019]确定第一分界处单元,用于利用步骤S1中不同行的文本对应的纵坐标计算出表格不同行的坐标范围,构建出行坐标,根据不同行中文本的坐标,计算出所有文本纵坐标的均值,然后取出现的频率最大的均值作为该行的第一中间坐标值,相邻的两行的第一中间坐标值的纵坐标的均值作为相邻的两行文本的第一分界处;
[0020]确定第二分界处单元,利用横坐标将行内的文本划分为不同的列,构建出列坐标,根据不同列中文本的坐标,计算出所有文本横坐标的均值,然后取出现的频率最大的均值作为该列的第二中间坐标值,相邻的两列的第二中间坐标值的横坐标的均值作为相邻的两列文本的第二分界处;
[0021]匹配单元,用于将OCR识别出的线条的位置坐标与步骤S2中构建的第一分界处进行比较,若匹配,则显示横线;将OCR识别出的线条的位置坐标与步骤S3中构建的第二分界处进行比较,若匹配,则显示竖线。
[0022]进一步地,本专利技术还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于OCR的图片缺线表格的重建方法的步骤。
[0023]与现有技术相比,本专利技术的有益效果包括:本专利技术依据缺线表中文本和线条的位置等信息,对缺线表格进行重构,降低缺线表格对排版的影响,使得重构后的内容具有更高的还原度。
附图说明
[0024]图1是本专利技术实施例1中一种基于OCR的图片缺线表格的重建方法的流程图;
[0025]图2是本专利技术实施例1中一种图片中缺线表格的重建装置的结构框图。
具体实施方式
[0026]本具体实施方式提供了一种基于OCR的图片缺线表格的重建方法,包括以下步骤:
[0027]S0、判断表格是否为缺线表格,判断表格区域中所有的线条是否为封闭的结构,若所有线条构成的表格为封闭的结构,则对应的表格为完整表格;若所有线条无法构成封闭的结构,则对应的表格为缺线表格;
[0028]S1、将表格中的所有文本按照纵坐标进行聚类,判断文本是否属于同一行,若文本间的纵坐标的差值小于设定的第一阈值,则判定该文本处于同一行,将所有文本划分为不同的行;
[0029]S2、利用步骤S1中不同行的文本对应的纵坐标计算出表格不同行的坐标范围,构建出行坐标,根据不同行中文本的坐标,计算出所有文本纵坐标的均值,然后取出现的频率最大的均值作为该行的第一中间坐标值,相邻的两行的第一中间坐标值的纵坐标的均值对应的位置作为相邻的两行文本的第一分界处;
[0030]S3、将表格中的所有文本按行划分后,判断所述行内的文本是否属于同一列,若文本间的横坐标的差值小于设定的第二阈值,则判定该文本处于同一列,利用横坐标将行内的文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR的图片缺线表格的重建方法,其特征在于,包括以下步骤:S1、将表格中的所有文本按照纵坐标进行聚类,将所有文本划分为不同的行;S2、利用步骤S1中不同行的文本对应的纵坐标计算出表格不同行的坐标范围,构建出行坐标,根据不同行中文本的坐标,计算出所有文本纵坐标的均值,然后取出现的频率最大的均值作为该行的第一中间坐标值,将相邻的两行的第一中间坐标值的纵坐标的均值对应的位置作为相邻的两行文本的第一分界处;S3、将表格中的所有文本按行划分后,利用横坐标将行内的文本划分为不同的列,构建出列坐标,根据不同列中文本的坐标,计算出所有文本横坐标的均值,然后取出现的频率最大的均值作为该列的第二中间坐标值,将相邻的两列的第二中间坐标值的横坐标的均值对应的位置作为相邻的两列文本的第二分界处;S4、将OCR识别出的线条的位置坐标与步骤S2中构建的第一分界处的坐标进行比较,若匹配,则显示横线;将OCR识别出的线条的位置坐标与步骤S3中构建的第二分界处的坐标进行比较,若匹配,则显示竖线。2.根据权利要求1所述的基于OCR的图片缺线表格的重建方法,其特征在于,在步骤S1中,将所有文本划分为不同的行之前还包括步骤S0:判断文本是否属于同一行,若文本间的纵坐标的差值小于设定的第一阈值,则判定该文本处于同一行。3.根据权利要求1所述的基于OCR的图片缺线表格的重建方法,其特征在于,在步骤S3中,利用横坐标将行内的文本划分为不同的列之前还包括:判断所述行内的文本是否属于同一列,若文本间的横坐标的差值小于设定的第二阈值,则判定该文本处于同一列。4.根据权利要求1所述的基于OCR的图片缺线表格的重建方法,其特征在于,在步骤S4中,将OCR识别出的线条的位置坐标的纵坐标值与步骤S2中构建的第一分界处的纵坐标值进行比较,若两者的差值小于设定的第三阈值,则匹配,则显示横线。5.根据权利要求1所述的基于OCR的图片缺线表格的重建方法,其特征在于,在步骤S4中,将OCR识别出的线条的位置坐标的横坐标值与步骤S2中构建的第二分界处的横坐标值进行比较,若两者的差值小于设定的第四阈值,则匹配,则显示竖线。6.根据权利要求1所述的基于OCR的图片缺...

【专利技术属性】
技术研发人员:邓彪翟飞飞杜倩龙
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1