基于计算机视觉的表格结构重建与文字提取方法和系统技术方案

技术编号:32180641 阅读:24 留言:0更新日期:2022-02-08 15:42
本发明专利技术提供了一种基于计算机视觉的表格结构重建与文字提取方法和系统,包括:步骤1:通过神经网络在PDF文档中识别并定位表格,得到表格所在的外框区域;步骤2:对PDF文档中的文字层进行解析,获取PDF文档中的文本间距;步骤3:根据框定的表格区域和本文间距,通过计算机视觉在表格区域内重建表格内框线结构;步骤4:根据表格内框线结构,从PDF文档中同位置处抽取文本信息;步骤5:根据表格内框线结构和对应文本信息,生成可编辑表格文件。本发明专利技术通过神经网络进行表格外框的识别,可以不通过人为给定表格外框区域,从而可以自动提取PDF文档中的所有表格,能够在无人监督的情况下批量提取大量PDF数据中的表格。取大量PDF数据中的表格。取大量PDF数据中的表格。

【技术实现步骤摘要】
基于计算机视觉的表格结构重建与文字提取方法和系统


[0001]本专利技术涉及文档重建
,具体地,涉及一种基于计算机视觉的表格结构重建与文字提取方法和系统。

技术介绍

[0002]PDF(Portable Document Format)格式是一种用来保存、展示以及打印文档的格式,由Adobe开发,广泛地用在经济、金融、教育、科研及学术等各种领域。然而,由于PDF格式的设计目标仅仅是为了更好地展示和更精确地打印,对于有结构化的数据比如表格等,并没有去保存各个文本之间的关系。随着深度学习的不断发展,亟需更多地原始数据以供支持,此外文档重建本身对出版行业也是一种重要的任务。表格数据作为一种高度结构化地数据,有极大的信息价值。如何能快速、准确地提取各种PDF中存在的各种表格,是进行更高级任务的重要基础工作和前提。而目前的表格提取技术,存在着提取准确率不高,通用性不高,性能不高等问题。
[0003]专利文献CN106897690A(申请号:201710095978.4)公开了一种PDF表格提取方法,包含以下步骤:步骤A,对PDF文档进行解析,获取图像数据、第一线条数据和字符数据;步骤B,采用图像识别算法对经由步骤A获取的图像数据进行处理,从具有表格数据的图像数据中获得其表格数据对应的第二线条数据;步骤C,采用图形算法对经由步骤A获得的第一线条数据和经由步骤B获得的第二线条数据分别进行处理,获得具有表格行数据和列数据的表格框架数据;步骤D,采用聚类算法对经由步骤A获得的字符数据进行聚类处理,获得具有字符串集合的文本数据;步骤E,经由步骤C获得的表格框架数据中的表格行数据和列数据,得到对应的表格单元格,将表格单元格与步骤D获得的文本数据中的字符串集合相匹配,获得PDF文档中的表格数据。该方法对通用表格的识别性较差,不能对通用的表格进行识别。
[0004]专利文献CN110516208A(申请号:201910738531.3)公开了一种针对PDF文档的表格提取的系统,包括表格特征提取模块、表格定位模块、表格内部结构解析模块;一种针对PDF文档的表格提取的方法,包括:S1、表格特征提取;S2、表格定位;S3、表格内部结构解析;最终表格被划分成了二维网格的结构,对于得到的二维网格化的表格,可以知道每个单元格的位置及大小,将表格使用HTML格式进行输出。本专利技术考虑了缺省线条以及底色区分单元格等特殊表格形式,能够对PDF表格数据进行高准确率的提取。该专利技术未考虑PDF中是图片表格的情况,通用性一般。
[0005]专利文献CN105988979A(申请号:201510083646.5)提供了一种基于PDF文件的表格提取方法和装置,通过解析获得PDF文件中的各文字的文字信息和各线条的线条信息之后,根据线条位置信息对从该PDF文件的同一页中所提取的横向线条进行排序,并判断两相邻横向线条是否处于该页的同一表格中,根据线条信息对处于该页的同一表格中的各横向线条进行表格绘制,以及在绘制的表格中,根据线条信息对从所述页中所提取的各纵向线条进行填充,最后在绘制的表格中,根据各文字的文字信息,将文字信息中的文字字符信息填充在横向线条和纵向线条所构成的单元格中与文字位置信息相对应的位置。由于考虑了
表格的横向线条和纵向线条的信息,从而提高了从PDF文件中提取表格的准确度。该专利技术同样未考虑PDF中是图片表格的情况,通用性一般。
[0006]专利文献CN109635268A(申请号:CN201811630768.1)公开了一种PDF文件中表格信息的提取方法,包括:读取PDF文件;解析PDF文件的属性;找到并整理页面内所有横线以及竖线的集合;判断当前页面的横竖线集合能否组成完整的表格边框,若能则按照有边框表格处理,反之则按照无边框表格处理;得到表格的行列以及单元格的元信息;判断是否为跨页表格,如果是跨页表格则合并跨页表格;若不是跨页表格则直接存储表格;存储表格的行列信息,以及所在的页和页面内位置等提取得到的信息。该专利技术未考虑PDF中是图片表格的情况,通用性一般。

技术实现思路

[0007]针对现有技术中的缺陷,本专利技术的目的是提供一种基于计算机视觉的表格结构重建与文字提取方法和系统。
[0008]根据本专利技术提供的基于计算机视觉的表格结构重建与文字提取方法,包括:
[0009]步骤1:通过神经网络在PDF文档中识别并定位表格,得到表格所在的外框区域;
[0010]步骤2:对PDF文档中的文字层进行解析,获取PDF文档中的文本间距;
[0011]步骤3:根据框定的表格区域和本文间距,通过计算机视觉在表格区域内重建表格内框线结构;
[0012]步骤4:根据表格内框线结构,从PDF文档中同位置处抽取文本信息;
[0013]步骤5:根据表格内框线结构和对应文本信息,生成可编辑表格文件。
[0014]优选的,所述步骤1包括:
[0015]步骤1.1:训练并配置表格检测神经网络;
[0016]步骤1.2:将含有表格目标的PDF文档的每页转成图片,将每张图片输入表格检测神经网络,若存在表格目标,则返回表格目标所在的PDF文档页数和表格外框位于PDF文档所在页的相对位置。
[0017]优选的,所述步骤2包括:
[0018]步骤2.1:判断表格所在的PDF页是否含有文字层;
[0019]步骤2.2:若没有文字层,则通过光学字符识别技术将该页嵌入文字层,嵌入文字的位置在图片中文字的相应位置上;
[0020]步骤2.3:统计PDF文档中所有文字的大小,将文字的宽度平均值作为文本间距的估计值。
[0021]优选的,所述步骤3包括:
[0022]步骤3.1:根据表格外框区域和表格所在PDF页,将表格以图片形式截取出来;
[0023]步骤3.2:对截取出的图片进行预处理,所述预处理包括阈值处理和形态学处理,去除表格中除文字和框线以外的噪点;
[0024]步骤3.3:对表格进行竖线检测,若竖线像素超出预设值,则表明表格中含有框线并执行步骤3.4,否则执行步骤3.5;
[0025]步骤3.4:对有框线的表格重建表格结构,提取表格的所有竖线和横线,获取竖线和横线的交集点集合,在去除冗余的点后,形成表格的内框交点集合;根据得到的交点集
合,判断相邻点之间是否形成表格内框线,若是则将两点相连形成边;根据点和边形成有框线表格的表格结构;
[0026]步骤3.5:对图片进行预处理,去除图片中长度超出预设阈值的横线和竖线,并将图片进行阈值处理,使得空白位置的像素值为0,含有文字的像素值为255;对图片进行行扫描,若扫描到某一行的像素值之和为0,则该行为横向的表格内框线,表格内框线位置为所有连续像素值和为0的行的中间位置,两个相邻横向内框线内部为表格中的一行;在相邻两个横内向框线间进行纵向扫描,将每列的像素值求和,若有连续超过文本间距数量的纵向像素和为0,则标记纵线扫描过的区域为空白区域,否则标记为有文字区域,从而获得每行有或没有文字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于计算机视觉的表格结构重建与文字提取方法,其特征在于,包括:步骤1:通过神经网络在PDF文档中识别并定位表格,得到表格所在的外框区域;步骤2:对PDF文档中的文字层进行解析,获取PDF文档中的文本间距;步骤3:根据框定的表格区域和本文间距,通过计算机视觉在表格区域内重建表格内框线结构;步骤4:根据表格内框线结构,从PDF文档中同位置处抽取文本信息;步骤5:根据表格内框线结构和对应文本信息,生成可编辑表格文件。2.根据权利要求1所述的基于计算机视觉的表格结构重建与文字提取方法,其特征在于,所述步骤1包括:步骤1.1:训练并配置表格检测神经网络;步骤1.2:将含有表格目标的PDF文档的每页转成图片,将每张图片输入表格检测神经网络,若存在表格目标,则返回表格目标所在的PDF文档页数和表格外框位于PDF文档所在页的相对位置。3.根据权利要求1所述的基于计算机视觉的表格结构重建与文字提取方法,其特征在于,所述步骤2包括:步骤2.1:判断表格所在的PDF页是否含有文字层;步骤2.2:若没有文字层,则通过光学字符识别技术将该页嵌入文字层,嵌入文字的位置在图片中文字的相应位置上;步骤2.3:统计PDF文档中所有文字的大小,将文字的宽度平均值作为文本间距的估计值。4.根据权利要求1所述的基于计算机视觉的表格结构重建与文字提取方法,其特征在于,所述步骤3包括:步骤3.1:根据表格外框区域和表格所在PDF页,将表格以图片形式截取出来;步骤3.2:对截取出的图片进行预处理,所述预处理包括阈值处理和形态学处理,去除表格中除文字和框线以外的噪点;步骤3.3:对表格进行竖线检测,若竖线像素超出预设值,则表明表格中含有框线并执行步骤3.4,否则执行步骤3.5;步骤3.4:对有框线的表格重建表格结构,提取表格的所有竖线和横线,获取竖线和横线的交集点集合,在去除冗余的点后,形成表格的内框交点集合;根据得到的交点集合,判断相邻点之间是否形成表格内框线,若是则将两点相连形成边;根据点和边形成有框线表格的表格结构;步骤3.5:对图片进行预处理,去除图片中长度超出预设阈值的横线和竖线,并将图片进行阈值处理,使得空白位置的像素值为0,含有文字的像素值为255;对图片进行行扫描,若扫描到某一行的像素值之和为0,则该行为横向的表格内框线,表格内框线位置为所有连续像素值和为0的行的中间位置,两个相邻横向内框线内部为表格中的一行;在相邻两个横内向框线间进行纵向扫描,将每列的像素值求和,若有连续超过文本间距数量的纵向像素和为0,则标记纵线扫描过的区域为空白区域,否则标记为有文字区域,从而获得每行有或没有文字区域的坐标集合;从上至下,从左到右合并各行间相互联通且能被一条纵线全部贯穿的空白区域,形成空白块,记录每个空白块的高度,去除所有高度为1行的空白块;遍历
所有贯穿空白块的纵线,记录这条纵线穿过的所有空白块的总高度;最终将穿过空白块的高度总和最大的纵线作为一条表格纵向内框线,并将该线穿过的空白块设为已穿过;选择能穿过其他未穿过空白块的高度总和最大的纵线作为另一条表格纵向框线,并记录其穿过的空白块为已穿过,最终不断得到纵线,直到所有空白块都被穿过;根据得到的横向内框线和纵向内框线建立表格的最小单元格,扫描每个单元格的纵线是否经过有文字的区域,如有则删除该小段纵线,并进行表格左右单元格合并,最终形成合并单元格后的表格内框线结构。5.根据权利要求1所述的基于计算机视觉的表格结构重建与文字提取方法,其特征在于,所述步骤4包括:根据重建得到的表格内框线结构,得到各个单元格在PDF文档中的矩形框坐标,从含有文字层的PDF文档中抽取同位置区域内的文字信息,经过去除空格调整,得到表格单元格的内容;所述步骤5包括:根据所有表格内框线和对应表格单元格的内容,建立Excel表格,并保存合并单元格信息。6.一种基于计算机视觉的表格结...

【专利技术属性】
技术研发人员:沈逸飞李明泽李琦王海文傅洛伊王新兵
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1