【技术实现步骤摘要】
基于计算机视觉的表格结构重建与文字提取方法和系统
[0001]本专利技术涉及文档重建
,具体地,涉及一种基于计算机视觉的表格结构重建与文字提取方法和系统。
技术介绍
[0002]PDF(Portable Document Format)格式是一种用来保存、展示以及打印文档的格式,由Adobe开发,广泛地用在经济、金融、教育、科研及学术等各种领域。然而,由于PDF格式的设计目标仅仅是为了更好地展示和更精确地打印,对于有结构化的数据比如表格等,并没有去保存各个文本之间的关系。随着深度学习的不断发展,亟需更多地原始数据以供支持,此外文档重建本身对出版行业也是一种重要的任务。表格数据作为一种高度结构化地数据,有极大的信息价值。如何能快速、准确地提取各种PDF中存在的各种表格,是进行更高级任务的重要基础工作和前提。而目前的表格提取技术,存在着提取准确率不高,通用性不高,性能不高等问题。
[0003]专利文献CN106897690A(申请号:201710095978.4)公开了一种PDF表格提取方法,包含以下步骤:步骤A,对PDF文档进行解析,获取图像数据、第一线条数据和字符数据;步骤B,采用图像识别算法对经由步骤A获取的图像数据进行处理,从具有表格数据的图像数据中获得其表格数据对应的第二线条数据;步骤C,采用图形算法对经由步骤A获得的第一线条数据和经由步骤B获得的第二线条数据分别进行处理,获得具有表格行数据和列数据的表格框架数据;步骤D,采用聚类算法对经由步骤A获得的字符数据进行聚类处理,获得具有字符串集合的文本 ...
【技术保护点】
【技术特征摘要】
1.一种基于计算机视觉的表格结构重建与文字提取方法,其特征在于,包括:步骤1:通过神经网络在PDF文档中识别并定位表格,得到表格所在的外框区域;步骤2:对PDF文档中的文字层进行解析,获取PDF文档中的文本间距;步骤3:根据框定的表格区域和本文间距,通过计算机视觉在表格区域内重建表格内框线结构;步骤4:根据表格内框线结构,从PDF文档中同位置处抽取文本信息;步骤5:根据表格内框线结构和对应文本信息,生成可编辑表格文件。2.根据权利要求1所述的基于计算机视觉的表格结构重建与文字提取方法,其特征在于,所述步骤1包括:步骤1.1:训练并配置表格检测神经网络;步骤1.2:将含有表格目标的PDF文档的每页转成图片,将每张图片输入表格检测神经网络,若存在表格目标,则返回表格目标所在的PDF文档页数和表格外框位于PDF文档所在页的相对位置。3.根据权利要求1所述的基于计算机视觉的表格结构重建与文字提取方法,其特征在于,所述步骤2包括:步骤2.1:判断表格所在的PDF页是否含有文字层;步骤2.2:若没有文字层,则通过光学字符识别技术将该页嵌入文字层,嵌入文字的位置在图片中文字的相应位置上;步骤2.3:统计PDF文档中所有文字的大小,将文字的宽度平均值作为文本间距的估计值。4.根据权利要求1所述的基于计算机视觉的表格结构重建与文字提取方法,其特征在于,所述步骤3包括:步骤3.1:根据表格外框区域和表格所在PDF页,将表格以图片形式截取出来;步骤3.2:对截取出的图片进行预处理,所述预处理包括阈值处理和形态学处理,去除表格中除文字和框线以外的噪点;步骤3.3:对表格进行竖线检测,若竖线像素超出预设值,则表明表格中含有框线并执行步骤3.4,否则执行步骤3.5;步骤3.4:对有框线的表格重建表格结构,提取表格的所有竖线和横线,获取竖线和横线的交集点集合,在去除冗余的点后,形成表格的内框交点集合;根据得到的交点集合,判断相邻点之间是否形成表格内框线,若是则将两点相连形成边;根据点和边形成有框线表格的表格结构;步骤3.5:对图片进行预处理,去除图片中长度超出预设阈值的横线和竖线,并将图片进行阈值处理,使得空白位置的像素值为0,含有文字的像素值为255;对图片进行行扫描,若扫描到某一行的像素值之和为0,则该行为横向的表格内框线,表格内框线位置为所有连续像素值和为0的行的中间位置,两个相邻横向内框线内部为表格中的一行;在相邻两个横内向框线间进行纵向扫描,将每列的像素值求和,若有连续超过文本间距数量的纵向像素和为0,则标记纵线扫描过的区域为空白区域,否则标记为有文字区域,从而获得每行有或没有文字区域的坐标集合;从上至下,从左到右合并各行间相互联通且能被一条纵线全部贯穿的空白区域,形成空白块,记录每个空白块的高度,去除所有高度为1行的空白块;遍历
所有贯穿空白块的纵线,记录这条纵线穿过的所有空白块的总高度;最终将穿过空白块的高度总和最大的纵线作为一条表格纵向内框线,并将该线穿过的空白块设为已穿过;选择能穿过其他未穿过空白块的高度总和最大的纵线作为另一条表格纵向框线,并记录其穿过的空白块为已穿过,最终不断得到纵线,直到所有空白块都被穿过;根据得到的横向内框线和纵向内框线建立表格的最小单元格,扫描每个单元格的纵线是否经过有文字的区域,如有则删除该小段纵线,并进行表格左右单元格合并,最终形成合并单元格后的表格内框线结构。5.根据权利要求1所述的基于计算机视觉的表格结构重建与文字提取方法,其特征在于,所述步骤4包括:根据重建得到的表格内框线结构,得到各个单元格在PDF文档中的矩形框坐标,从含有文字层的PDF文档中抽取同位置区域内的文字信息,经过去除空格调整,得到表格单元格的内容;所述步骤5包括:根据所有表格内框线和对应表格单元格的内容,建立Excel表格,并保存合并单元格信息。6.一种基于计算机视觉的表格结...
【专利技术属性】
技术研发人员:沈逸飞,李明泽,李琦,王海文,傅洛伊,王新兵,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。