本发明专利技术公开一种针对PDF文档表格提取优化方法及系统,该系统包括:表格检测模块、表格角检测模块、表格角优化模块和表格边界优化。表格检测模块识别和定位表格;表格角检测模块识别和定位表格角;表格角优化模块用于表格角分组和过滤劣质表格角;表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。该方法包括步骤S1、表格检测;步骤S2、表格角点检测;步骤S3、表格角优化包括对表格角点分组和表格角点过滤;步骤S4、表格边界优化。本发明专利技术实现了对于PDF文档中表格数据的高质量自动化提取,为自动化信息提取提供了数据支持,从而节约人力物力、提高工作效率。
An optimization method and system for PDF document form extraction
【技术实现步骤摘要】
一种针对PDF文档表格提取优化方法及系统
本专利技术涉及一种针对PDF文档表格提取优化方法及系统,属于信息自动化提取
技术介绍
随着信息技术的发展和互联网的普及,各行各业已积累了海量的PDF文档。如何从这些PDF文档中提取出蕴藏着丰富价值的有效信息,是一个具有挑战性的难题。因此,信息的自动化提取成为大势所趋,其中,文本和表格内容的提取是一个重要任务。由于表格通常存储着经过人工筛选、精炼后的数据,是文档中最有价值的部分,因此表格信息提取技术具有重要而广泛的应用价值。在申请号为:201910738531.3、专利技术名称为:一种针对PDF文档表格提取的系统及方法的中国专利技术专利申请中,公开了一种对PDF表格数据进行提取的方案。然而在物体检测技术中,由于物体的边界模糊,对边框定位的精度要求不高,导致其边框定位精度难以达到文字大小级别,这将造成表格提取中数据丢失或误读,严重影抽取结果。因此,对于如何进一步提升表格检测的准确率是亟待解决的问题。
技术实现思路
本专利技术技术解决问题:提出一种针对PDF文档表格提取优化方法及系统,具体而言是以提出表格角点信息检测以过滤劣质角点,并利用优质角点优化表格边框定位,提升了表格检测的准确率。本专利技术能够高准确率地检测PDF表格数据,同时考虑了多种表格的形式,提升了方法的泛化性和鲁棒性。本专利技术技术解决方案:一种针对PDF文档表格提取优化系统,包括:表格检测模块、表格角检测模块、表格角优化模块和表格边界优化模块;其中:所述的表格检测模块用于识别和定位表格,对粗表进行检测;所述的表格角检测模块用于识别和定位表格角;所述的表格角优化模块用于表格角分组和过滤劣质表格角;所述的表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。本专利技术一种针对PDF文档表格提取优化方法,具体步骤如下:步骤S1、表格检测:即使用深度学习方法进行表格识别和表格定位。所述的表格检测具体过程如下:首先,将文档图像发送到FasterR-CNN,其中骨干网采用ResNeXt-101,其后是区域生成网络和FasterR-CNN;ResNeXt-101从输入文档图像中提取特征图,然后将特征图发送到区域生成网络;区域生成网络使用特征图生成区域建议,该层使用归一化指数函数(Softmax)来确定锚点是属于前景还是背景,然后对锚点进行回归以获得准确的建议,从而实现了粗表检测。步骤S2、表格角点检测:表格角点检测通过区域生成网络实现,利用FasterR-CNN识别并定位表格角,以获得表格角的准确空间位置,本专利技术分别命名属于同一表的四个角为corner1,corner2,corner3和corner4(沿顺时针方向),它们缩写为C1,C2,C3和C4,一张表通常有一个完整的表格角组,多个表格即有多个表格角组。步骤S3、表格角优化:应用表格角组算法,过滤掉不可靠的表格角组,具体包括对表格角点分组和表格角点过滤。S31、所述的表格角点分组具体过程如下:本专利技术假设属于同一表的表格角分别为C1,C2,C3和C4。每个表格角组都有位置约束关系,C1和C2在同一水平表边界上,C1和C4在同一垂直表边界上;C2和C1在同一水平表边界上,C2和C3在同一垂直表边界上;C3和C4在同一水平表边界上,C3和C2在同一垂直表边界上,C4和C3在同一水平表边界上,C4和C1在同一垂直表边界上。属于同一表的相邻的、且非斜对角的表格角称为表格角对,一个完整的表格角组包含4组表格角对。S32、所述的表格角点过滤具体过程如下:表格角组确定了边界框,本专利技术假设边界包括C1和C2,C2和C3,C3和C4,C1和C4,其中C1和C2命名为B1,C2和C3命名为B2,C3和C4命名为B3,C4和C1命名为B4。对于每个B1,可能有多个可以匹配的B3,因为一个表格中可能存在多条B1的平行且相关的线段,这也意味着对于每个C1,可能存在多个可以匹配的C4。同样,对于每个C2,可能存在多个可以匹配的C3。由此,本专利技术通过交并比用于排除干扰表格角,区域生成网络检测到表格边框,如果交并比低于本专利技术设置的阈值,则将过滤掉这些表格角组;其中交并比在目标检测中是产生的候选框与原标记框的交叠率,即它们的交集与并集的比值。步骤S4、表格边界优化:通过使用S3中过滤后的得到的优质表格角组来确定可靠边界,再通过可靠边界优化表格边界。本专利技术比对优质表格角组确定的可靠边界和步骤S1中得到的粗表检测结果,剔除劣质的粗表检测结果。其中,使用置信因子来反映表格左右边界的可靠性,而偏差表格角分布反映了表格边界的偏差。本专利技术一种针对PDF文档表格提取优化方法及系统,其优点和功效在于:通过深度学习实现表格检测和表格角检测,应用后续处理算法过滤不可靠的表格角组。最后,在过滤不可靠的表格角后,通过可靠的表格角来调整和完善表格的边界。本专利技术能够对PDF表格数据进行高准确率的提取。附图说明图1为本专利技术针对PDF文档表格提取优化系统框图;图2为本专利技术方法表格提取优化方法框架图;图3为本专利技术方法中表边界优化示例图;图4、5为本专利技术实施例表格提取效果的展示;图6为本专利技术实施例的交并比示意图。具体实施方式以下结合附图和实施例,对本专利技术的技术方案做进一步的说明。如图1所示,本专利技术实施例提供一种针对PDF文档表格提取优化系统,包括:表格检测模块、表格角检测模块、表格角优化模块和表格边界优化模块。其中:所述的表格检测模块用于识别和定位表格,具体包括表格识别和表格定位子模块,用于粗表检测;所述的表格角检测模块具体包括表格角识别和表格角定位子模块,用于识别和定位表格角。所述的表格角优化模块具体包括表格角分组和表格角过滤子模块,用于表格角分组和过滤劣质表格角。所述的表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。如图2所示,本专利技术实施例提供一种针对PDF文档表格提取优化方法,该方法及上述针对PDF文档表格提取优化系统的具体实现步骤。该方法的步骤如下:表格检测(即粗表检测,使用深度学习方法进行表格识别和表格定位):首先,将文档图像发送到FasterR-CNN,骨干网是ResNeXt-101,其后是区域生成网络和FasterR-CNN。ResNeXt-101从输入文档图像中提取特征图,然后将要素图发送到区域生成网络。区域生成网络使用特征图生成区域建议,该层使用归一化指数函数(Softmax)来确定锚点是属于前景还是背景,然后对锚点进行回归以获得准确的建议。通过以上步骤,实现了粗表检测。其次,将区域生成网络生成的特征图和感兴趣区域一起馈送到感兴趣区域池化层。该图层将生成固定大小的特征图,FasterR-CNN充当检测器,以执行特征图的更精细分类和位置优化。最后,将特征图发送到后续的完全连接层以进行对象类别确定。表格角点检测:表格角点检测通过区域生成网络实现,并利用FasterR-CNN稍加调整。通过优化本文档来自技高网...
【技术保护点】
1.一种针对PDF文档表格提取优化系统,其特征在于:该优化系统包括:表格检测模块、表格角检测模块、表格角优化模块和表格边界优化模块;/n所述的表格检测模块用于识别和定位表格,对粗表进行检测;/n所述的表格角检测模块用于识别和定位表格角;/n所述的表格角优化模块用于表格角分组和过滤劣质表格角;/n所述的表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。/n
【技术特征摘要】
1.一种针对PDF文档表格提取优化系统,其特征在于:该优化系统包括:表格检测模块、表格角检测模块、表格角优化模块和表格边界优化模块;
所述的表格检测模块用于识别和定位表格,对粗表进行检测;
所述的表格角检测模块用于识别和定位表格角;
所述的表格角优化模块用于表格角分组和过滤劣质表格角;
所述的表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。
2.一种针对PDF文档的表格数据提取优化方法,其特征在于:该方法具体步骤如下:
步骤S1、表格检测:即使用深度学习方法进行表格识别和表格定位;
步骤S2、表格角点检测:表格角点检测通过区域生成网络实现,利用FasterR-CNN识别并定位表格角,以获得表格角的准确空间位置,一张表对应一个表格角组,一个完整的表格角组包含一张表格的4个边角,一页PDF中若包含多个表格则有多个表格角组;
步骤S3、表格角优化:应用表格角组算法,过滤掉不可靠的表格角组;
步骤S4、表格边界优化:通过使用S3中过滤后的得到的优质表格角组来确定可靠边界,再通过可靠边界优化表格边界。
3.根据权利要求2所述的针对PDF文档的表格数据提取优化方法,其特征在于:所述的表格检测具体过程如下:首先,将文档图像发送到FasterR-CNN,其中骨干网采用ResNeXt-101,其后是区域生成网络和FasterR-CNN;ResNeXt-101从输入文档图像中提取特征图,然后将特征图发...
【专利技术属性】
技术研发人员:李舟军,肖武魁,刘俊杰,陈小明,覃维,王博洋,
申请(专利权)人:深圳智能思创科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。