一种从文档图像中定位表格的深度学习方法技术

技术编号:35639405 阅读:24 留言:0更新日期:2022-11-19 16:30
本发明专利技术涉及一种从文档图像中定位表格的深度学习方法,属于目标检测技术领域。首先将所获取的文档图像进行霍夫变换,检测图中包含的线段;将原图像和线段信息输入训练后的检测模型,其中,检测模型包含两个分支,分别用于表格边界框预测和线段分类;结合线段的分类结果,对表格边界框进行修正,得到更加准确的边界框坐标。检测模型训练时,根据表格边界框的分类回归损失和线段的分类损失优化参数,整个模型采用随机梯度下降法进行训练,取所有损失之和最小的一组参数作为最终检测模型的参数;本发明专利技术在传统目标检测模型的基础上,引入了科研文献中大量存在的表格框线信息,提高了模型定位表格坐标的准确度。定位表格坐标的准确度。定位表格坐标的准确度。

【技术实现步骤摘要】
一种从文档图像中定位表格的深度学习方法


[0001]本专利技术涉及一种从文档图像中定位表格的深度学习方法,属于目标检测


技术介绍

[0002]随着信息技术的发展,现代社会的生产和科研活动会产生大量电子文档;许多重要的信息如研究人员的实验数据,分析结果等,会以表格的形式存在于文档中,于是在图像形式的文档中提取表格内容成为文档分析任务的一项重要问题。在提取表格信息之前要先确定文档中表格元素的位置,提取文献中的表格元素,再做进一步处理。当前,研究人员主要采用目标检测或图像分割的方法确定表格坐标。这类方法已经能够很好地从文档中识别出表格,但预测的表格坐标会有一定偏差,从而丢失部分表格信息。因此,研究一种能减少表格定位误差,保留表格完整内容的方法具有重要意义。

技术实现思路

[0003]本专利技术要解决的技术问题是提供一种从文档图像中定位表格的深度学习方法,能够减轻表格内容丢失的程度,解决上述问题。
[0004]本专利技术的技术方案是:一种在文档图像中定位表格的方法,具体步骤为:
[0005]Step1:收集包含表格的PDF电子文档。
[0006]Step2:将PDF文档页面转换为图像,并将图像划分为训练集、验证集和测试集。
[0007]Step3:提取Step2所述图像中包含的线段,并用线段两端点坐标表示,将所述训练集与验证集的图像及其对应的线段坐标输入到检测模型中训练,根据线段的分类损失和边界框的分类回归损失优化模型参数,取训练过程中损失最小的一组参数,做为模型最后使用的参数。
[0008]Step4:将所述测试集图像和其对应的线段坐标包含表格的文档图像输入训练后的检测模型,得到线段分类结果和待修正表格边界框,通过修正模块结合线段分类结果对表格边界框进行优化,得到最终表格坐标。
[0009]所述Step1中获取的文档图像数据集,通过labelme工具对其进行标注。
[0010]所述Step2中,将数据集中的文档图像按照70%、10%、20%的比例随机划分为训练集、验证集和测试集。
[0011]所述Step3中,通过opencv软件库提供的霍夫变换方法,提取文档图像中的线段。
[0012]Step3中所述检测模型由主干网络和预测网络组成。
[0013]所述主干网络为残差网络(具体为ResNet50)结合特征金字塔的结构,将该主干网络在ImageNet分类任务上预训练后得到的权重用于参数的初始化。经主干网络处理图片后得到5种不同尺度,256维的特征图。
[0014]所述预测网络为R

CNN框架,包含两条并行分支:
[0015]分支一:为Cascade R

CNN结构,去除了mask分支,减少了模型的参数量,提高了模
型推理速度,用于预测表格边界框。
[0016]分支二:接收图像中的线段信息,对线段进行二分类,给出分类概率。
[0017]所述分支二进行线段分类的具体步骤为:
[0018](1)获取线段位置,其位置信息由线段两端点的坐标给出。
[0019](2)滤除倾斜线段,保留水平线和垂直线。
[0020](3)根据线段坐标,以线段的中点为中心,在原图上生成矩形投影区域。根据线段种类不同,投影区域宽高比也不同。对于水平线段,则以线段长度为宽,生成宽高比为4:1的矩形投影。对于垂直线段,则生成以线段长度为高,宽高比为1:4的矩形投影。
[0021](4)根据原图上的矩形投影,在特征图上裁剪出感兴趣特征区域,并对特征区域进行ROI Align操作,然后展平处理,得到特征向量。送入全连接网络进行二分类,若该线段是表格外框线则归为正类,否则归为负类。
[0022]分支二本质与其他RCNN算法相同,都是对特征图的投影进行分类。不同的是,其它RCNN算法的投影区域是由一个区域建议网络(RPN)生成,这会得到大量无用的投影区域。在后续的神经网络还要对投影出的特征区域进行分类和回归任务。而分支二直接根据霍夫变换得到的线段生成投影区域,大大减少了无用投影区的生成,且因为线段坐标已经由霍夫变换算法检出,后续神经网络专注于分类任务即可。
[0023]所述Step4中,修正模块结合每条线段的分类结果对表格边界框进行优化调整,其对预测结果的具体修正步骤为:
[0024]Step4.1:拆分表格边界框,具体为:
[0025]将预测网络分支一预测的某个表格边界框T拆分为四条待修正线段,线段以两端点坐标表示,其过程表示为:
[0026][0027]其中,x1、y1为表格边界框左上角坐标,x2、y2为表格边界框右下角坐标。
[0028]将拆分边界框后得到的四条线段的坐标储存在待修正矩阵L中,其中,L
t
= [x
1 y
1 x
2 y1]表示边界框拆分后,位于上方线段,L
r
、L
b
、L
l
分别表示拆分边界框后,位于右、下、左方的线段。
[0029]Step4.2:过滤负类线段,具体为:
[0030]取预测网络分支二预测的正类概率超过0.9的线段,得到目标线段集合 {H1,H2…
,H
n
},其对应的分类概率为{k1,k2…
,k
n
}。
[0031]Step4.3:匹配目标线段,具体为:
[0032]对每个待修正线段L
i
=[l
x1
,l
y1
,l
x2
,l
y2
],遍历目标线段集合,若有目标线段 H
j
=[h
x1
,h
y1
,h
x2
,h
y2
],符合:
[0033][0034]其中:
[0035][0036]则称目标线段H
j
在待修正线段L
i
的匹配范围之内。
[0037]在待修正线段的匹配范围内寻找正类概率最高的目标线段的过程可称之为匹配。
[0038]在所述Step4.2中得到的目标线段集合{H1,H2…
,H
n
}中,寻找与L
t
、L
r
、L
b
、L
l
匹配的目标线段,分别记作H
t
、H
r
、H
b
、H
l
,并记录其为正类的概率,可得匹配矩阵L


[0039][0040][0041]其中,i=t,r,b,l。
[0042]Step4.4:融合匹配成功的目标线段,对边界框进行修正,具体为:
[0043]取待修正的表格边界框T=[x1,y1,x2,y2]的中心点坐标x
c
、y
c本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在文档图像中定位表格的方法,其特征在于:Step1:收集包含表格的PDF电子文档;Step2:将PDF文档页面转换为图像,并将图像划分为训练集、验证集和测试集;Step3:提取Step2所述图像中包含的线段,并用线段两端点坐标表示,将所述训练集与验证集的图像及其对应的线段坐标输入到检测模型中训练,根据线段的分类损失和边界框的分类回归损失优化模型参数,取训练过程中损失最小的一组参数,做为模型最后使用的参数;Step4:将所述测试集图像和其对应的线段坐标包含表格的文档图像输入训练后的检测模型,得到线段分类结果和待修正表格边界框,通过修正模块结合线段分类结果对表格边界框进行优化,得到最终表格坐标。2.根据权利要求1所述的在文档图像中定位表格的方法,其特征在于:所述Step1中获取的文档图像数据集,通过labelme工具对其进行标注。3.根据权利要求1所述的在文档图像中定位表格的方法,其特征在于:所述Step3中,通过opencv软件库提供的霍夫变换方法,提取文档图像中的线段。4.根据权利要求1所述的在文档图像中定位表格的方法,其特征在于:Step3中所述检测模型由主干网络和预测网络组成;所述主干网络为残差卷积结合特征金字塔的结构,用于提取特征图;所述预测网络包含两条并行分支:分支一:为传统R

CNN目标检测框架,用于预测表格边界框;分支二:接收图像中的线段信息,对线段进行二分类,给出分类概率。5.根据权利要求4所述的在文档图像中定位表格的方法,其特征在于,所述分支二具体为:(1)获取线段位置,其位置信息由线段两端点的坐标给出;(2)滤除倾斜线段,保留水平线和垂直线;(3)根据线段坐标,以线段的中点为中心,在原图上生成矩形投影区域;根据线段种类不同,投影区域宽高比也不同;对于水平线段,则以线段长度为宽,生成宽高比为4:1的矩形投影;对于垂直线段,则生成以线段长度为高,宽高比为1:4的矩形投影;(4)根据原图上的矩形投影,在特征图上裁剪出感兴趣特征区域,并对特征区域进行ROI Align操作,然后展平处理,得到特征向量;送入全连接网络进行二分类,若该线段是表格外框线则归为正类,否则归为负类。6.根据权利要求5所述的在文档图像中定位表格的方法,其特征在于:所述Step4中,修正模块结合每条线段的分类结果对表格边界框进行优化调整,其对预测结果的具体修正步骤为:Step4.1:拆分表格边界框,具体为:将预测网络分支一预测的某个表格边界框T拆分为四条待修正线段,线段以两端点坐标表示,其过程表示为:
其中,x1、y1为表格边界框左上角坐标,x2、y2为表格边界框右下角坐标;将拆分边界框后得到的四条线段的坐标储存在待修正矩阵L...

【专利技术属性】
技术研发人员:刘英莉郑剑锋沈韬张广涛
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1