一种从文档图像中定位表格的深度学习方法技术

技术编号：35639405 阅读：24 留言：0更新日期：2022-11-19 16:30

本发明专利技术涉及一种从文档图像中定位表格的深度学习方法，属于目标检测技术领域。首先将所获取的文档图像进行霍夫变换，检测图中包含的线段；将原图像和线段信息输入训练后的检测模型，其中，检测模型包含两个分支，分别用于表格边界框预测和线段分类；结合线段的分类结果，对表格边界框进行修正，得到更加准确的边界框坐标。检测模型训练时，根据表格边界框的分类回归损失和线段的分类损失优化参数，整个模型采用随机梯度下降法进行训练，取所有损失之和最小的一组参数作为最终检测模型的参数；本发明专利技术在传统目标检测模型的基础上，引入了科研文献中大量存在的表格框线信息，提高了模型定位表格坐标的准确度。定位表格坐标的准确度。定位表格坐标的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种从文档图像中定位表格的深度学习方法

[0001]本专利技术涉及一种从文档图像中定位表格的深度学习方法，属于目标检测

技术介绍

[0002]随着信息技术的发展，现代社会的生产和科研活动会产生大量电子文档；许多重要的信息如研究人员的实验数据，分析结果等，会以表格的形式存在于文档中，于是在图像形式的文档中提取表格内容成为文档分析任务的一项重要问题。在提取表格信息之前要先确定文档中表格元素的位置，提取文献中的表格元素，再做进一步处理。当前，研究人员主要采用目标检测或图像分割的方法确定表格坐标。这类方法已经能够很好地从文档中识别出表格，但预测的表格坐标会有一定偏差，从而丢失部分表格信息。因此，研究一种能减少表格定位误差，保留表格完整内容的方法具有重要意义。

技术实现思路

[0003]本专利技术要解决的技术问题是提供一种从文档图像中定位表格的深度学习方法，能够减轻表格内容丢失的程度，解决上述问题。
[0004]本专利技术的技术方案是：一种在文档图像中定位表格的方法，具体步骤为：
[0005]Step1：收集包含表格的PDF电子文档。
[0006]Step2：将PDF文档页面转换为图像，并将图像划分为训练集、验证集和测试集。
[0007]Step3：提取Step2所述图像中包含的线段，并用线段两端点坐标表示，将所述训练集与验证集的图像及其对应的线段坐标输入到检测模型中训练，根据线段的分类损失和边界框的分类回归损失优化模型参数，取训练过程中损失最小的一组参数，做为模型最后...

【技术保护点】

【技术特征摘要】
1.一种在文档图像中定位表格的方法，其特征在于：Step1：收集包含表格的PDF电子文档；Step2：将PDF文档页面转换为图像，并将图像划分为训练集、验证集和测试集；Step3：提取Step2所述图像中包含的线段，并用线段两端点坐标表示，将所述训练集与验证集的图像及其对应的线段坐标输入到检测模型中训练，根据线段的分类损失和边界框的分类回归损失优化模型参数，取训练过程中损失最小的一组参数，做为模型最后使用的参数；Step4：将所述测试集图像和其对应的线段坐标包含表格的文档图像输入训练后的检测模型，得到线段分类结果和待修正表格边界框，通过修正模块结合线段分类结果对表格边界框进行优化，得到最终表格坐标。2.根据权利要求1所述的在文档图像中定位表格的方法，其特征在于：所述Step1中获取的文档图像数据集，通过labelme工具对其进行标注。3.根据权利要求1所述的在文档图像中定位表格的方法，其特征在于：所述Step3中，通过opencv软件库提供的霍夫变换方法，提取文档图像中的线段。4.根据权利要求1所述的在文档图像中定位表格的方法，其特征在于：Step3中所述检测模型由主干网络和预测网络组成；所述主干网络为残差卷积结合特征金字塔的结构，用于提取特征图；所述预测网络包含两条并行分支：分支一：为传统R
‑
CNN目标检测框架，用于预测表格边界框；分支二：接收图像中的线段信息，对线段进行二分类，给出分类概率。5.根据权利要求4所述的在文档图像中定位表格的方法，其特征在于，所述分支二具体为：(1)获取线段位置，其位置信息由线段两端点的坐标给出；(2)滤除倾斜线段，保留水平线和垂直线；(3)根据线段坐标，以线段的中点为中心，在原图上生成矩形投影区域；根据线段种类不同，投影区域宽高比也不同；对于水平线段，则以线段长度为宽，生成宽高比为4：1的矩形投影；对于垂直线段，则生成以线段长度为高，宽高比为1：4的矩形投影；(4)根据原图上的矩形投影，在特征图上裁剪出感兴趣特征区域，并对特征区域进行ROI Align操作，然后展平处理，得到特征向量；送入全连接网络进行二分类，若该线段是表格外框线则归为正类，否则归为负类。6.根据权利要求5所述的在文档图像中定位表格的方法，其特征在于：所述Step4中，修正模块结合每条线段的分类结果对表格边界框进行优化调整，其对预测结果的具体修正步骤为：Step4.1：拆分表格边界框，具体为：将预测网络分支一预测的某个表格边界框T拆分为四条待修正线段，线段以两端点坐标表示，其过程表示为：
其中，x1、y1为表格边界框左上角坐标，x2、y2为表格边界框右下角坐标；将拆分边界框后得到的四条线段的坐标储存在待修正矩阵L...

【专利技术属性】
技术研发人员：刘英莉，郑剑锋，沈韬，张广涛，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人