System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种针对密集型表格的结构自动识别方法技术_技高网

一种针对密集型表格的结构自动识别方法技术

技术编号:41251032 阅读:4 留言:0更新日期:2024-05-09 23:59
本发明专利技术公开了一种针对密集型表格的结构自动识别方法,具体为:表格图像经过预处理,对图片做初步的调整;经过预处理的表格图片输入我们提出的DTableNet神经网络模型中;输入的表格经过骨干网络进行特征的初步提取;经过初步提取的特征,经过行和列分隔符预测模块,分别提取行分隔符和列分隔符的位置;通过合并单元格预测模块,得到各合并单元格坐标;行列分隔符位置和合并单元格坐标经过启发式算法的后处理,便可得到表格结构。本发明专利技术能够完成表格的结构识别,避免了人工录入表格结构,减小了相关人员的工作量;同时解决了在密集场景下,主流表格结构识别方法容易将多个独立的行识别为一行的情况,使得密集型表格的识别结果更加准确。

【技术实现步骤摘要】

本专利技术属于人工智能领域,尤其涉及一种针对密集型表格的结构自动识别方法


技术介绍

1、表格作为结构化信息的重要承载媒介,在出版、财务报告、发票和网页等多个领域发挥着关键作用。然而,手动处理大量表格数据既耗时又容易出错。为了提高效率和准确性,表格识别技术应运而生。表格结构识别(tsr)的目标是自动将图像或扫描文档中的表格结构与内容转化为计算机可理解的结构化数据形式,以实现对表格信息的自动处理和应用。传统的表格结构识别以启发式算法为主,而且对表格的结构做出了限定,因此往往只能处理简单的pdf文件等。而近年来,基于深度学习的方法在密集型表格识别任务上效果表现不好。

2、密集型表格指平均单元格高度很小的表格。本专利技术主要对密集型表格的结构自动识别进行了研究,设计了一种识别更加准确且速度更快的密集型表格识别方法。在实际应用中,如果能够快速准确的识别出表格结构,将大大简化手动处理过程。


技术实现思路

1、为了解决上述存在的问题,本专利技术提供一种针对密集型表格的结构自动识别方法。

2、本专利技术的一种针对密集型表格的结构自动识别方法,包括以下步骤:

3、步骤1:表格图片经过预处理,对图片做初步的调整。

4、步骤2:将一张表格图片输入dtablenet神经网络模型中;dtablenet神经网络模型包含骨干网络、行分隔符预测模块、列分隔符预测模块、合并单元格预测模块四部分。

5、步骤3:输入的表格经过骨干网络进行特征的初步提取。p>

6、步骤4:经过初步提取的特征,经过行和列分隔符预测模块,分别提取行分隔符和列分隔符的位置。

7、步骤5:经过初步提取的特征,通过合并单元格预测模块,得到各个合并单元格的坐标。

8、步骤6:行列分隔符位置和合并单元格坐标经过启发式算法的后处理,便得到表格结构。

9、步骤1对图片的预处理主要包括背景填充、缩放、归一化、前景增强等操作,其中,背景填充采用自适应填充方法,填充的方法步骤为:

10、①计算待填充区域(填充在原图右方或者下方)。

11、②对原始图片rgb三通道值分别进行2分类聚类,得到前景值和背景值。

12、③将聚类得到的背景rgb值填充到待填充区域。

13、缩放将图片尺寸统一;

14、归一化公式为:

15、

16、其中,value为归一化值,cori为原始像素值,cmax和cmin为整张图片的最大最小值。

17、前景增强对图像进行gamma非线性变换,公式为:

18、vout=avinγ   (2)

19、其中,vin为输入像素值,vout为输出像素值,a=2,γ=1.3。

20、进一步的,dtablenet神经网络的骨干网络为残差网络resnet18+金字塔特征融合网络bifpn,包含若干卷积层、4个残差块(residual block)、4个上采样层和4个下采样层。

21、行/列分隔符预测模块由cbam集成注意力模块、spatical cnn模块和特征投影模块组成,包含若干卷积层、池化层、上采样层和反卷积层;cbam集成注意力模块由空间注意力和通道注意力构成;spatical cnn(scnn)模块为空间cnn模块,由卷积层构成,将特征矩阵进行切片卷积相加,以保证特征能够充分的传递和利用;特征投影模块通过反卷积逐步将特征图尺度放大,并通过卷积和转置卷积将三维特征矩阵逐步投影到一维。

22、合并模块由卷积层、池化层、全卷积层和特征对齐模块roipooling构成,特征对齐模块将不同尺寸的特征采样到相同尺寸,保证在输入尺寸不同的情况下,输入到预测头的特征尺寸不变。

23、进一步的,dtablenet神经网络输出的行列分隔符和合并单元格坐标三部分信息会和真实值对比,经过l1 loss和smoothl1 loss损失函数得到各部分的损失,指导更新整个网络的参数值,循环往复,直到网络收敛。

24、进一步的,在自动识别表格结构时,先取行和列分隔符预测模块的输出,经过交叉得到精细的表格结构,再将由合并单元格预测模块输出的合并单元格位置带入其中,既得到完整的表格结构。

25、本专利技术的有益技术效果为:

26、本专利技术能够完成表格的结构识别,避免了人工录入表格结构,减小了相关人员的工作量。同时,本专利技术解决在密集场景下,主流表格结构识别方法容易将多个独立的行识别为一行的情况,使得密集型表格的识别结果更加准确。

本文档来自技高网...

【技术保护点】

1.一种针对密集型表格的结构自动识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对密集型表格的结构自动识别方法,其特征在于,所述步骤1对图片的预处理主要包括背景填充、缩放、归一化、前景增强等操作,其中,背景填充采用自适应填充方法,填充的方法步骤为:

3.根据权利要求1所述的一种针对密集型表格的结构自动识别方法,其特征在于,所述DTableNet神经网络的骨干网络为残差网络ResNet18+金字塔特征融合网络BiFPN,包含若干卷积层、4个残差块、4个上采样层和4个下采样层;

4.根据权利要求1所述的一种针对密集型表格的结构自动识别方法,其特征在于,所述DTableNet神经网络输出的行列分隔符和合并单元格坐标三部分信息会和真实值对比,经过L1 loss和SmoothL1 loss损失函数得到各部分的损失,指导更新整个网络的参数值,循环往复,直到网络收敛。

5.根据权利要求1所述的一种针对密集型表格的结构自动识别方法,其特征在于,在自动识别表格结构时,先取行和列分隔符预测模块的输出,经过交叉得到精细的表格结构,再将由合并单元格预测模块输出的合并单元格位置带入其中,既得到完整的表格结构。

...

【技术特征摘要】

1.一种针对密集型表格的结构自动识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对密集型表格的结构自动识别方法,其特征在于,所述步骤1对图片的预处理主要包括背景填充、缩放、归一化、前景增强等操作,其中,背景填充采用自适应填充方法,填充的方法步骤为:

3.根据权利要求1所述的一种针对密集型表格的结构自动识别方法,其特征在于,所述dtablenet神经网络的骨干网络为残差网络resnet18+金字塔特征融合网络bifpn,包含若干卷积层、4个残差块、4个上采样层和4个下采样层;

【专利技术属性】
技术研发人员:王宇李华闫连山方少锋
申请(专利权)人:西南交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1