当前位置: 首页 > 专利查询>浙江大学专利>正文

一种针对全框线表格的表格区域识别提取方法及系统技术方案

技术编号:43750233 阅读:39 留言:0更新日期:2024-12-20 13:08
本发明专利技术公开了一种针对全框线表格的表格区域识别提取方法及系统,包括:生成表格文档图像数据集,构建深度学习模型,包括图像共享编码层、列区域识别解码层和表格总区域识别解码层,图片通过图像共享编码层后分别输入列区域识别解码层和表格区域识别解码层两个分支,得到表格和列区域的掩膜;通过表格文档图像像素水平累加值确定每条行分隔线的纵坐标;进行模型训练,将表格图像输入到训练好的模型中,使用光学字符识别进行文档图像中表格区域文本内容的识别提取并使用Excel的格式展示。本发明专利技术解决了对图像及其他非结构性文档中表格区域文本内容识别提取困难的问题和表格结构识别准确率低造成表格所含文本内容识别提取效果不佳的问题。

【技术实现步骤摘要】

本专利技术涉及表格检测和表格结构识别,尤其涉及一种针对全框线表格的表格区域识别提取方法及系统


技术介绍

1、表格区域文本内容识别提取的工作主要集中在表格区域检测、表格结构识别和文本字符内容识别等方面。目前主流的方法如下:一、使用基于启发式规则或者简单的机器学习算法,依赖于图像预处理和文档分析获得的线条、文本块等视觉信息,或者依赖于pdf编码中自带的一些文字信息来检测表格所在区域并完成表格结构识别;二、将表格检测作为语义分割或目标检测领域的一个具体应用,使用深度学习方法进行表格检测。由于表格的特殊结构,因此既可以将行列作为目标检测的对象,也可以将行之间和列之间的分隔符作为目标检测的对象,使用目标检测、图像分割和图神经网络等深度学习方法进行表格结构识别。

2、现有技术存在的缺点在于:(1)基于启发式规则的表格识别方法设计起来较为复杂,在各种场景的表格识别中难以获得较高的准确度,而且鲁棒性相对较差;(2)深度学习方法中针对表格行与列的目标检测与识别在表格结构上取得了很高的识别准确率,但是对于表格中包含的文本内容,单纯的整行或整列识别效果不佳;(3)本文档来自技高网...

【技术保护点】

1.一种针对全框线表格的表格区域识别提取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种针对全框线表格的表格区域识别提取方法,其特征在于,所述生成表格文档图像数据集包括:

3.根据权利要求1所述的一种针对全框线表格的表格区域识别提取方法,其特征在于,所述TDEM端到端深度学习模型中,图像共享编码层具体为:

4.根据权利要求3所述的一种针对全框线表格的表格区域识别提取方法,其特征在于,所述列区域识别解码层包括:卷积层conv7 column和1x1卷积conv8 column层,在1x1卷积conv8 column层之后带有ReLU激活函数...

【技术特征摘要】

1.一种针对全框线表格的表格区域识别提取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种针对全框线表格的表格区域识别提取方法,其特征在于,所述生成表格文档图像数据集包括:

3.根据权利要求1所述的一种针对全框线表格的表格区域识别提取方法,其特征在于,所述tdem端到端深度学习模型中,图像共享编码层具体为:

4.根据权利要求3所述的一种针对全框线表格的表格区域识别提取方法,其特征在于,所述列区域识别解码层包括:卷积层conv7 column和1x1卷积conv8 column层,在1x1卷积conv8 column层之后带有relu激活函数和与图像共享编码层相同丢弃概率的丢弃层,使用分数步幅卷积对特征图进行上采样;上采样的特征图与图像共享编码层第四池化层相结合,然后再与相同维度的图像共享编码层第三池化层相结合,然后将特征图放大到原始图像尺寸。

5.根据权利要求3所述的一种针对全框线表格的表格区域识别提取方法,其特征在于,所述表格总区域识别解码层使用了额外的1x1卷积层conv7 table,onv7 table层的输出使用分数步幅卷积进行放大,并与相同维度的图像共享编码层第四池化层相结合,组合特征图再次被...

【专利技术属性】
技术研发人员:王哲陆哲明罗浩郑阳明
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1