System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向异构文档图片的表格解析方法及设备技术_技高网

一种面向异构文档图片的表格解析方法及设备技术

技术编号:41319350 阅读:4 留言:0更新日期:2024-05-13 14:59
本发明专利技术公开一种面向异构文档图片的表格解析方法及设备,涉及计算机视觉领域,该方法包括根据异构文档图片,基于PP‑LCNet网络、CornerNet‑lo的区域提案生成模块以及Fast R‑CNN模块确定的表格检测算法,提取表格的四个顶点坐标;根据表格的四个顶点坐标,采用文本检测算法,提取表格中文本框的四点坐标;根据文本框的四点坐标,采用文本识别算法,提取文本框的内容;根据表格的四个顶点坐标,采用表格结构预测模型,得到单元格的四点坐标和表格结构信息;进行单元格坐标聚合;进行单元格和文本聚合;将聚合后的文本和单元格与表格结构信息进行组合,得到完整的表格结构。本发明专利技术能够提高信息录入的效率和准确率以及减少开销。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域,特别是涉及一种面向异构文档图片的表格解析方法及设备


技术介绍

1、表格的定义从狭义上说,一般称印有横竖线组成封闭矩形框架结构,并配有简单文字说明以指示信息填入的页面为表格。从广义上说,凡是引导人们填入某类信息的页面都称为表格。表格的特点是数据高度结构化,并且按照一定的逻辑表达信息。而表格解析通常是指在文档、图像或其他数据源中识别和提取表格的过程。在日常生活中,人们一般先用处理表格的工具显示表格数据,再进行信息提取等操作。这种人工进行表格识别的方式,带来了一些问题:

2、(1)因为表格数量众多,类型繁多复杂,人工对数据进行更新的过程中,可能会在不同的表格中写入相同的内容,或者有些单元格里的内容没有得到更新。一旦产生错误,使用人力查找错误的时间非常有限。因此人工处理表格数据往往会造成表格内容错误、信息不一致等问题,这种错误和不一致可能会有损公司声誉,甚至带来经济的损失。

3、(2)人工提取表格信息是一个繁琐而耗时的过程,公司为此需要投入大量人员同时进行这项工作,最后产生了额外的花销。

4、(3)在一些特殊的行业如金融业和制造业,表格往往以非结构化的数字文件如可移植文档格式(pdf)公开,人工难以对这些文件进行提取和处理。

5、基于上述问题,为提高信息录入的效率和准确率以及减少开销,亟需提供一种新的表格解析方法。


技术实现思路

1、本专利技术的目的是提供一种面向异构文档图片的表格解析方法及设备,能够提高信息录入的效率和准确率以及减少开销。

2、为实现上述目的,本专利技术提供了如下方案:

3、一种面向异构文档图片的表格解析方法,所述方法包括:

4、将待处理的文档转换为异构文档图片;

5、根据异构文档图片,基于pp-lcnet网络、cornernet-lo的区域提案生成模块以及fastr-cnn模块确定的表格检测算法,提取表格的四个顶点坐标;

6、根据表格的四个顶点坐标,采用文本检测算法,提取表格中文本框的四点坐标;

7、根据文本框的四点坐标,采用文本识别算法,提取文本框的内容;

8、根据表格的四个顶点坐标,采用表格结构预测模型,得到单元格的四点坐标和表格结构信息;所述表格结构预测模型包括:encoder模块和decoder模块;

9、将文本框的四点坐标和单元格的四点坐标进行iou判断,从而进行单元格的坐标聚合;iou为两个区域重叠的部分除以两个区域的集合部分得出的结果;

10、根据文本框的内容和聚合后的单元格的坐标进行单元格和文本的聚合;

11、将聚合后的文本和单元格与表格结构信息进行组合,得到完整的表格结构。

12、可选地,所述表格检测算法提取表格的四个顶点坐标的步骤为:

13、使用pp-lcnet网络作为骨干网络来计算异构文档图片的共享卷积特征图;

14、使用cornernet-lo的区域提案生成模块,检测共享卷积特征图中表格的左上角和右下角,从而生成表格提案,并对所有潜在的表格提案进行计数;

15、使用fastr-cnn模修剪非表提案和细化保留表提案的边界框。

16、可选地,所述cornernet-lo的区域提案生成模块的损失函数lcornernet为:lcornernet=ldet+αlpull+βlpush+γloff;其中,ldet是一种焦点变换损失函数,用于分类任务;loff是一种smoothl1 loss函数,用于回归任务;lpull是训练网络对顶点进行分组的损失函数;lpush用于分离顶点的损失函数;α、β和γ分别是lpull,lpush,loff的权重;

17、fast r-cnn模块的损失函数lfrcn为:其中,n是区域建议的数量,npos是正向的区域建议数量,pi和pi*是相对于groundtruth的预测概率标签,lcls是一个交叉熵损失用作分类任务,tj和tj*分别是相对于groundtruth的预测偏移量和实际偏移量,lreg是一个l1 loss用作回归任务;

18、表格检测算法的损失函数l为:l=λ·lcornernet+lfrcn;其中,λ是平衡系数。

19、可选地,所述文本检测算法为dbnet算法。

20、可选地,所述文本识别算法为crnn算法。

21、可选地,所述encoder模块使用轻量化网络pp-lcnet作为骨干网络进行提取表格特征;并且经过fpn+pan网络来对不同层次的特征进行融合。

22、可选地,所述decoder模块使用transformer来进行解码预测单元格结构。

23、一种计算机设备,包括:存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现所述方法的步骤。

24、根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:

25、本专利技术所提供的一种面向异构文档图片的表格解析方法及设备,以解析提取标准文档中的表格为背景,对当前的表格解析模型做了相应的改进。通过提出了一种轻量化的表格检测模型来提高定位表格的效率和准确率,从而保留更多的表格特征信息,如强定位特征信息和增强后的语义信息,最终使表格结构预测更加准确。本方法提高了表格识别的效率和准确率,尤其在面对复杂的表格场景时(如含有大量无框单元格场景或有大量空白单元格场景等),本专利技术相比于传统方法会有更为优异的表现。

本文档来自技高网...

【技术保护点】

1.一种面向异构文档图片的表格解析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种面向异构文档图片的表格解析方法,其特征在于,所述表格检测算法提取表格的四个顶点坐标的步骤为:

3.根据权利要求1或权利要求2所述的一种面向异构文档图片的表格解析方法,其特征在于,所述CornerNet-lo的区域提案生成模块的损失函数LCornerNet为:LCornerNet=Ldet+αLpull+βLpush+γLoff;其中,Ldet是一种焦点变换损失函数,用于分类任务;Loff是一种smoothL1Loss函数,用于回归任务;Lpull是训练网络对顶点进行分组的损失函数;Lpush用于分离顶点的损失函数;α、β和γ分别是Lpull,Lpush,Loff的权重;

4.根据权利要求1所述的一种面向异构文档图片的表格解析方法,其特征在于,所述文本检测算法为DBNet算法。

5.根据权利要求1所述的一种面向异构文档图片的表格解析方法,其特征在于,所述文本识别算法为CRNN算法。

6.根据权利要求1所述的一种面向异构文档图片的表格解析方法,其特征在于,所述encoder模块使用轻量化网络PP-LCNet作为骨干网络进行提取表格特征;并且经过FPN+PAN网络来对不同层次的特征进行融合。

7.根据权利要求1所述的一种面向异构文档图片的表格解析方法,其特征在于,所述decoder模块使用Transformer来进行解码预测单元格结构。

8.一种计算机设备,包括:存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种面向异构文档图片的表格解析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种面向异构文档图片的表格解析方法,其特征在于,所述表格检测算法提取表格的四个顶点坐标的步骤为:

3.根据权利要求1或权利要求2所述的一种面向异构文档图片的表格解析方法,其特征在于,所述cornernet-lo的区域提案生成模块的损失函数lcornernet为:lcornernet=ldet+αlpull+βlpush+γloff;其中,ldet是一种焦点变换损失函数,用于分类任务;loff是一种smoothl1loss函数,用于回归任务;lpull是训练网络对顶点进行分组的损失函数;lpush用于分离顶点的损失函数;α、β和γ分别是lpull,lpush,loff的权重;

4.根据权利要求1所述的一种面向异构文档图...

【专利技术属性】
技术研发人员:程渤邱柄皓陈俊亮
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1