System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() PDF文件中无线表格的还原方法、设备及存储介质技术_技高网

PDF文件中无线表格的还原方法、设备及存储介质技术

技术编号:40662370 阅读:5 留言:0更新日期:2024-03-18 18:55
本发明专利技术涉及文件预处理技术领域,公开了PDF文件中无线表格的还原方法、设备及存储介质。该方法先获取PDF文件的文本单元集合。基于目标检测算法定位PDF文件图像中的无线表格及少线表格位置,获取页面表格信息集合。根据页面表格信息生成表格文本单元集合。确定表格文本单元集合中的最大列数行,获得表格列边界集合。基于表格列边界补全表格内部的空白单元格,生成表格单元格集合。提取列文本片段的语义特征以获取跨行特征表示。基于跨列单元格坐标位置与表格列边界的比较结果,生成行单元格文本的跨列特征表示,以得到表格单元格的跨行跨列合并特征表示,据此对无线表格进行还原。本发明专利技术实现对PDF表格的准确还原。

【技术实现步骤摘要】

本专利技术涉及文件预处理,具体而言,涉及一种pdf文件中无线表格的还原方法、设备及存储介质。


技术介绍

1、上市公司的财务报表、年度报告、股东通讯等文档是投资者和分析师评估企业价值和投资潜力的重要依据。通过对这些公开文档进行关键信息抽取,特别是对于表格数据,可以提供给投资者有价值的数据参考,让投资者可以更全面地了解上市企业的经营状况、财务表现、战略规划、风险管理等方面的情况,从而辅助他们做出投资决策。这些文档通常以pdf格式发布,以保持其原始格式和可视性。但是,pdf格式只保存绘制视觉内容,比如字形、线条等等,不包含任何结构信息,这对文档关键信息抽取的自动化流程产生了重大限制,由于无线表格拥有良好的可视化效果和实时更新的优点,港股财务报表、国内上市公司财务附注等大多采用无线表格进行发布。对于无线表格而言,其特点是缺乏线条特征,并且经常出现跨行跨列的单元格表示,这给其还原带来了更大的挑战。

2、传统方法对无线或少线表格的还原大多使用基于启发式规则对表格检测与识别,但对于复杂场景下表格来说,鲁棒性相对较差。近年来,也有少数研究人员仅从图像出发利用图像检测和分割技术提取字符及线条信息,从而实现无线或少线表格的还原。但是,由于舍弃了pdf本身字符信息,导致字符抽取的准确率严重受到图像文字检测技术的影响,尤其对于单元格密集、弯曲等情况的困难样本尤为明显,线条检测加入模型也会延长还原的时间。另外,少数研究人员提出使用图像检测进行单元格合并处理,但仅从图像特征进行单元格合的准确率存在欠缺。因此,如何准确还原pdf文件中的无线表格仍是一个亟待解决的问题。


技术实现思路

1、为了避免和克服现有技术中存在的技术问题,本专利技术提供了一种pdf文件中无线表格的还原方法、设备及存储介质。本专利技术通过在进行无线表格还原时,能够综合利用pdf字符信息、图像信息、单元格语义信息,有针对性地设计算法,快速且准确地学习出数据特征表示,从而提高pdf文件中无线表格还原的准确性和精度。

2、为实现上述目的,本专利技术提供如下技术方案:

3、本专利技术公开一种pdf文件中无线表格的还原方法,包括以下步骤,即s1~s8。

4、s1.获取pdf文件的文本单元集合。

5、s2.基于目标检测算法定位pdf文件图像中的无线表格及少线表格位置,从而获取页面表格信息集合。

6、s3.根据页面表格信息划定表格区域内对应的文本单元,从而生成表格文本单元集合。

7、s4.确定表格文本单元集合中的最大列数行,据此获得表格列边界集合。

8、s5.基于表格列边界补全表格内部的空白单元格,生成调整后的表格单元格集合。

9、s6.提取列文本片段的语义特征以获取列文本片段的跨行特征表示。

10、s7.基于跨列单元格坐标位置与表格列边界的比较结果,生成行单元格文本的跨列特征表示,从而结合列文本片段的跨行特征表示以得到表格单元格的跨行跨列合并特征表示。

11、s8.基于表格单元格集合中的文本单元信息以及所述跨行跨列合并特征表示,对无线表格进行还原。

12、作为上述方案的进一步改进,步骤s1包括以下具体步骤,即s11~s14。

13、s11.获取pdf文件的底层文本字符集合p={p1,p2,…,pk,…,pk};其中k为pdf文件的总页数,pk为第k页的字符信息集合,m为第k页的字符总个数,为第k页的第m个字符信息;字符信息是包含字符内容信息char和字符位置信息的列表,记为c=[xmin,ymin,xmax,ymax,char],其中xmin和xmax分别为字符横坐标的最小值和最大值,ymin和ymax分别为字符纵坐标的最小值和最大值。

14、s12.设置相邻文本块阈值δ及行阈值β,对第k页所有字符信息中的ymin进行倒序排列,低于行阈值β的为一行数据,从而生成第k页的行字符集合d为行字符集合的总行数,为第k页第d行的字符集合,即其中表示第d行的第s个字符信息,s表示第d行包含的字符个数。

15、s13.对单行的字符集合中的所有字符信息按照xmin的大小进行升序排列,若相邻字符的间隔大于文本块阈值δ,即则将视为下一个文本单元中的字符信息,从而得到第k页第d行的文本单元集合i为第d行包含的文本单元总个数,为第d行的第i个文本单元且表示为其中,xmin为文本单元横坐标最小值,对应文本单元中第一个字符信息的xmin;xmax为文本单元横坐标最大值,对应文本单元中最后一个字符信息的xmax;ymin和ymax取文本单元第一个字符信息的ymin和ymax,text由文本单元内的所有字符信息拼接而成。

16、s14.参照步骤s12~s13的方式获取行字符集合rk中所有行的文本单元集合,得到第k页的页面文本单元集合从而获取所有页的页面文本单元集合。

17、作为上述方案的进一步改进,步骤s2包括以下具体步骤,即s21~s22。

18、s21.将pdf文件按页渲染成图像,生成图像流集合。

19、s22.基于目标检测算法定位无线表格及少线表格位置,获得页面表格信息集合,记为f={f1,f2,…,fk,…,fk};其中,fk为第k页图像页面的表格检测集合,记为表示检测到的第n个表格信息,n为检测出无线表格及少线表格的总数;表格信息包含表格的坐标位置及该位置对应目标检测到的对象是表格的置信度conf,记为f=[fxmin,fymin,fxmax,fymax,conf],其中fxmin和fxmax分别为表格区块横坐标的最小值和最大值;fymin和fymax分别为表格区块纵坐标的最小值和最大值。

20、作为上述方案的进一步改进,步骤s3中,所述表格文本单元集合的表示如下:

21、

22、其中,为第k页的第n个表格的文本单元集合,dn表示该表格总行数,id’表示第d’行的文本单元个数;每个表格内的任一文本单元均满足以下条件:fymin≤ymin<ymax≤fymax;d’∈[1,…,dn]。

23、作为上述方案的进一步改进,步骤s4包括以下具体步骤,即s41~s46。

24、s41.确定页面的最大列数行集合,表示为:

25、

26、其中,为第k页的最大列数行集合,dn’表示该集合的总行数,maxcol为i1,i2,…,idn中的最大值,该集合是由所有文本单元个数为maxcol的行组成;d”∈[1,…,dn’]。

27、根据最大列数行集合生成最小最大坐标集合λ={λ1,λ2,…,λj,…,λmax col},其中λj=[λj,min,λj,max],λj,min为最大列数行集合中第j列文本单元xmin的最小值,λj,max为最大列数行集合中第j列文本单元xmax的最大值。

28、s42.根据最小最大坐标集合λ生成空白像素边界集合o,记为o={o1,…,oj,…,omaxcol-1},其中,oj=[λj,本文档来自技高网...

【技术保护点】

1.PDF文件中无线表格的还原方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的PDF文件中无线表格的还原方法,其特征在于,步骤S1包括以下具体步骤:

3.根据权利要求2所述的PDF文件中无线表格的还原方法,其特征在于,步骤S2包括以下具体步骤:

4.根据权利要求3所述的PDF文件中无线表格的还原方法,其特征在于,步骤S3中,所述表格文本单元集合的表示如下:

5.根据权利要求4所述的PDF文件中无线表格的还原方法,其特征在于,步骤S4包括以下具体步骤:

6.根据权利要求5所述的PDF文件中无线表格的还原方法,其特征在于,

7.根据权利要求6所述的PDF文件中无线表格的还原方法,其特征在于,

8.根据权利要求1所述的PDF文件中无线表格的还原方法,其特征在于,步骤S8中,采用html格式对表格信息进行还原,使用的标签信息包括<table>\</table>、<tr>\</tr>、<td>\</td>;其中,基于列文本片段的跨行特征表示,确定<td>标签的colspan属性值;基于行单元格文本的跨列特征表示,确定<td>标签的rowspan属性值。

9.一种计算机设备,包括处理器和存储器,其特征在于,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现如权利要求1至8任意一项所述的PDF文件中无线表格的还原方法。

10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任意一项所述的PDF文件中无线表格的还原方法。

...

【技术特征摘要】

1.pdf文件中无线表格的还原方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的pdf文件中无线表格的还原方法,其特征在于,步骤s1包括以下具体步骤:

3.根据权利要求2所述的pdf文件中无线表格的还原方法,其特征在于,步骤s2包括以下具体步骤:

4.根据权利要求3所述的pdf文件中无线表格的还原方法,其特征在于,步骤s3中,所述表格文本单元集合的表示如下:

5.根据权利要求4所述的pdf文件中无线表格的还原方法,其特征在于,步骤s4包括以下具体步骤:

6.根据权利要求5所述的pdf文件中无线表格的还原方法,其特征在于,

7.根据权利要求6所述的pdf文件中无线表格的还原方法,其特征在于,

8.根据权利要求1所述的pdf文件中无线表格的还原方法,其特征在于,步骤...

【专利技术属性】
技术研发人员:冯卫强张友豪朱珊珊黄帅
申请(专利权)人:合肥大智慧财汇数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1