一种PDF转Word场景下跨行、跨列单元格识别方法、系统、装置及介质制造方法及图纸

技术编号:43986930 阅读:21 留言:0更新日期:2025-01-10 20:09
本发明专利技术属于PDF文件解析技术领域,提供了一种PDF转Word场景下跨行、跨列单元格识别方法、系统、装置及介质,其中,方法包括步骤S1:通过PDF表格识别方法,获取到所有的封闭图形信息,封闭图形信息具有top、bottom、left、right信息;步骤S2:封闭图形分类,并组合成表格的行信息;步骤S3:二阶段进行列信息初始化:将封闭图形分类,并组合成表格的列信息;步骤S4:计算跨行、跨列数;步骤S5:根据计算的跨行、跨列数,完成表格的构建。采用本发明专利技术,识别出PDF中的封闭矩形后,可以准确的识别出完整且准确的表格,使得在PDF转Word的场景下,可以准确并完整的转换出表格信息,并且本发明专利技术使用纯算法实现,不需要借助任何三方工具,速度具有极大的优势。

【技术实现步骤摘要】

本专利技术属于pdf文件解析,具体地说,是涉及一种pdf转word场景下跨行、跨列单元格识别方法、系统、装置及介质。


技术介绍

1、在pdf格式文件转换成docx文件的场景中,pdf文件中常常会存在表格信息,虽然现有技术中有pdf表格信息识别的解决方案,但是针对pdf表格涉及跨行、跨列等特殊情况,现有技术并不能准确的识别出。因此,在pdf文件的转换过程中,如何在表格具有跨行、跨列等情况下,准确的识别出完整且准确的表格,就成为了本领域亟需解决的技术问题。


技术实现思路

1、本专利技术的目的在于提供一种pdf转word场景下跨行、跨列单元格识别方法,以解决现有技术所存在的技术问题。

2、为了实现上述目的,本专利技术采取的技术方案如下:

3、一种pdf转word场景下跨行、跨列单元格识别方法,包括以下步骤:

4、步骤s1:通过pdf表格识别方法,获取到所有的封闭图形信息,封闭图形信息具有top、bottom、left、right信息;

5、步骤s2:封闭图形分类,并组本文档来自技高网...

【技术保护点】

1.一种PDF转Word场景下跨行、跨列单元格识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的PDF转Word场景下跨行、跨列单元格识别方法,其特征在于,所述行信息遍历方法如下:

3.根据权利要求2所述的PDF转Word场景下跨行、跨列单元格识别方法,其特征在于,所述列信息遍历方法如下:(3.2.1)如果当前列信息集合为空,构建新的列信息,并将当前封闭图形加入到新的列中;(3.2.2)如果当前列集合不为空,判断当前封闭图形是否被包含在某个列信息中,若是,则将当前封闭图形加入到当前列中,若否,构建一个新的列,将当前封闭图形加入到新的列中。

...

【技术特征摘要】

1.一种pdf转word场景下跨行、跨列单元格识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的pdf转word场景下跨行、跨列单元格识别方法,其特征在于,所述行信息遍历方法如下:

3.根据权利要求2所述的pdf转word场景下跨行、跨列单元格识别方法,其特征在于,所述列信息遍历方法如下:(3.2.1)如果当前列信息集合为空,构建新的列信息,并将当前封闭图形加入到新的列中;(3.2.2)如果当前列集合不为空,判断当前封闭图形是否被包含在某个列信息中,若是,则将当前封闭图形加入到当前列中,若否,构建一个新的列,将当前封闭图形加入到新的列中。

4.根据权利要求3所述的pdf转word场景下跨行、跨列单元格识别方法,其特征在于,所述步骤s4的具体方法如下:

5.根据权利要求4所述的pd...

【专利技术属性】
技术研发人员:兰元朱宪超霍展羽李晶
申请(专利权)人:四川语言桥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1