【技术实现步骤摘要】
本专利技术属于pdf文件解析,具体地说,是涉及一种pdf转word场景下跨行、跨列单元格识别方法、系统、装置及介质。
技术介绍
1、在pdf格式文件转换成docx文件的场景中,pdf文件中常常会存在表格信息,虽然现有技术中有pdf表格信息识别的解决方案,但是针对pdf表格涉及跨行、跨列等特殊情况,现有技术并不能准确的识别出。因此,在pdf文件的转换过程中,如何在表格具有跨行、跨列等情况下,准确的识别出完整且准确的表格,就成为了本领域亟需解决的技术问题。
技术实现思路
1、本专利技术的目的在于提供一种pdf转word场景下跨行、跨列单元格识别方法,以解决现有技术所存在的技术问题。
2、为了实现上述目的,本专利技术采取的技术方案如下:
3、一种pdf转word场景下跨行、跨列单元格识别方法,包括以下步骤:
4、步骤s1:通过pdf表格识别方法,获取到所有的封闭图形信息,封闭图形信息具有top、bottom、left、right信息;
5、步骤s2
...【技术保护点】
1.一种PDF转Word场景下跨行、跨列单元格识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的PDF转Word场景下跨行、跨列单元格识别方法,其特征在于,所述行信息遍历方法如下:
3.根据权利要求2所述的PDF转Word场景下跨行、跨列单元格识别方法,其特征在于,所述列信息遍历方法如下:(3.2.1)如果当前列信息集合为空,构建新的列信息,并将当前封闭图形加入到新的列中;(3.2.2)如果当前列集合不为空,判断当前封闭图形是否被包含在某个列信息中,若是,则将当前封闭图形加入到当前列中,若否,构建一个新的列,将当前封闭图形加入到新的
...
【技术特征摘要】
1.一种pdf转word场景下跨行、跨列单元格识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的pdf转word场景下跨行、跨列单元格识别方法,其特征在于,所述行信息遍历方法如下:
3.根据权利要求2所述的pdf转word场景下跨行、跨列单元格识别方法,其特征在于,所述列信息遍历方法如下:(3.2.1)如果当前列信息集合为空,构建新的列信息,并将当前封闭图形加入到新的列中;(3.2.2)如果当前列集合不为空,判断当前封闭图形是否被包含在某个列信息中,若是,则将当前封闭图形加入到当前列中,若否,构建一个新的列,将当前封闭图形加入到新的列中。
4.根据权利要求3所述的pdf转word场景下跨行、跨列单元格识别方法,其特征在于,所述步骤s4的具体方法如下:
5.根据权利要求4所述的pd...
【专利技术属性】
技术研发人员:兰元,朱宪超,霍展羽,李晶,
申请(专利权)人:四川语言桥信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。