识别PDF文件中文本框的方法、装置及计算机设备及存储介质制造方法及图纸

技术编号:28502730 阅读:14 留言:0更新日期:2021-05-19 22:49
本发明专利技术实施例公开了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质,其中方法包括获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。本发明专利技术能够识别并提取PDF文件中的文本框。别并提取PDF文件中的文本框。别并提取PDF文件中的文本框。

【技术实现步骤摘要】
识别PDF文件中文本框的方法、装置及计算机设备及存储介质


[0001]本专利技术涉及文档处理
,尤其涉及一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质。

技术介绍

[0002]PDF(Portable Document Format)是一种电子文档格式,是一种较为理想的用于电子阅读的格式。但是PDF文件并不支持编辑,所以大多数时候,需要将DPF文件转换成其它易于编辑的格式的文件,例如Word和PPT。现有的技术手段通常都是直接将PDF文件转换成其它格式的文件,其在转换的过程中无法识别PDF文件中的文本框信息,但是PDF文件是一种板式文件,其主要是由互相独立的文本、图片以及路径等信息组合而成,并不包含文本框信息,而Word和PPT等文件是包含有文本框信息的,因而当将PDF文件转换成其它格式的文件时候,会丢失文本框信息,导致文件显示异常,无法进行编辑。

技术实现思路

[0003]本专利技术实施例提供了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质,可以识别PDF文件中的文本框,提高使用者的体验。
[0004]第一方面,本专利技术实施例提供了一种识别PDF文件中文本框的方法,该方法具体包括:获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。
[0005]第二方面,本专利技术实施例还提供了一种识别PDF文件中文本框的装置,该装置具体包括:第一获取单元,用于获取目标PDF文件,并从所述目标PDF文件中获取目标对象;第一解析单元,用于解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;预处理单元,用于对所述预设图形集合进行处理以获得目标预设图形集合;识别单元,用于解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。
[0006]第三方面,本专利技术实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
[0007]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
[0008]本专利技术实施例提供了一种识别PDF文件中文本框的方法、装置、计算机设备及存储介质。其中,所述方法包括:获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析
所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。本专利技术实施例通过从目标PDF文件中获取目标对象,并且根据目标对象的不同形状,将目标对象归类至预设图形集合中相应的子集合中以完成对目标对象的分类,之后通过对预设图形集合进行预处理从而获得目标预设图形集合,最后通过判断目标预设图形集合中的对象所对应的图形区域是否存在文本对象以便于识别目标DPF文件中的文本框,便于用户将PDF文件转换成其它格式的文件时带有文本框信息,便于用户进行编辑,提高了用户的使用体验。
附图说明
[0009]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1是本专利技术实施例提供的识别PDF文件中文本框的方法的流程示意图;
[0011]图2是本专利技术实施例提供的识别PDF文件中文本框的方法的子流程示意图
[0012]图3是本专利技术实施例提供的识别PDF文件中文本框的方法的子流程示意图;
[0013]图4是本专利技术实施例提供的识别PDF文件中文本框的方法的子流程示意图;
[0014]图5是本专利技术实施例提供的识别PDF文件中文本框的方法的子流程示意图;
[0015]图6是本专利技术实施例提供的识别PDF文件中文本框的方法的子流程示意图;
[0016]图7是本专利技术实施例提供的识别PDF文件中文本框的装置的示意性框图;
[0017]图8是本专利技术实施例提供的识别PDF文件中文本框的装置的第一解析单元的示意性框图;
[0018]图9是本专利技术实施例提供的识别PDF文件中文本框的装置的第一图形集合单元的示意性框图;
[0019]图10是本专利技术实施例提供的识别PDF文件中文本框的装置的第二图形集合单元的示意性框图;
[0020]图11是本专利技术实施例提供的识别PDF文件中文本框的装置的预处理单元的示意性框图;
[0021]图12是本专利技术实施例提供的识别PDF文件中文本框的装置的识别单元的示意性框图;
[0022]图13是本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、操作、元素、组件和/或其集合的存在或添加。
[0025]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0026]请参阅图1,图1是本专利技术实施例提供的识别PDF文件中文本框的方法的流程示意图。本专利技术实施例的识别PDF文件中文本框的方法可应用于计算机设备中、平板电脑以及笔记本电脑等设备中。本专利技术的方法可以将PDF格式的文件转换成Numbers格式的文件,从而可以通过Number软本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别PDF文件中文本框的方法,其特征在于,所述方法包括:获取目标PDF文件,并从所述目标PDF文件中获取目标对象;解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中,其中,所述预设图形集合包括多个对应不同形状的子集合;对所述预设图形集合进行处理以获得目标预设图形集合;解析所述目标预设图形集合并判断所述目标预设图形集合中的对象所对应的图形区域是否存在文本对象以识别出所述目标PDF文件的文本框。2.如权利要求1所述的识别PDF文件中文本框的方法,其特征在于,所述解析所述目标对象以获取所述目标对象的形状,并根据所述目标对象的形状将所述目标对象归类至预设图形集合中相应的子集合中的步骤,包括:解析所述目标对象并判断所述目标对象的形状;若所述目标对象的形状为矩形,则将所述目标对象归类至所述预设图形集合中的矩形集合;若所述目标对象为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的线条集合;若所述目标对象不为矩形且不为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的其它图形集合。3.如权利要求2所述的识别PDF文件中文本框的方法,其特征在于,所述若所述目标对象为包含线条的非封闭图形,则将所述目标对象归类至所述预设图形集合中的线条集合的步骤之后,还包括:读取所述线条集合并判断所述线条集合中线条的方向,其中,所述线条集合中包含多个线条;将沿X轴方向平行的线条两两组合为第一平行线以及将沿Y轴方向平行的线条两两组合为第二平行线以获得多组所述第一平行线和多组所述第二平行线;读取所述第一平行线,并对于每一组所述第一平行线,判断在所述多组第二平行线中是否存在与自身相交的第二平行线;若在所述多组第二平行线中存在与自身相交的第二平行线,则确认由相交的第一平行线和第二平行线所围成的重合区域的面积;若所述重合区域的面积大于预设面积,则将相交的第一平行线和第二平行线组合成矩形并归类至所述矩形集合。4.如权利要求3所述的识别PDF文件中文本框的方法,其特征在于,所述对所述预设图形集合进行处理以获得目标预设图形集合的步骤,包括:对所述矩形集合中的矩形排序以获得中间矩形集合;读取所述中间矩形集合中的矩形,并对于所述中间矩形集中的每一个矩形,判断在所述中间矩形集合中是否存在与其自身完全重合的矩形;若在所述中间矩形集合中存在与自身完全重合的矩形,则将两个重合的矩形合并为一个矩形;若完成对所述中间矩形集合中所有矩形的判断,则将所述中间矩形集合归类至所述预
设图形集合中以获得所述目标预设图形集合。5.如权利要求1...

【专利技术属性】
技术研发人员:邢振雨
申请(专利权)人:深圳万兴软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1