PDF文档中图表的定位方法、装置及计算机设备制造方法及图纸

技术编号:22330598 阅读:42 留言:0更新日期:2019-10-19 12:22
本申请实施例提供了一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于图像处理技术领域,实现PDF文档中图表的定位时,获取PDF文档,通过预设方式将PDF文档中的每页文档按照每页文档在PDF文档中的位置转换为携带有预设位置标识的每张图片,通过预设的目标检测模型识别出所有图片中包含图表的图片作为目标图片,通过目标检测模型提取每张目标图片中的图表以识别图表在对应每张目标图片中的位置,以每张目标图片在PDF文档中的位置及图表在对应每张目标图片中的位置按照预设顺序组合以生成图表在PDF文档中的位置,通过对PDF中的图表进行准确定位,可提高PDF文档的使用效率。

Positioning method, device and computer equipment of chart in PDF document

【技术实现步骤摘要】
PDF文档中图表的定位方法、装置及计算机设备
本申请涉及数据处理
,尤其涉及一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质。
技术介绍
现有的各类针对PDF文档的解析方式只能单独的提取PDF文档中的图片或内容,不能确切的知道PDF文档中哪块位置是表格,哪块位置是图形,由于无法准确确定PDF文档中的图表位置,降低了PDF文档的使用效率。
技术实现思路
本申请实施例提供了一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中由于无法准确定位PDF文档中图表的位置导致PDF文档的使用效率低的问题。第一方面,本申请实施例提供了一种PDF文档中图表的定位方法,所述方法包括:获取PDF文档,通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片;通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片,所述图表包括图形和表格;通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置;以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。第二方面,本申请实施例还提供了一种PDF文档中图表的定位装置,包括:转换单元,用于获取PDF文档,通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片;识别单元,用于通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片,所述图表包括图形和表格;提取单元,用于通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置;定位单元,用于以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述PDF文档中图表的定位方法。第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述PDF文档中图表的定位方法。本申请实施例提供了一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质。本申请实施例实现PDF文档中图表的定位时,通过获取PDF文件,通过预设方式将所述PDF文件转换为一张一张的独立图片,通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片,通过所述目标检测模型提取每张所述目标图片中所述图表的位置,根据每张目标图片在PDF文档中的位置和图表在对应每张目标图片中的位置定位图表在PDF文档中的位置,能够实现自动识别PDF文档中哪块区域是图形或者表格,当需要使用PDF文件当中的图表时,比如,将PDF文档转换为WORD格式时,由于对PDF文件中的图表进行了准确的识别和定位,可以提高PDF文件的使用效率。附图说明为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的PDF文档中图表的定位方法的流程示意图;图2为本申请实施例提供的PDF文档中图表的定位方法中一个图表位置区域划分示意图;图3为本申请实施例提供的PDF文档中图表的定位装置的示意性框图;以及图4为本申请实施例提供的计算机设备的示意性框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本申请实施例提供的PDF文档中图表的定位方法可应用于终端或者服务器等计算机设备中,通过安装于终端或者服务器上的软件来实现所述PDF文档中图表的定位方法的步骤,其中所述终端可以为手机、笔记本电脑、平板电脑或者台式电脑等电子设备,所述服务器可以为云服务器或者服务器集群等。以终端为例,本申请实施例提供的PDF文档中图表的定位方法的具体实现过程如下:终端获取PDF文档,通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片;通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片,所述图表包括图形和表格;通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置;以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。需要说明的是,在实际操作过程中,上述PDF文档中图表的定位方法的应用场景仅仅用于说明本申请技术方案,并不用于限定本申请技术方案。图1为本申请实施例提供的PDF文档中图表的定位方法的示意性流程图。该PDF文档中图表的定位方法应用于终端或者服务器中,以完成PDF文档中图表的定位方法的全部或者部分功能。请参阅图1,如图1所示,该方法包括以下步骤S101-S104:S101、获取PDF文档,通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片。其中,预设位置标识指每页PDF文档在整个PDF文档中的位置描述,可以为每页PDF文档在PDF文档中页码编码,比如,文档页码用数字“1、2、3…”等描述,预设位置标识可以为PDF的第1页、第2页、第3页…。进一步地,所述预设位置标识还可以添加上该PDF文档的文档名称或者文档编号,比如,文档名称为A文档,A文档的第3页可描述为A3,通过文档名称与文档页码的结合,可以提高对PDF文件的辨识效率。预设方式包括不同编程语言中对应的将PDF文档转换为图片的方法,比如,JAVA中实现PDF文档转换为图片可以通过第三方提供的架包,比如下载Icepdf的架包,或者Jpedal的架包等。具体地,获取PDF文档,通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设本文档来自技高网...

【技术保护点】
1.一种PDF文档中图表的定位方法,其特征在于,所述方法包括:获取PDF文档,通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片;通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片,所述图表包括图形和表格;通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置;以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。

【技术特征摘要】
1.一种PDF文档中图表的定位方法,其特征在于,所述方法包括:获取PDF文档,通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片;通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片,所述图表包括图形和表格;通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置;以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。2.根据权利要求1所述PDF文档中图表的定位方法,其特征在于,所述以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置的步骤之后,还包括:按照每张所述目标图片在所述PDF文档中的顺序以列表形式按照预设编号顺序显示所有所述目标图片的信息,所述信息包括:图表的类型、图表在每张所述目标图片的位置、每张所述目标图片在所述PDF文档中的位置、所述图表在所述PDF文档中的位置。3.根据权利要求1或者2所述PDF文档中图表的定位方法,其特征在于,所述通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置的步骤包括:通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的预设区域位置,所述预设区域包括m个区域,m≥2,m为整数。4.根据权利要求1或者2所述PDF文档中图表的定位方法,其特征在于,所述通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置的步骤包括:通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表的n个顶点分别在对应每张所述目标图片中的坐标,其中,n≥3,n为整数。5.根据权利要求1所述PDF文档中图表的定位方法,其特征在于,所述通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片的步骤之前,还包括:训练所述目标检测模...

【专利技术属性】
技术研发人员:刘克亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1