PDF文档中图表的定位方法、装置及计算机设备制造方法及图纸

技术编号：22330598 阅读：42 留言：0更新日期：2019-10-19 12:22

本申请实施例提供了一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于图像处理技术领域，实现PDF文档中图表的定位时，获取PDF文档，通过预设方式将PDF文档中的每页文档按照每页文档在PDF文档中的位置转换为携带有预设位置标识的每张图片，通过预设的目标检测模型识别出所有图片中包含图表的图片作为目标图片，通过目标检测模型提取每张目标图片中的图表以识别图表在对应每张目标图片中的位置，以每张目标图片在PDF文档中的位置及图表在对应每张目标图片中的位置按照预设顺序组合以生成图表在PDF文档中的位置，通过对PDF中的图表进行准确定位，可提高PDF文档的使用效率。

Positioning method, device and computer equipment of chart in PDF document

全部详细技术资料下载

【技术实现步骤摘要】
PDF文档中图表的定位方法、装置及计算机设备
本申请涉及数据处理
，尤其涉及一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质。
技术介绍
现有的各类针对PDF文档的解析方式只能单独的提取PDF文档中的图片或内容，不能确切的知道PDF文档中哪块位置是表格，哪块位置是图形，由于无法准确确定PDF文档中的图表位置，降低了PDF文档的使用效率。
技术实现思路
本申请实施例提供了一种PDF文档中图表的定位方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中由于无法准确定位PDF文档中图表的位置导致PDF文档的使用效率低的问题。第一方面，本申请实施例提供了一种PDF文档中图表的定位方法，所述方法包括：获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格；通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置；以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。第二方面，本申请实施例还提供了一种PDF文档中图表的定位装置，包括：转换单元，用于获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；识别单元，用于通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为...

【技术保护点】
1.一种PDF文档中图表的定位方法，其特征在于，所述方法包括：获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格；通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置；以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。

【技术特征摘要】
1.一种PDF文档中图表的定位方法，其特征在于，所述方法包括：获取PDF文档，通过预设方式将所述PDF文档中的每页文档按照所述每页文档在所述PDF文档中的位置转换为携带有预设位置标识的每张图片；通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片，所述图表包括图形和表格；通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置；以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置。2.根据权利要求1所述PDF文档中图表的定位方法，其特征在于，所述以每张所述目标图片在所述PDF文档中的位置及所述图表在对应每张所述目标图片中的位置按照预设顺序组合以生成所述图表在所述PDF文档中的位置的步骤之后，还包括：按照每张所述目标图片在所述PDF文档中的顺序以列表形式按照预设编号顺序显示所有所述目标图片的信息，所述信息包括：图表的类型、图表在每张所述目标图片的位置、每张所述目标图片在所述PDF文档中的位置、所述图表在所述PDF文档中的位置。3.根据权利要求1或者2所述PDF文档中图表的定位方法，其特征在于，所述通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置的步骤包括：通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的预设区域位置，所述预设区域包括m个区域，m≥2，m为整数。4.根据权利要求1或者2所述PDF文档中图表的定位方法，其特征在于，所述通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表在对应每张所述目标图片中的位置的步骤包括：通过所述目标检测模型提取每张所述目标图片中的所述图表以识别所述图表的n个顶点分别在对应每张所述目标图片中的坐标，其中，n≥3，n为整数。5.根据权利要求1所述PDF文档中图表的定位方法，其特征在于，所述通过预设的目标检测模型识别出所有所述图片中包含图表的图片作为目标图片的步骤之前，还包括：训练所述目标检测模...

【专利技术属性】
技术研发人员：刘克亮，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人