一种从PDF中提取图片的方法、系统及装置制造方法及图纸

技术编号：25805202 阅读：41 留言：0更新日期：2020-09-29 18:39

本发明专利技术公开了一种PDF中图片识别和提取的方法、系统及装置。本发明专利技术通过截取PDF文件为图片：对所述图片进行一系列预处理操作，获取其轮廓图并分析去噪后在图片上标注，依据所述标注对图片进行分割提取。发明专利技术基于PDF内容提取的不方便，采用图像处理和图像过滤的相结合的方法自动识别出各种图片并切割保存，大大降低了从PDF中获取图片数据的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种从PDF中提取图片的方法、系统及装置
本专利技术涉及一种PDF文件数字图像处理
，尤其涉及一种从PDF中识别和分割图片的数字图像处理技术。
技术介绍
PDF(PortableDocumentFormat，便携式文档格式)是一种独立于硬件、操作系统、应用程序的电子文档格式。由于其具有跨平台、多媒体集成、安全等优点，PDF已成为目前使用最为广泛的电子文档格式之一。随着PDF格式文档的广泛使用，大量有价值的数据均以PDF文档的形式呈现出来。因此，如何从PDF文档中提取数据，是一个被广泛关注和研究的问题。大量珍贵的古代文献以及早期的纸质书籍文献从线下被搬到了线上，这其中有很大部分是采用扫描书本文献的方式完成了纸质书籍的电子化。现在以图识字的技术已经很成熟了，将扫描版的书籍中的文字识别并提取出来轻而易举，然而将扫描版书籍中的图片识别并提取出来的问题却一直没有很好的解决方案，所以进行非扫描版和扫描版PDF中的图片识别和提取是非常重要的。
技术实现思路
本专利技术涉及PDF图片自动化提取中，P图片的自动识别以及图片的自动切割保存。其具体的技术方案如下：第一方面，一种从PDF中提取图片的方法，所述方法步骤为：步骤101，转换模块将PDF转换为图片一；步骤102，预处理模块将步骤101中得到的图片一进行预处理得到图片二；步骤103，对步骤102中的图片二进行分析，获取单页PDF中的图片的位置并标注；结合第一方面，在第一方面可能的实现方式中的第一种情况为，还包括步骤1...

【技术保护点】
1.一种从PDF中提取图片的方法，其特征在于所述方法步骤为：/n步骤101，转换模块将PDF转换为图片一；/n步骤102，预处理模块将步骤101中得到的图片一进行预处理得到图片二；/n步骤103，对步骤102中的图片二进行分析，获取单页PDF中的彩色图片的位置。/n

【技术特征摘要】
1.一种从PDF中提取图片的方法，其特征在于所述方法步骤为：
步骤101，转换模块将PDF转换为图片一；
步骤102，预处理模块将步骤101中得到的图片一进行预处理得到图片二；
步骤103，对步骤102中的图片二进行分析，获取单页PDF中的彩色图片的位置。

2.根据根据权利要求1所述的一种从PDF中提取图片的方法，其特征在于所述方法还包括：
步骤104，分割模块根据所述图片一中标注的彩色图片所在的位置分割图片，并保存所述分割的图片。

3.根据权利要求1或2所述的一种从PDF中提取图片的方法，其特征在于所述步骤102的预处理操作为按照任意顺序执行包含如下处理的操作：
预处理模块获取所述图片执行灰度化操作；
预处理模块获取所述图片执行二值化操作；
预处理模块获取所述图片执行平滑处理；
预处理模块获取所述图片执行模糊处理。

4.根据权利要求1所述的一种PDF中提取图片的方法，其特征在于所述步骤104所述图像分割操作中依据图像面积大小和膨胀腐蚀方法做降噪处理。

5.根据权利要求3或4所述的一种PDF中提取图片的方法，其特征在于所述步骤104为：
分析模块获取所述预处理得到的数值化图片，用腐蚀的方法预降噪处理；
分析模块获取降噪处理后的数值化图片，进行边界检测得到轮廓边界数组；
分析模块依次扫描轮廓边界数组，对其中面积低于原始PDF图片设定比例的数组进行丢弃降噪；
分析模块扫描...

【专利技术属性】
技术研发人员：周睿，魏永强，周庆国，仝倩倩，张文强，魏文浩，于亮，陆笛，廖伟志，胡轶凛，冉竹君，
申请(专利权)人：兰州大学，
类型：发明
国别省市：甘肃;62

全部详细技术资料下载我是这个专利的主人