当前位置: 首页 > 专利查询>兰州大学专利>正文

一种从PDF中提取图片的方法、系统及装置制造方法及图纸

技术编号:25805202 阅读:41 留言:0更新日期:2020-09-29 18:39
本发明专利技术公开了一种PDF中图片识别和提取的方法、系统及装置。本发明专利技术通过截取PDF文件为图片:对所述图片进行一系列预处理操作,获取其轮廓图并分析去噪后在图片上标注,依据所述标注对图片进行分割提取。发明专利技术基于PDF内容提取的不方便,采用图像处理和图像过滤的相结合的方法自动识别出各种图片并切割保存,大大降低了从PDF中获取图片数据的效率。

【技术实现步骤摘要】
一种从PDF中提取图片的方法、系统及装置
本专利技术涉及一种PDF文件数字图像处理
,尤其涉及一种从PDF中识别和分割图片的数字图像处理技术。
技术介绍
PDF(PortableDocumentFormat,便携式文档格式)是一种独立于硬件、操作系统、应用程序的电子文档格式。由于其具有跨平台、多媒体集成、安全等优点,PDF已成为目前使用最为广泛的电子文档格式之一。随着PDF格式文档的广泛使用,大量有价值的数据均以PDF文档的形式呈现出来。因此,如何从PDF文档中提取数据,是一个被广泛关注和研究的问题。大量珍贵的古代文献以及早期的纸质书籍文献从线下被搬到了线上,这其中有很大部分是采用扫描书本文献的方式完成了纸质书籍的电子化。现在以图识字的技术已经很成熟了,将扫描版的书籍中的文字识别并提取出来轻而易举,然而将扫描版书籍中的图片识别并提取出来的问题却一直没有很好的解决方案,所以进行非扫描版和扫描版PDF中的图片识别和提取是非常重要的。
技术实现思路
本专利技术涉及PDF图片自动化提取中,P图片的自动识别以及图片的自动切割保存。其具体的技术方案如下:第一方面,一种从PDF中提取图片的方法,所述方法步骤为:步骤101,转换模块将PDF转换为图片一;步骤102,预处理模块将步骤101中得到的图片一进行预处理得到图片二;步骤103,对步骤102中的图片二进行分析,获取单页PDF中的图片的位置并标注;结合第一方面,在第一方面可能的实现方式中的第一种情况为,还包括步骤104,分割模块根据所述图片一中标注的彩色图片所在的位置分割图片,并保存所述分割的图片。结合第一方面及第一方面可能的实现方式中的第一种情况,在第一方面可能的实现方式中的第二种情况为,所述步骤102为,预处理模块获取所述图片依次执行灰度化-滤波-二值化-去噪处理操作,生成预处理图片二。结合第一方面可能的实现方式中的第三种或第四种情况,在第一方面可能的实现方式中的第五种情况为,所述步骤103为,分析模块获取所述预处理图片三,分析模块获取所述预处理得到的图片二,用腐蚀的方法预降噪处理;进行边界检测得到轮廓边界数组;对其中面积低于原始PDF图片一定比例的数组进行丢弃降噪;扫描降噪后的轮廓边界数组得到PDF中图片的位置信息。结合第一方面可能的实现方式中的第五种情况,在第一方面可能的实现方式中的第六种情况为,所述步骤103为,分析模块获取所述预处理图片二,分析模块获取所述预处理得到的数值化图片,用腐蚀的方法预降噪处理;进行边界检测得到轮廓边界数组;对其中面积低于原始PDF图片一定比例的数组进行丢弃降噪;扫描降噪后的轮廓边界数组得到PDF中图片的位置信息。第二方面,一种从PDF中提取图片的系统,所述系统结构为:转换模块,用于将PDF文件按页分别保存为图片一;预处理模块,用于对所述图片一执行预处理操作,生成预处理图片二;分析标注模块,用于对所述图片二执行轮廓检测操作,分析边界框数据并过滤得到PDF中图片的位置,在所述图片一中标注所述图片的位置。切割模块,用于根据所述标注图片中标注的所述图片分割所述PDF图片,并保存所述分割的图片。结合第二方面,在第二方面可能的实现方式中的第一种情况为,所述预处理模块先后执行灰度化、二值化、过滤去噪预处理操作,生成预处理图片二;所述分析模块获取所述预处理图片二,生成所述图片一的轮廓图,遍历所有的轮廓信息数组,过滤获取所述轮廓信息的噪点数据,根据所述轮廓信息分析获取PDF中图片的位置。第三方面,一种从PDF中提取图片的装置,所述装置包括:计算机可读存储装置、中央处理器、总线;所述计算机可读存储装置同所述中央处理器通过总线进行连接;所述计算机可读存储装置存储有多条操作指令供中央处理器调用以及存储所述系统生成的包括但不限于的所述图片一、所述预处理图片二、所述轮廓图、所述标注图片、所述分割的图片供所述中央处理器通过所述操作指令进行调用,所述中央处理器执行所述操作指令实现第一方面及第一方面可能的实现方式中的第一至第六种情况所述的方法。附图说明图1为本专利技术实施例一的方法流程图;图2为本专利技术实施例一的PDF文件截图的图片一;图3为本专利技术实施例一的预处理图片二;图4为本专利技术实施例一的标注图片;图5为本专利技术实施例一切割的图片示意图;图6为本专利技术试试例二的系统结构框架图;具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术的部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一一种从PDF中识别提取图片的方法,如图1所示的方法步骤为:步骤101,转换PDF文件为图片,转换模块用公开软件PDFToJPGConverter将PDF文件按页分别截图并保存为图片一;所述图片保存格式为计算机系统默认的通用格式,如jpg、png等。如图2所示,为所述PDF文件中的某页所截图并保存的图片。该图片为某文化遗产图画鉴赏书籍中的某一页,图片中包含了两张描绘中世纪服饰的图片以及针对图片做出解释说明的文字。所述的描绘中世纪服饰的图片也就是本专利技术中需要标注的目标图片的位置。步骤102,预处理图片一,预处理模块获取所述图片执行预处理操作,生成预处理图片二。所述预处理操作为依次执行灰度化-滤波-二值化-腐蚀膨胀去噪。所述预处理图片二如图3所示,图2中为彩色图片进行上述与处理操作后生成图3所示的预处理图片三,将图片中的数据内容转换为黑白像素。步骤103,获取目标图片位置,分析模块获取所述预处理图片二,进行边界检测得到轮廓边界数组;分析模块依次扫描轮廓边界数组,对其中面积低于原始PDF图片一定比例的数组进行丢弃降噪;分析模块扫描降噪后的轮廓边界数组,得到矩形框数据(x1,y1,x2,y2);分析模块依据矩形框标定PDF中的图片的位置,如图4所示。步骤104,分割模块根据所述图片一中标注的彩色图片所在的位置分割图片,并保存所述分割的图片。如图5所示。实施例二如图6所示,本专利技术基于上述方法提供了一种从PDF中识别和提取图片的系统,所述系统结构为:转化模块,用于调用公开软件PDFToJPGConverter将PDF文件按页分别保存为图片一。预处理模块,用于对所述图片一先后执行灰度化、二值化、滤波操作,生成预处理图片二。分析标注模块,用于执行轮廓分析,遍历所有轮廓数组进行轮廓筛选,依据轮廓数组确定图片的位置,在所述图片一中标注所述图片的位置。分割模块,用于根据所述标注图片中标注的所述图片位置提取图片,并保存所述分割图片。基于上述软件系统,本专利技术还提供了一种P本文档来自技高网...

【技术保护点】
1.一种从PDF中提取图片的方法,其特征在于所述方法步骤为:/n步骤101,转换模块将PDF转换为图片一;/n步骤102,预处理模块将步骤101中得到的图片一进行预处理得到图片二;/n步骤103,对步骤102中的图片二进行分析,获取单页PDF中的彩色图片的位置。/n

【技术特征摘要】
1.一种从PDF中提取图片的方法,其特征在于所述方法步骤为:
步骤101,转换模块将PDF转换为图片一;
步骤102,预处理模块将步骤101中得到的图片一进行预处理得到图片二;
步骤103,对步骤102中的图片二进行分析,获取单页PDF中的彩色图片的位置。


2.根据根据权利要求1所述的一种从PDF中提取图片的方法,其特征在于所述方法还包括:
步骤104,分割模块根据所述图片一中标注的彩色图片所在的位置分割图片,并保存所述分割的图片。


3.根据权利要求1或2所述的一种从PDF中提取图片的方法,其特征在于所述步骤102的预处理操作为按照任意顺序执行包含如下处理的操作:
预处理模块获取所述图片执行灰度化操作;
预处理模块获取所述图片执行二值化操作;
预处理模块获取所述图片执行平滑处理;
预处理模块获取所述图片执行模糊处理。


4.根据权利要求1所述的一种PDF中提取图片的方法,其特征在于所述步骤104所述图像分割操作中依据图像面积大小和膨胀腐蚀方法做降噪处理。


5.根据权利要求3或4所述的一种PDF中提取图片的方法,其特征在于所述步骤104为:
分析模块获取所述预处理得到的数值化图片,用腐蚀的方法预降噪处理;
分析模块获取降噪处理后的数值化图片,进行边界检测得到轮廓边界数组;
分析模块依次扫描轮廓边界数组,对其中面积低于原始PDF图片设定比例的数组进行丢弃降噪;
分析模块扫描...

【专利技术属性】
技术研发人员:周睿魏永强周庆国仝倩倩张文强魏文浩于亮陆笛廖伟志胡轶凛冉竹君
申请(专利权)人:兰州大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1