一种PDF文档图片的还原方法、装置和存储介质制造方法及图纸

技术编号:37289898 阅读:27 留言:0更新日期:2023-04-21 01:06
本发明专利技术公开一种PDF文档图片的还原方法、装置和存储介质,属于图片还原技术领域。该PDF文档图片的还原方法,包括以下步骤:S1、PDFMiner解析系统、融合图片检测与OCR技术的解析系统分别提取文档得到第一图片的坐标信息和第二图片的坐标信息;S2、将第一图片的坐标信息和第二图片的坐标信息进行内部比对并进行相互比对,去除坐标重合的图片;S3、将步骤S2处理后的图片的坐标信息与文档中的非图片内容的坐标信息进行比对,去除图片的坐标信息与非图片内容的坐标信息重合的图片;S4、根据步骤S3处理后的图片的坐标信息从文档中提取出图片并插入文档中的对应位置。该方法能够有效提取和还原PDF文档中的图片内容。效提取和还原PDF文档中的图片内容。效提取和还原PDF文档中的图片内容。

【技术实现步骤摘要】
一种PDF文档图片的还原方法、装置和存储介质


[0001]本专利技术涉及图片还原
,具体涉及一种PDF文档图片的还原方法、装置和存储介质。

技术介绍

[0002]PDF是目前使用最广泛的文档格式之一,主要用于文档交换与打印等,无法与其他计算机程序进行交互。随着PDF在金融、科研、教育等领域的广泛应用,自动进行PDF文档识别从中提取有用数据,并将其重构为容易编辑的文档成为一个备受关注的问题。PDF文档主要由文本、图像、表格、公式等内容组成,其中,作为一种极高效的数据组织与展现方式,图片的识别和提取成为一个亟待解决的问题。此外,对于扫描版PDF和图片文档,文档中的图片内容对文档的还原也有着重要作用。然而,现有大多数文档还原系统通常会忽略这些图片信息,或者图片提取错误,从而造成内容的缺失。可见如何有效提取和还原PDF文档中的图片内容是现有技术的难题。

技术实现思路

[0003]本专利技术的目的在于克服上述技术不足,提供一种PDF文档图片的还原方法、装置和存储介质,解决现有技术中如何有效提取和还原PDF文档中的图片内容。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种PDF文档图片的还原方法,其特征在于,包括以下步骤:S 1、PDFMiner解析系统、融合图片检测与OCR技术的解析系统分别提取文档得到第一图片的坐标信息和第二图片的坐标信息;S2、将第一图片的坐标信息和第二图片的坐标信息进行内部比对并进行相互比对,去除坐标重合的图片;S3、将步骤S2处理后的图片的坐标信息与文档中的非图片内容的坐标信息进行比对,去除图片的坐标信息与非图片内容的坐标信息重合的图片;S4、根据步骤S3处理后的图片的坐标信息从文档中提取出图片并插入文档中的对应位置。2.根据权利要求1所述的PDF文档图片的还原方法,其特征在于,在步骤S1中,提取的所述文档包括PDF文档和图片文档。3.根据权利要求1所述的PDF文档图片的还原方法,其特征在于,在步骤S1中,所述PDFMiner解析系统提取文档得到所述第一图片的坐标信息的规则为:PDFMiner系统抽取出文档中的所有元素,所述所有元素包括文本数据、线条数据和图片数据;若检测出提取的元素为图片数据,则提取出对应的数据得到所述第一图片的坐标数据。4.根据权利要求1所述的PDF文档图片的还原方法,其特征在于,在步骤S1中,所述融合图片检测与OCR技术的解析系统提取文档得到所述第二图片的坐标信息的规则为:对文档中的图片进行检测,然后返回检测出的图片的坐标信息;同时,对文档中的...

【专利技术属性】
技术研发人员:邓彪翟飞飞
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1