一种PDF文件解析方法技术

技术编号:20221877 阅读:36 留言:0更新日期:2019-01-28 20:20
本发明专利技术公开了一种PDF文件解析方法,包括以下步骤:根据设置或PDF文件包含的文本对象的信息,确定在PDF文件中识别出文本信息的方式;根据确定的识别方式,识别出PDF文件中的文本信息和对应的布局信息;根据PDF文件的属性信息,确定将PDF文件转换为何种类型的文件;将从PDF文件识别出的文本信息,根据布局信息,转换为上述确定的类型的文件。通过该方案,可自动确定将PDF文件转换为何种类型的文件,以最大可能还原原文件的内容和格式,自动确定出对于PDF文件采用的解析方法,以平衡解析效果和算力资源。

【技术实现步骤摘要】
一种PDF文件解析方法
本专利技术涉及文件识别领域,尤其是一种PDF文件解析方法。
技术介绍
PDF文件具有良好的格式稳定性和内容可读性,在文件传输、网页发布等领域具有广泛的应用。但是,绝大多数PDF文件,出于格式兼容性及安全性考虑,多基于扫描文件生成,不具有可编辑性,在需要编辑文件内容时,往往需要将其转换为其他格式的文档,最常见的方式为转换为word格式的文档,该类方式已存在较多的应用,例如Adobeacrobat、迅捷PDF转换器等。虽然现有设计可对PDF文件进行格式转换/内容识别,但是,其转换后的文件格式相对较单一,几乎都是转换为Word,而不同类型的文件-如Word、PPT、Excel图片-均可能生成PDF格式,如果均将PDF文件转换为Word格式,则一方面可能造成内容的不协调,不便于编辑,另一方面,还可能造成内容丢失、分段错误、文本识别错误。而对于编辑的需求考虑,以上任一项问题均会使转换效果失去价值。因此,需要一种根据原文件信息自动确定转换后文件类型的方案。
技术实现思路
本专利技术的专利技术目的在于:针对上述存在的问题,提供一种PDF文件解析方法,自动确定将PDF文件转换为何种类型,以最大可能还原文件的内容和格式。本专利技术采用的技术方案如下:一种PDF文件解析方法,包括以下步骤:根据设置或PDF文件包含的文本对象的信息,确定在PDF文件中识别出文本信息的方式;根据确定的识别方式,识别出PDF文件中的文本信息和对应的布局信息;根据PDF文件的属性信息,确定将PDF文件转换为何种类型的文件;将从PDF文件识别出的文本信息,根据布局信息,转换为上述确定的类型的文件。进一步的,所述根据PDF文件包含的文本对象的信息,确定在PDF文件中识别出文本信息的方式具体为:通过判断PDF文件中,文本对象和/或图片对象的占比,以决定对PDF文件的识别方式。进一步的,所述通过判断PDF文件中,文本对象和/或图片对象的占比,以决定对PDF文件的识别方式具体为:通过对PDF文件进行解析获取到文本对象和页面信息,根据文本对象对于文件页面的占比与预设占比阈值的关系,确定对PDF文件的解析方式。进一步的,所述根据PDF文件包含的文本对象的信息,确定在PDF文件中识别出文本信息的方式具体为:通过参考至少一个以下文件参数以决定识别PDF文件的方式:图片对象的数量、图片对象对于页面尺寸的占比、文本对象的内容、文本对象的位置、文本对象的长度、文件是否包含有OCR文本或隐藏文本。进一步的,根据文本对象的内容确定在PDF文件中识别出文本信息的方式具体为:判断文本对象的内容中是否包含关键字以决定对PDF文件进行识别的方式。进一步的,在识别PDF文件过程中,对于图片对象的识别具体为:先对图片对象进行图像增强处理,再进行解析。进一步的,所述根据PDF文件的属性信息,确定将PDF文件转换为何种类型的文件具体为:所述PDF文件的属性信息包括PDF文件的来源和/或PDF文件的页面信息,若所述PDF文件的属性信息包括PDF文件的来源,则通过该来源确定转换的类型,否则,通过PDF文件的页面信息确定转换的类型。进一步的,所述通过PDF文件的页面信息确定转换的类型具体为:预设有若干页面信息与转换类型的对应关系,将PDF文件的页面信息对照该对应关系,确定PDF文件的转换类型。进一步的,所述预设的若干页面信息与转换类型的对应关系为:若干页面尺寸与转换类型的对应关系,或者为若干页面尺寸比例与转换类型的对应关系。进一步的,所述页面尺寸比例为比值或阈值区间。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1、快速、准确、自动确定将PDF文件转换为何种类型的文件,以最大可能还原原文件的内容和格式。2、自动确定出对于PDF文件采用的解析方法,以平衡解析效果和算力资源。附图说明本专利技术将通过例子并参照附图的方式说明,其中:图1是PDF解析方法的一个实施例。具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。如图1所示,本实施例公开了一种PDF文件解析方法,针对于PDF文件单页,包括以下步骤:S1:根据设置或PDF文件包含的文本对象的信息,确定在PDF文件中识别出文本信息的方式。一般的,PDF文件可分为文本类和图片类,图片类PDF文件主要是由扫描件、图片等转换成的PDF文件,该类文件以图片形式展示文本信息,直接对该类PDF文件进行解析无法获取到其包含的文本信息,只能获取到图片对象,通常此类PDF文件采用OCR(OpticalCharacterRecognition,光学字符识别)进行解析;对于文本类PDF,在文件中,主要包含文本对象,比较直观的感受就是,这类PDF中的文字可以通过鼠标选定,此类文件属于将文本信息直接进行编码得到的结果,可直接通过逆向解码解析出包含的文本信息(解析方法为现有技术)。所谓设置,是指可以直接规定对PDF文件进行识别的方式,例如规定全部/部分页面采用OCR。对于需要解析的PDF文件来说,其可能即包含有文本对象,又包含有图片对象(即既有文字,又有图片,如果没有文本对象,则必然为图片类PDF文件),可以采用将PDF文件中的文本对象和图片对象进行分离,对分离的图片对象进行OCR识别,对分离的文本对象进行直接解析的方式,以对整页PDF文件进行解析。在一个实施方式中,通过判断文本对象和/或图片对象的占比,以决定对PDF文件的识别方式。具体的,通过对PDF文件进行解析获取到文本对象和页面信息(包含文件页面的尺寸),根据文本对象对于文件页面的占比与预设占比阈值的关系,确定对PDF文件的解析方式。通常的,在文本对象占比未达到预设占比阈值时,就可以认为文件主要由图片对象组成,对于此类文件,可直接采用OCR对PDF文件进行解析,而无需单独分离出文本对象和图片对象进行分别识别,原因是将文本对象和图片对象进行分类的工作量开销将高于直接采用OCR对文本对象进行识别的工作量开销,上述方案可节约一定的资源(包括时间资源和算力资源);相反,若文本对象占比达到预设占比阈值时,则考虑其他识别方式,例如采用将文本对象和图片对象进行分离识别的方式(对应于存在图片对象的情况)。在另一个实施方式中,通过参考至少一个以下文件参数以决定识别PDF文件的方式:图片对象的数量、图片对象对于页面尺寸的占比、文本对象的内容、文本对象的位置、文本对象的长度、文件是否包含有OCR文本或隐藏文本(此类情况主要是部分图片转PDF的应用会在扫描时,自动进行OCR处理,使得在PDF文件中图片对象显示的文本的对应位置有隐藏的文本,通常此类文本存在错误或乱码的情况,直观的感受就是直接复制文件中的文本,粘贴的结果与显示的结果不同,则此类PDF文件归于图片类文件,采用OCR进行识别)。对于图片对象数量较多(达到预设数量门限),或者图片对象占比较高(达到预设比例)的PDF文件,通常归于图片类文件,采用OCR进行识别,较分离文本对象和图片对象进行识别的方式,可减少计算资源本文档来自技高网...

【技术保护点】
1.一种PDF文件解析方法,其特征在于,包括以下步骤:根据设置或PDF文件包含的文本对象的信息,确定在PDF文件中识别出文本信息的方式;根据确定的识别方式,识别出PDF文件中的文本信息和对应的布局信息;根据PDF文件的属性信息,确定将PDF文件转换为何种类型的文件;将从PDF文件识别出的文本信息,根据布局信息,转换为上述确定的类型的文件。

【技术特征摘要】
1.一种PDF文件解析方法,其特征在于,包括以下步骤:根据设置或PDF文件包含的文本对象的信息,确定在PDF文件中识别出文本信息的方式;根据确定的识别方式,识别出PDF文件中的文本信息和对应的布局信息;根据PDF文件的属性信息,确定将PDF文件转换为何种类型的文件;将从PDF文件识别出的文本信息,根据布局信息,转换为上述确定的类型的文件。2.如权利要求1所述的解析方法,其特征在于,所述根据PDF文件包含的文本对象的信息,确定在PDF文件中识别出文本信息的方式具体为:通过判断PDF文件中,文本对象和/或图片对象的占比,以决定对PDF文件的识别方式。3.如权利要求2所述的解析方法,其特征在于,所述通过判断PDF文件中,文本对象和/或图片对象的占比,以决定对PDF文件的识别方式具体为:通过对PDF文件进行解析获取到文本对象和页面信息,根据文本对象对于文件页面的占比与预设占比阈值的关系,确定对PDF文件的解析方式。4.如权利要求1所述的解析方法,其特征在于,所述根据PDF文件包含的文本对象的信息,确定在PDF文件中识别出文本信息的方式具体为:通过参考至少一个以下文件参数以决定识别PDF文件的方式:图片对象的数量、图片对象对于页面尺寸的占比、文本对象的内容、文本对象的位置、文本对象的长度、文件...

【专利技术属性】
技术研发人员:马万炯陈俊周杨龙杰杨琴李剑左林翼
申请(专利权)人:四川译讯信息科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1