一种PDF文档识别方法、装置及电子设备制造方法及图纸

技术编号:24996963 阅读:45 留言:0更新日期:2020-07-24 17:59
本申请实施例提供了一种PDF文档识别方法、装置及电子设备,该方法包括:根据预设的面积计算算法,分别确定出预设数目个页面中包含的所有文字对象对应的文字面积和所有图像对象对应的图像面积;并分别确定出图片面积比值和文字面积比值;若图片面积比值和文字面积比值满足预设条件,则确定目标PDF文档的类型。可见,本申请实施例中,不仅仅是根据目标PDF文档中是否包含文字对象,而是通过同时分析目标PDF文档中预设数目个页面中的图片对象和文字对象,分别在目标PDF文档预设数目个页面中所占的比例,准确的确定出该目标PDF文档的格式类型,从而提高了对PDF文档的识别准确性。

【技术实现步骤摘要】
一种PDF文档识别方法、装置及电子设备
本申请涉及PDF文档编辑
,特别是涉及一种PDF文档识别方法、装置及电子设备。
技术介绍
PDF(PortableDocumentFormat,便携文档格式)是一种电子文档格式,这种格式的文档在用户的实际应用中具有诸多好处。例如,PDF格式的文档可以最大可能的保留文档编辑当初的原貌,避免了同一个文档在不同终端设备存储时,文档中的字体、版本等有所变动。现如今,生成PDF文档的方法有很多种,例如,通过PDF编辑器,将word,PPT等文件格式的文件直接转换成PDF文档格式。或者,终端设备分别对每页纸质版文档进行扫描,生成该页纸质版文档对应的图像,然后将生成的各图像拼接成PDF文档,例如,有些电子书,是通过扫描纸张版书籍中的每页内容,并将扫描的每页内容对应生成一张图片,然后将终端设备扫描生成的各张图片拼接成一个PDF文档。不同的PDF文档生成方式,生成的PDF文档类型也不同,例如,转换PDF文档和扫描PDF文档。其中,转换PDF文档为将word文件通过转换生成的PDF文档;而扫描PDF文档为通过对每页纸质版文档扫描生成的PDF文档。通过对不同类型的PDF文件进行识别,可以有效的为用户对PDF文档的进一步操作提供有效的算法,例如,针对通过扫描纸张版文档,生成的基于图片的扫描PDF文档中的文字对象,用户是无法对其进行复制、粘贴等操作的,因此,当终端设备识别出该PDF文档为基于图片的扫描PDF文档之后,可以提示用户采用OCR算法,进一步对该PDF文档进行解析,从而实现对该PDF文档中包含的文字对象进行复制、粘贴的操作。现有技术中,对基于图片的扫描PDF文档进行类型识别的方法是,解析基于图片的扫描PDF文档中是否包含字符,若不包含,则说明该PDF文档为基于图片的扫描PDF文档,这种通过解析基于图片的扫描PDF文档中是否包含字符,判断PDF文档是否为基于图片的扫描PDF文档的方式,识别PDF文档类型的准确度较低。
技术实现思路
本申请实施例的目的在于提供一种PDF文档识别方法、装置及电子设备,以提高识别PDF文档的准确性。具体技术方案如下:第一方面,提供了一种PDF文档识别方法,所述方法包括:获取目标PDF文档包含的预设数目个页面;对所述预设数目个页面进行解析,确定所述预设数目个页面中包含的图片对象和文字对象;根据所述预设数目个页面中包含的图片对象和预设的图片面积计算算法,确定所述预设数目个页面中包含的所有图片对象对应的图片面积,并根据所述预设数目个页面中包含的文字对象和预设的文字面积计算算法,确定所述预设数目个页面中包含的所有文字对象对应的文字面积;根据所述预设数目个页面对应的总页面面积和所述预设数目个页面中包含的所有图片对象对应的图片面积,确定所述图片面积与所述预设数目个页面对应的总页面面积的比值,并将该比值作为图片面积比值;根据所述预设数目个页面对应的总页面面积和所述预设数目个页面中包含的所有文字对象对应的文字面积,确定所述文字面积与所述预设数目个页面对应的总页面面积的比值,并将该比值作为文字面积比值;若所述图片面积比值和所述文字面积比值满足预设条件,则确定所述目标PDF文档的类型。可选的,所述根据所述预设数目个页面中包含的图片对象和预设的图片面积计算算法,确定所述预设数目个页面中包含的所有图片对象对应的图片面积的步骤,可以包括:根据获取的目标PDF文档的配置文件,确定所述预设数目个页面中包含的各个图片对象对应的长和宽;将所述预设数目个页面中包含的各个图片对象对应的长和宽相乘,得到所述各个图片对象对应的面积;将所述预设数目个页面中的各个图片对象对应的面积进行求和,得到所述预设数目个页面中包含的所有图片对象对应的图片面积。可选的,所述根据所述预设数目个页面中包含的文字对象和预设的文字面积计算算法,确定所述预设数目个页面中包含的所有文字对象对应的文字面积的步骤,可以包括:根据获取的目标PDF文档的配置文件,确定所述预设数目个页面中包含的各个文字对象对应的长和宽;将所述预设数目个页面中包含的各个文字对象对应的长和宽相乘,得到所述各个文字对象对应的面积;将所述预设数目个页面中包含的各个文字对象对应的面积进行求和,得到所述预设数目个页面中包含的所有文字对象对应的文字面积。可选的,所述若所述图片面积比值和所述文字面积比值满足预设条件,则确定所述目标PDF文档的类型的步骤,可以包括:若所述图片面积比值大于第一预设阈值,且所述文字面积比值小于第二预设阈值,则确定所述目标PDF文档为扫描PDF文档类型;其中,所述第一预设阈值大于第二预设阈值。可选的,所述目标PDF文档的类型包括扫描PDF文档和转换PDF文档;所述方法还可以包括:若所述目标PDF文档的类型为扫描PDF文档,则显示预设提示信息,所述预设提示信息用于提示用户对所述扫描PDF文档中的图片对象进行预设操作。第二方面,提供了一种PDF文档识别装置,所述装置包括:获取模块,用于获取目标PDF文档包含的预设数目个页面;对象确定模块,用于对所述预设数目个页面进行解析,确定所述预设数目个页面中包含的图片对象和文字对象;面积确定模块,用于根据所述预设数目个页面中包含的图片对象和预设的图片面积计算算法,确定所述预设数目个页面中包含的所有图片对象对应的图片面积,并根据所述预设数目个页面中包含的文字对象和预设的文字面积计算算法,确定所述预设数目个页面中包含的所有文字对象对应的文字面积;图片面积比值确定模块,用于根据所述预设数目个页面对应的总页面面积和所述预设数目个页面中包含的所有图片对象对应的图片面积,确定所述图片面积与所述预设数目个页面对应的总页面面积的比值,并将该比值作为图片面积比值;文字面积比值确定模块,用于根据所述预设数目个页面对应的总页面面积和所述预设数目个页面中包含的所有文字对象对应的文字面积,确定所述文字面积与所述预设数目个页面对应的总页面面积的比值,并将该比值作为文字面积比值;文档类型确定模块,用于若所述图片面积比值和所述文字面积比值满足预设条件,则确定所述目标PDF文档的类型。可选的,所述面积确定模块,可以包括:图片对象对应的长和宽确定子模块,用于根据获取的目标PDF文档的配置文件,确定所述预设数目个页面中包含的各个图片对象对应的长和宽;图片对象对应的面积确定子模块,用于将所述预设数目个页面中包含的各个图片对象对应的长和宽相乘,得到所述各个图片对象对应的面积;所有图片对象对应的图片面积确定子模块,用于将所述预设数目个页面中的各个图片对象对应的面积进行求和,得到所述预设数目个页面中包含的所有图片对象对应的图片面积。可选的,所述面积确定模块,还可以包括:文字对象对应的长和宽确定子模块,用于根据获取的目标PDF文档的配置文件,确定所述预设数目个页面中包含的各个文字对象对应的长和本文档来自技高网
...

【技术保护点】
1.一种PDF文档识别方法,其特征在于,所述方法包括:/n获取目标PDF文档包含的预设数目个页面;/n对所述预设数目个页面进行解析,确定所述预设数目个页面中包含的图片对象和文字对象;/n根据所述预设数目个页面中包含的图片对象和预设的图片面积计算算法,确定所述预设数目个页面中包含的所有图片对象对应的图片面积,并根据所述预设数目个页面中包含的文字对象和预设的文字面积计算算法,确定所述预设数目个页面中包含的所有文字对象对应的文字面积;/n根据所述预设数目个页面对应的总页面面积和所述预设数目个页面中包含的所有图片对象对应的图片面积,确定所述图片面积与所述预设数目个页面对应的总页面面积的比值,并将该比值作为图片面积比值;/n根据所述预设数目个页面对应的总页面面积和所述预设数目个页面中包含的所有文字对象对应的文字面积,确定所述文字面积与所述预设数目个页面对应的总页面面积的比值,并将该比值作为文字面积比值;/n若所述图片面积比值和所述文字面积比值满足预设条件,则确定所述目标PDF文档的类型。/n

【技术特征摘要】
1.一种PDF文档识别方法,其特征在于,所述方法包括:
获取目标PDF文档包含的预设数目个页面;
对所述预设数目个页面进行解析,确定所述预设数目个页面中包含的图片对象和文字对象;
根据所述预设数目个页面中包含的图片对象和预设的图片面积计算算法,确定所述预设数目个页面中包含的所有图片对象对应的图片面积,并根据所述预设数目个页面中包含的文字对象和预设的文字面积计算算法,确定所述预设数目个页面中包含的所有文字对象对应的文字面积;
根据所述预设数目个页面对应的总页面面积和所述预设数目个页面中包含的所有图片对象对应的图片面积,确定所述图片面积与所述预设数目个页面对应的总页面面积的比值,并将该比值作为图片面积比值;
根据所述预设数目个页面对应的总页面面积和所述预设数目个页面中包含的所有文字对象对应的文字面积,确定所述文字面积与所述预设数目个页面对应的总页面面积的比值,并将该比值作为文字面积比值;
若所述图片面积比值和所述文字面积比值满足预设条件,则确定所述目标PDF文档的类型。


2.根据权利要求1所述的方法,其特征在于,所述根据所述预设数目个页面中包含的图片对象和预设的图片面积计算算法,确定所述预设数目个页面中包含的所有图片对象对应的图片面积的步骤,包括:
根据获取的目标PDF文档的配置文件,确定所述预设数目个页面中包含的各个图片对象对应的长和宽;
将所述预设数目个页面中包含的各个图片对象对应的长和宽相乘,得到所述各个图片对象对应的面积;
将所述预设数目个页面中的各个图片对象对应的面积进行求和,得到所述预设数目个页面中包含的所有图片对象对应的图片面积。


3.根据权利要求1所述的方法,其特征在于,所述根据所述预设数目个页面中包含的文字对象和预设的文字面积计算算法,确定所述预设数目个页面中包含的所有文字对象对应的文字面积的步骤,包括:
根据获取的目标PDF文档的配置文件,确定所述预设数目个页面中包含的各个文字对象对应的长和宽;
将所述预设数目个页面中包含的各个文字对象对应的长和宽相乘,得到所述各个文字对象对应的面积;
将所述预设数目个页面中包含的各个文字对象对应的面积进行求和,得到所述预设数目个页面中包含的所有文字对象对应的文字面积。


4.根据权利要求1所述的方法,其特征在于,所述若所述图片面积比值和所述文字面积比值满足预设条件,则确定所述目标PDF文档的类型的步骤,包括:
若所述图片面积比值大于第一预设阈值,且所述文字面积比值小于第二预设阈值,则确定所述目标PDF文档为扫描PDF文档类型;其中,所述第一预设阈值大于第二预设阈值。


5.根据权利要求1所述的方法,其特征在于,所述目标PDF文档的类型包括扫描PDF文档和转换PDF文档;
所述方法还包括:
若所述目标PDF文档的类型为扫描PDF文档,则显示预设提示信息,所述预设提示信息用于提示用户对所述扫描PDF文档中的图片对象进行预设操作。


6.一种PDF文档识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标PDF文档包含的预设数目个页面;
对象确定模块,用于对所述预设数目个页面进行解析,确定所...

【专利技术属性】
技术研发人员:宁廷泽
申请(专利权)人:珠海金山办公软件有限公司北京金山办公软件股份有限公司广州金山移动科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1