一种PDF文件类别判定方法及文字提取方法技术

技术编号:21089806 阅读:103 留言:0更新日期:2019-05-11 10:02
本发明专利技术公开了一种PDF文件类别判定方法及文字提取方法,类别判定方法包括:根据制作程序判定类别的步骤、根据文件字体判定类别的步骤、根据文件文档结构判定类别的步骤、根据CMAP字符映射表判定类别的步骤和根据文件包含的图片的信息判定类别的步骤。文字提取方法在判定出文件类别后,选择对应与文件类别的文字提取方法识别和提取文件中的文字。本发明专利技术采用逐级判定的方式,可对所有PDF文件的类别进行准确、快速的判定,判定效率高、消耗资源少,通用性强。

A Method for Classification and Text Extraction of PDF Files

【技术实现步骤摘要】
一种PDF文件类别判定方法及文字提取方法
本专利技术涉及内容识别领域,尤其是一种PDF文件类别判定方法及文字提取方法。
技术介绍
PDF文档是现今一种普遍通用的文件格式,它能保存源文档的字体、格式、颜色和图形,文档中的文字在传输或者分享的过程中不会发生改变,也不支持编辑。同时由于生成来源不同,PDF格式文档分为两类:电子文件直接转换生成PDF文件,即文本类PDF;非电子文件(图片、手机拍的照片等)通过扫描生成PDF文本,即图片类PDF。这两类PDF文件都能维持源文件的完整性,但其不可编辑的属性也具有极大不便,比如不能用于二次编辑、自动翻译、格式重构等再加工场景。目前已有的一些PDF文字提取工具,如ApachePDFbox(由Apache公司开发)、iTextSharp等可以将文本类PDF中的文字提取出用于二次加工,但此类应用不能自动判别文件的类别,对所有输入的文件均采用同一种方法提取文字,不具备对文件的通用性。
技术实现思路
本专利技术的专利技术目的在于:针对上述存在的问题,提供一种自动判别文件类别,进而自动采用相应文字提取方法的方案,可以对输入文件的类别(文本类或图片类)进行自动判断,本文档来自技高网...

【技术保护点】
1.一种PDF文件类别判定方法,其特征在于,包括以下步骤:A.读取PDF文件的制作程序,根据读取结果,判断PDF文件是图片类还是非图片类,若是非图片类,则进行下一步;B.读取PDF文件的字体,根据读取结果,判断PDF文件是图片类还是非图片类,若是非图片类,则进行下一步;C.识别PDF文件是否包含透明字体,若包含透明字体,则判定为图片类,否则,进行下一步;D.查找PDF文件的CMAP(计算机语言函数)字符映射表,根据查找结果,判断PDF文件是图片类还是非图片类,若是非图片类,则进行下一步;E.读取出PDF文件中的图片,识别出图片信息,根据图片信息,从预设文件类别判定步骤中,选择对应的文件类别判定...

【技术特征摘要】
1.一种PDF文件类别判定方法,其特征在于,包括以下步骤:A.读取PDF文件的制作程序,根据读取结果,判断PDF文件是图片类还是非图片类,若是非图片类,则进行下一步;B.读取PDF文件的字体,根据读取结果,判断PDF文件是图片类还是非图片类,若是非图片类,则进行下一步;C.识别PDF文件是否包含透明字体,若包含透明字体,则判定为图片类,否则,进行下一步;D.查找PDF文件的CMAP(计算机语言函数)字符映射表,根据查找结果,判断PDF文件是图片类还是非图片类,若是非图片类,则进行下一步;E.读取出PDF文件中的图片,识别出图片信息,根据图片信息,从预设文件类别判定步骤中,选择对应的文件类别判定步骤,以判定PDF文件为图片类或文本类文件类别。2.如权利要求1所述的类别判定方法,其特征在于,所述步骤E中的图片信息包括:图片数量、图片尺寸和图片中的字符数。3.如权利要求2所述的类别判定方法,其特征在于,所述步骤E中,预设的文件类别判定步骤包括:分别针对含一张图片和含超过一张图片的文件类别判定步骤。4.如权利要求3所述的类别判定方法,其特征在于,所述步骤E中,针对仅含一张图片的PDF文件类别判定步骤为:计算图片的尺寸;在图片尺寸满足预定尺寸时,识别图片中的字符数,检测文件中是否含有水印,在检测到文件中含有水印时,识别出该水印的信息;在图片尺寸满足预定尺寸、图片中的字符数达到对应于所述预定尺寸的预定阈值、文件不含水印或水印的信息满足预定条件时,判定PDF文件为文本类文件。5.如权利要求4所述的类别判定方法,其特征在于,所设定的预定尺寸包括第一预定尺寸和第二预定尺寸;对应于第一预定尺寸,所设定的预定阈值为第一预定阈值;对...

【专利技术属性】
技术研发人员:马万炯陈俊周杨龙杰左林翼李剑
申请(专利权)人:四川译讯信息科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1