一种PDF文档的文本提取方法和装置制造方法及图纸

技术编号:12879916 阅读:54 留言:0更新日期:2016-02-17 14:02
本发明专利技术公开了一种PDF文档的文本提取方法和装置,所述方法包括:根据PDF文档中各字符的显示空间获得所述各字符的排版空间;若当前字符的排版空间与前一字符的排版空间间隔的距离大于第一预设阈值时,在所述当前字符的排版空间之前插入空格。本发明专利技术避免了采用现有排版软件导出PDF文档后提取的文本中英文字符连接在一起的现象,提高了PDF文档的文本提取的准确性和可靠性。

【技术实现步骤摘要】

本专利技术属于阅读和数据加工
,具体涉及一种PDF文档的文本提取方法和 目.ο
技术介绍
随着数字出版技术的快速发展,越来越多的出版机构开始以数字形式,即电子文档形式发行图书。目前,在编辑、加工和印刷的过程中,这些图书的电子文档是由排版软件(例如方正书版或方正飞腾)所创建,排版后导出大样文件用于印刷。由于大样文件只能用于印刷,不能用于电子阅读,因此,一般使用排版软件提供的工具将大样文件转换为便携文件(Portable Document Format, PDF)用于电子阅读。图1为采用排版软件导出的PDF文档示意图,图2为采用排版软件导出的PDF文档的排版空间的示意图,图3为采用现有方法提取的由排版软件导出的TOF电子文件的文本示意图。如图1至图3所示,由于排版软件的编码系统与国际通用的编码系统不一致,造成大样文件中的字符(例如:英文字母、数字、符号等)转换为PDF文档后,这些字符被转换为全角文字,使得将PDF文档手动拷贝到电子文档中时英文单词的排版空间之间没有空余空间,甚至还有重叠(如图2所示),然而电子阅读应用是根据字符排版空间之间的间隔来判断空格,全角字符的情况下,英文内容会连接在一起(如图3所示),使得PDF文档中提取文本的准确性和可靠性差,在电子阅读的过程中一方面不利于电子文档的检索,另一方面用户需要对提取的文本进行手动编辑,这种操作费时费力。
技术实现思路
有鉴于此,本专利技术提出了一种PDF文档的文本提取方法和装置,使得从排版软件导出来的PDF文档中提取出来的字符(例如:英文、数字、符号等)内容不会连接在一起,提高PDF文档的文本提取的准确性和可靠性。—方面,本专利技术提供了一种PDF文档的文本提取方法,所述方法包括: 根据PDF文档中各字符的显示空间获得所述各字符的排版空间; 判断相邻字符的排版空间之间的间隔是否大于第一预设阈值,若是,则在所述相邻字符的排版空间之间插入空格。进一步地,所述根据PDF文档中各字符的显示空间获得所述各字符的排版空间包括: 获取PDF文档中各字符的显示空间; 计算所述显示空间中各字符的栅格区域; 增大所述栅格区域后获取所述各字符的排版空间。进一步地,所述PDF文档的排版方式为横版,所述栅格区域为显示空间中各字符的像素宽度,所述像素宽度包括像素宽度左边界和像素宽度右边界,增大所述栅格区域包括: 将所述像素宽度左边界向左增大第二预设阈值;以及将所述像素宽度右边界向右增大第三预设阈值; 进一步地,所述PDF文档的排版方式为竖版,所述栅格区域为显示空间中各字符的像素高度,所述像素高度包括像素高度上边界和像素高度下边界,增大所述栅格区域包括:将所述像素高度上边界向上增大第四预设阈值;以及将所述像素高度下边界向下增大第五预设阈值。进一步地,在判断相邻字符的排版空间之间的间隔是否大于第一预设阈值之前,所述方法还包括: 判断当前字符的排版空间前为空,若是,则判断所述当前字符为行首,在所述当前字符的排版空间之前不插入空格。另一方面,本专利技术提供了一种PDF文档的文本提取装置,所述装置包括: 排版空间获取模块,用于根据PDF文档中各字符的显示空间获得所述各字符的排版空间; 第一判断模块,用于判断相邻字符的排版空间之间的间隔是否大于第一预设阈值,若是,则在所述相邻字符的排版空间之间插入空格。进一步地,所述排版空间获取模块包括: 显示空间获取单元,用于获取PDF文档中各字符的显示空间; 计算单元,用于计算所述显示空间中各字符的栅格区域; 增大单元,用于增大所述栅格区域后获取所述各字符的排版空间。进一步地,所述PDF文档的排版方式为横版,所述栅格区域为显示空间中各字符的像素宽度,所述像素宽度包括像素宽度左边界和像素宽度右边界,所述增大单元包括: 第一增大子单元,用于将所述像素宽度左边界向左增大第二预设阈值;以及第二增大子单元,用于将所述像素宽度右边界向右增大第三预设阈值。进一步地,所述PDF文档的排版方式为竖版,所述栅格区域为显示空间中各字符的像素高度,所述像素高度包括像素高度上边界和像素高度下边界,所述增大单元包括: 第三增大子单元,用于将所述像素高度上边界向上增大第四预设阈值;以及第四增大子单元,用于将所述像素高度下边界向下增大第五预设阈值。进一步地,所述装置还包括: 第二判断模块,用于判断当前字符的排版空间前为空,若是,则判断所述当前字符为行首,在所述当前字符的排版空间之前不插入空格。本专利技术提供的PDF文档的文本提取方法和装置,通过TOF文档中各字符的显示空间获得各字符的排版空间,通过PDF文档中相邻字符的排版空间之间的间隔是否大于第一预设阈值来判断是否需要在相邻字符之间插入空格,避免了采用排版软件导出PDF文档后提取的文本中英文、数字或符号等字符连接在一起的现象,提高了 PDF文档的文本提取的准确性和可靠性。【附图说明】通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显: 图1为采用排版软件导出的PDF文档示意图; 图2为采用排版软件导出的PDF文档的排版空间的示意图; 图3为采用现有方法提取的由排版软件导出的TOF电子文件的文本示意图; 图4为本专利技术第一实施例提供的PDF文档的文本提取方法的流程图; 图5为本专利技术第一实施例提供的方法中获得各字符的排版空间的示意图; 图6为采用本专利技术第一实施例提供的方法对PDF文档中的文本进行提取的结果示意图; 图7为本专利技术第二实施例提供的PDF文档的文本提取装置的结构图。【具体实施方式】下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。本专利技术实施例提供的PDF文档的文本提取方法和装置,可以用于从现有的排版软件导出的PDF文档中提取文本,所述现有的排版软件包括但不限制于:方正书版、方正维思或方正飞腾等,该方法能够解决现有排版软件导出的PDF文档中提取出的字符(该字符例如为:阿拉伯数目字、英文字母、标点符号、特殊符号)连接在一起的问题,从而提高文本提取的准确性和可靠性,方便用户进行电子文档检索并且不需要用户对提取的文本进行手动编辑,增强了用户体验。需要说明的是,本专利技术实施例提供的PDF文档包括横版PDF文档和竖版PDF文档,由于常见的英文PDF文档为横版,因此,本专利技术实施例将以横版PDF文档的文本提取为例进行说明,对于竖版PDF文档的文本提取可参考横版PDF文档的文本提取进行理解,本专利技术实施例将不再赘述。图4为本专利技术第一实施例提供的PDF文档的文本提取方法的流程图,下面结合图4对所述方法进行详述,如图4所示,所述方法包括: 步骤11、根据PDF文档中各字符的显示空间获得所述各字符的排版空间。在本步骤中,PDF文档为现有排版软件导出的文件,字符包括该PDF文档中的阿拉伯数字、英文字母、标点符号、特殊符号等,通过现有排版软件导出的PDF文档中的字符为全角字符,各字符占用2个字符位置。各字符的显示空间为各字符的黑色像素所占据的空间,各字符的排版空间为排版时候字符的两个光标之间的位置,即排版软件中本文档来自技高网...

【技术保护点】
一种PDF文档的文本提取方法,其特征在于,所述方法包括:根据PDF文档中各字符的显示空间获得所述各字符的排版空间;判断相邻字符的排版空间之间的间隔是否大于第一预设阈值,若是,则在所述相邻字符的排版空间之间插入空格。

【技术特征摘要】

【专利技术属性】
技术研发人员:楼永植
申请(专利权)人:汉王科技股份有限公司中国新闻出版研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1