一种PDF文档的文本提取方法和装置制造方法及图纸

技术编号：12879916 阅读：54 留言：0更新日期：2016-02-17 14:02

本发明专利技术公开了一种PDF文档的文本提取方法和装置，所述方法包括：根据PDF文档中各字符的显示空间获得所述各字符的排版空间；若当前字符的排版空间与前一字符的排版空间间隔的距离大于第一预设阈值时，在所述当前字符的排版空间之前插入空格。本发明专利技术避免了采用现有排版软件导出PDF文档后提取的文本中英文字符连接在一起的现象，提高了PDF文档的文本提取的准确性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于阅读和数据加工
，具体涉及一种PDF文档的文本提取方法和目.ο
技术介绍
随着数字出版技术的快速发展，越来越多的出版机构开始以数字形式，即电子文档形式发行图书。目前，在编辑、加工和印刷的过程中，这些图书的电子文档是由排版软件(例如方正书版或方正飞腾)所创建，排版后导出大样文件用于印刷。由于大样文件只能用于印刷，不能用于电子阅读，因此，一般使用排版软件提供的工具将大样文件转换为便携文件(Portable Document Format, PDF)用于电子阅读。图1为采用排版软件导出的PDF文档示意图，图2为采用排版软件导出的PDF文档的排版空间的示意图，图3为采用现有方法提取的由排版软件导出的TOF电子文件的文本示意图。如图1至图3所示，由于排版软件的编码系统与国际通用的编码系统不一致，造成大样文件中的字符(例如:英文字母、数字、符号等)转换为PDF文档后，这些字符被转换为全角文字，使得将PDF文档手动拷贝到电子文档中时英文单词的排版空间之间没有空余空间，甚至还有重叠(如图2所示)，然而电子阅读应用是根据字符排版空间之间的间隔来判断空格，全角字符的情况下，英文内容会连接在一起(如图3所示)，使得PDF文档中提取文本的准确性和可靠性差，在电子阅读的过程中一方面不利于电子文档的检索，另一方面用户需要对提取的文本进行手动编辑，这种操作费时费力。
技术实现思路
有鉴于此，本专利技术提出了一种PDF文档的文本提取方法和装置，使得从排版软件导出来的PDF文档中提取出来的字符(例如:英文、数字、符号等)内容不会连接在一起，提高PDF文档的文...

【技术保护点】
一种PDF文档的文本提取方法，其特征在于，所述方法包括：根据PDF文档中各字符的显示空间获得所述各字符的排版空间；判断相邻字符的排版空间之间的间隔是否大于第一预设阈值，若是，则在所述相邻字符的排版空间之间插入空格。

【技术特征摘要】

【专利技术属性】
技术研发人员：楼永植，
申请(专利权)人：汉王科技股份有限公司，中国新闻出版研究院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人