一种PDF文档注释的获取方法及装置制造方法及图纸

技术编号:12962592 阅读:48 留言:0更新日期:2016-03-03 04:45
本发明专利技术提供一种PDF文档注释的获取方法及装置,其中,该方法包括:对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表;对所述交叉索引表进行检索,得到文件尾Trailer字典;对所述文件尾TRAILER字典进行分析,得到键值Root对应的目录簿Catalog字典;对所述目录薄Catalog字典进行检索,获得所述PDF文档的页面字典;其中,所述页面字典包括:PDF文档的页面;对所述PDF文档的页面字典进行检索,获取所述PDF文档的页面的注释。本发明专利技术的方案能够便捷、准确、高效地将PDF文档中的注释提取出来,方便用户对提取出来的注释进行后续处理。

【技术实现步骤摘要】

本专利技术涉及信息抽取领域,特别是涉及一种PDF文档注释的获取方法及装置
技术介绍
注释在人们阅读PDF时,通过roF阅读工具加入,通常是人们在阅读过程中,添加 的对PDF文档某些内容的看法。这些注释对于日后的再利用具有重要的意义。同一TOF,同 一内容,不同的使用者可能给出不同的注释。 而PDF格式有其鲜明的技术特色,如跨平台性优越;可集成多种媒体信息出版和 发布,可集成超文本链接、声音及动态影像等电子信息;提供了对网络信息发布的支持。其 中,在TOF的可信可靠,维护信息完整性与一致性及保持信息安全性上,最为使用者所称道 的则是其安全性,数字签名或使用密码保护。而其他格式则很容易地可以修改或编辑。 PDF的安全性首先保证了PDF文档不能被编辑,至少不能被轻易修改,PDF格式设 计的初衷不是用来编辑的,对PDF文件内的小部分变动可能问题不大,但对PDF文档中的整 块文字或影像的修改就相当困难,即便使用市场上的有关工具,也无法避开这类限制;其次 可通过设置权限,限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除; 注释作为一个相对独立的内容块存放在PDF文档中,由于TOF格式自身的上述特点,这导致 了直接使用某些注释不大现实。
技术实现思路
本专利技术的目的是提供一种PDF文档注释的获取方法及装置,能够解决现有技术对 PDF文档注释的直接使用不便的问题。 为了解决上述技术问题,本专利技术的实施例提供一种PDF文档注释的获取方法,其 中,包括: 对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表; 对所述交叉索引表进行检索,得到文件尾Trailer字典; 对所述文件尾Trailer字典进行分析,得到键值Root对应的目录簿Catalog字 JL. ,、9 对所述目录薄Catalog字典进行检索,获得所述PDF文档的页面字典;其中,所述 页面字典包括:PDF文档的页面; 对所述PDF文档的页面字典进行检索,获取所述PDF文档的页面的注释。 其中,所述对所述PDF文档的体系结构进行解析,获取PDF文档的交叉索引表的步 骤包括: 对PDF文档的树形层次数据结构进行解析,获取所述PDF文档的交叉索引表。 其中,所述对所述文件尾Trailer字典进行分析,得到键值Root对应的目录簿 Catalog字典的步骤包括: 对所述Trailer字典进行分析,获取键值Root; 根据所述键值Root,获取所述键值Root对应的目录薄Catalog字典。 其中,所述对所述目录薄Catalog字典进行检索,获得所述PDF文档的页面字典的 步骤包括: 对所述目录薄Catalog字典进行检索,获取键值Pages; 根据所述键值Pages,获取所述键值pages对应的所述PDF文档的页面字典。 其中,所述对所述PDF文档的页面字典进行检索,获取所述PDF文档的页面的注释 的步骤包括: 步骤a,获取所述PDF文档的页面字典中一当前页面;其中,每个页面包括页面页 码信息、页面内容信息、上一个Prev指针信息和下一个Next指针信息; 步骤b,根据键值Annots,获取当前页面的页面页码信息以及当前页面的页面内 容信息中的注释信息; 步骤c,根据所述当前页面的Prev指针信息,获取所述当前页面的上一页面;其 中,所述上一页面为一新当前页面;并重复步骤b,获取新当前页面页码信息以及新当前页 面的页面内容信息中的注释信息;和/或 根据所述当前页面的Next指针信息,获取所述当前页面的下一页面;其中,所述 下一页面为一新当前页面;并重复步骤b,获取新当前页面页码信息以及新当前页面的页 面内容信息中的注释信息; 步骤d,重复步骤c中根据当前页面的Prev指针信息,获取所述当前页面的上一页 面信息;其中,所述上一页面为一新当前页面;并重复步骤b,获取所述新当前页面页码信 息以及所述新当前页面的页面内容信息中的注释信息的步骤,至当前页面的Prev指针信 息为空;和/或 重复步骤c中根据当前页面的Next指针信息,获取所述当前页面的下一页面信 息;其中,所述下一页面为一新当前页面;并重复步骤b,获取所述新当前页面页码信息以 及所述新当前页面的页面内容信息中的注释信息的步骤,至当前页面的Next指针信息为 空。 为了解决上述技术问题,本专利技术的实施例还提供一种PDF文档注释的获取装置, 其中,包括: 第一获取模块,用于对PDF文档的体系结构进行解析,获取PDF文档的交叉索引 表; 第二获取模块,用于对所述交叉索引表进行检索,得到文件尾Trailer字典; 第三获取模块,用于对所述文件尾Trailer字典进行分析,得到键值Root对应的 目录簿Catalog字典; 第四获取模块,用于对所述目录薄Catalog字典进行检索,获得所述PDF文档的页 面字典;其中,所述页面字典包括:PDF文档的页面; 第五获取模块,用于对所述PDF文档的页面字典进行检索,获取所述PDF文档的页 面的注释。 其中,所述第一获取模块包括: 第一获取子模块,用于对PDF文档的树形层次数据结构进行解析,获取所述PDF文 档的交叉索引表。 其中,所述第三获取模块包括: 第二获取子模块,用于对所述Trailer字典进行分析,获取键值Root; 第三获取子模块,用于根据所述键值Root,获取所述键值Root对应的目录薄 Catalog字典。 其中,所述第四获取模块包括: 第四获取子模块,用于对所述目录薄Catalog字典进行检索,获取键值Pages; 第五获取子模块,用于根据所述键值Pages,获取所述键值Pages对应的所述roF 文档的页面字典。 其中,所述第五获取模块包括: 第六获取子模块,用于获取所述PDF文档的页面字典中一当前页面;其中,每个页 面包括页面页码信息、页面内容信息、上一个Prev指针信息和下一个Next指针信息; 第七获取子模块,用于根据键值Annots,获取当前页面的页面页码信息以及当前 页面的页面内容信息中的注释信息; 第八获取子模块,用于根据所述当前页面的Prev指针信息,获取所述当前页面的 上一页面;其中,所述上一页面为一新当前页面;并重复所述第七获取子模块所执行的步 骤,获取新当前页面页码信息以及新当前页面的页面内容信息中的注释信息;和/或 第九获取子模块,用于根据所述当前页面的Next指针信息,获取所述当前页面的 下一页面;其中,所述下一页面为一新当前页面;并重复所述第七获取子模块所执行的步 骤,获取新当前页面页码信息以及新当前页面的页面内容信息中的注释信息; 第一重复子模块,用于重复所述第八获取子单元所执行的步骤,至当前页面的 Prev指针信息为空;和/或 第二重复子模块,用于重复所述第九获取单元所执行的步骤,至当前页面的Next 指针信息为空。 本专利技术的有益效果是: 本专利技术的方案,对PDF文档中注释的提取便捷、准确、高效,方便了用户对提取出 来的注释进行后续处理。【附图说明】 图1表示本专利技术的PDF文档注释的获取方法流程示意图; 图2表示图1中步骤15的具体步骤流程示意图; 图3表示本专利技术的PDF文档注释的获取装置结构示意图一; 图4表示本专利技术的PDF文档注释的获取装置结构示意图二; 图5表示本专利技术的PDF文档注释的本文档来自技高网...

【技术保护点】
一种PDF文档注释的获取方法,其特征在于,包括:对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表;对所述交叉索引表进行检索,得到文件尾Trailer字典;对所述文件尾Trailer字典进行分析,得到键值Root对应的目录簿Catalog字典;对所述目录薄Catalog字典进行检索,获得所述PDF文档的页面字典;其中,所述页面字典包括:PDF文档的页面;对所述PDF文档的页面字典进行检索,获取所述PDF文档的页面的注释。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘利川
申请(专利权)人:北大方正集团有限公司北大方正信息产业集团有限公司上海方正数字出版技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1