一种PDF文档注释的获取方法及装置制造方法及图纸

技术编号：12962592 阅读：48 留言：0更新日期：2016-03-03 04:45

本发明专利技术提供一种PDF文档注释的获取方法及装置，其中，该方法包括：对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；对所述交叉索引表进行检索，得到文件尾Trailer字典；对所述文件尾TRAILER字典进行分析，得到键值Root对应的目录簿Catalog字典；对所述目录薄Catalog字典进行检索，获得所述PDF文档的页面字典；其中，所述页面字典包括：PDF文档的页面；对所述PDF文档的页面字典进行检索，获取所述PDF文档的页面的注释。本发明专利技术的方案能够便捷、准确、高效地将PDF文档中的注释提取出来，方便用户对提取出来的注释进行后续处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息抽取领域，特别是涉及一种PDF文档注释的获取方法及装置。
技术介绍
注释在人们阅读PDF时，通过roF阅读工具加入，通常是人们在阅读过程中，添加的对PDF文档某些内容的看法。这些注释对于日后的再利用具有重要的意义。同一TOF，同一内容，不同的使用者可能给出不同的注释。而PDF格式有其鲜明的技术特色，如跨平台性优越；可集成多种媒体信息出版和发布，可集成超文本链接、声音及动态影像等电子信息；提供了对网络信息发布的支持。其中，在TOF的可信可靠，维护信息完整性与一致性及保持信息安全性上，最为使用者所称道的则是其安全性，数字签名或使用密码保护。而其他格式则很容易地可以修改或编辑。 PDF的安全性首先保证了PDF文档不能被编辑，至少不能被轻易修改，PDF格式设计的初衷不是用来编辑的，对PDF文件内的小部分变动可能问题不大，但对PDF文档中的整块文字或影像的修改就相当困难，即便使用市场上的有关工具，也无法避开这类限制；其次可通过设置权限，限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除；注释作为一个相对独立的内容块存放在PDF文档中，由于TOF格式自身的上述特点，这导致了直接使用某些注释不大现实。
技术实现思路
本专利技术的目的是提供一种PDF文档注释的获取方法及装置，能够解决现有技术对 PDF文档注释的直接使用不便的问题。为了解决上述技术问题，本专利技术的实施例提供一种PDF文档注释的获取方法，其中，包括：对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；对所述交叉索引表进行检索...

【技术保护点】
一种PDF文档注释的获取方法，其特征在于，包括：对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；对所述交叉索引表进行检索，得到文件尾Trailer字典；对所述文件尾Trailer字典进行分析，得到键值Root对应的目录簿Catalog字典；对所述目录薄Catalog字典进行检索，获得所述PDF文档的页面字典；其中，所述页面字典包括：PDF文档的页面；对所述PDF文档的页面字典进行检索，获取所述PDF文档的页面的注释。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘利川，
申请(专利权)人：北大方正集团有限公司，北大方正信息产业集团有限公司，上海方正数字出版技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人