当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于英文PDF文档的隐藏信息嵌入和提取方法技术

技术编号:9597043 阅读:79 留言:0更新日期:2014-01-23 02:29
本发明专利技术涉及一种基于英文PDF文档的隐藏信息嵌入和提取方法。嵌入方法包括:读入PDF文档的数据流;读入待嵌入的隐藏信息,并转换为二进制串;分析该PDF文档的逻辑结构,找出所有页面内容流对象;解压缩页面内容流对象的内容流,通过修改显示字符码的表示方式,在页面内容流中嵌入一定比特的信息头表示隐藏信息的长度,并在信息头后接着嵌入已转为二进制串的隐藏信息;重新压缩内容流并写入文件体;根据重压缩后内容流的长度变化,更新交叉引用表和文件尾;输出嵌有隐藏信息的PDF文档。本发明专利技术能在英文PDF文档中嵌入和提取隐藏信息,其具有良好的视觉隐蔽性和对文档的一般编辑行为是鲁棒的。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种基于英文PDF文档的隐藏信息嵌入和提取方法。嵌入方法包括:读入PDF文档的数据流;读入待嵌入的隐藏信息,并转换为二进制串;分析该PDF文档的逻辑结构,找出所有页面内容流对象;解压缩页面内容流对象的内容流,通过修改显示字符码的表示方式,在页面内容流中嵌入一定比特的信息头表示隐藏信息的长度,并在信息头后接着嵌入已转为二进制串的隐藏信息;重新压缩内容流并写入文件体;根据重压缩后内容流的长度变化,更新交叉引用表和文件尾;输出嵌有隐藏信息的PDF文档。本专利技术能在英文PDF文档中嵌入和提取隐藏信息,其具有良好的视觉隐蔽性和对文档的一般编辑行为是鲁棒的。【专利说明】一种基于英文PDF文档的隐藏信息嵌入和提取方法
本专利技术涉及多媒体信号处理领域,更具体地,涉及一种基于英文PDF文档的隐藏信息嵌入和提取方法。
技术介绍
近些年,随着网络技术的快速发展,人们开始越来越多地通过互联网传输和获取信息。与此同时,电子商务、电子政务等新型办公模式正被广泛应用,越来越多的行政、商业文件如授权书、注册单、合同、发票等,开始以电子文档的形式进行流通和传输。但在互联网这个开放的环境中,拷贝、篡改等恶意行为时刻威胁着电子文档的版权归属问题,大量版权盗用、非法传输、信息伪造等问题层出不穷。基于这种情况,电子文档的数据隐藏技术日益成为版权认证、真伪鉴定、解决纠纷的主要手段。PDF (Portable Document Format)文件格式是Adobe公司开发的电子文件格式。这种文件格式在Windows、Unix、Mac等操作系统中都是通用的,独立于操作系统平台。I3DF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。再者,PDF文件使用了工业标准的压缩算法,易于传输与储存。上述特性使得PDF成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。现有基于PDF文档的信息隐藏技术容易被文档的各种日常阅读操作和保存操作所破坏,嵌入后的隐藏信息难以被完整提取出来。因此,基于PDF文档的信息隐藏技术的研究,是有十分重要的实际意义的。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷(不足),提供一种。为解决上述技术问题,本专利技术的技术方案如下:一种基于英文PDF文档的隐藏信息嵌入方法,包括:读入PDF文档的数据流;读入待嵌入的隐藏信息,并转换为二进制串;分析该PDF文档的逻辑结构,找出所有页面内容流对象;解压缩页面内容流对象的内容流,通过修改显示字符码的表示方式,在页面内容流中嵌入一定比特的信息头表示隐藏信息的长度,并在信息头后接着嵌入已转为二进制串的隐藏信息重新压缩内容流并写入文件体;根据重压缩后内容流的长度变化,更新交叉引用表和文件尾;输出嵌有隐藏信息的PDF文档。上述方案中,信息头嵌入页面内容流的方式为:利用内容流中操作符的操作数,当信息头的信息比特为O时,操作符中的文字串的显示字符码用字符表示;当信息头的信息比特为I时,操作符中的文字串的显示字符码用字符值的八进制序列表示。上述方案中,二进制串的隐藏信息嵌入页面内容流的方式为:利用内容流中操作符的操作数,当隐藏信息的信息比特为O时,操作符中的文字串的显示字符码用字符表示;当隐藏信息的信息比特为I时,操作符中的文字串的显示字符码用字符值的八进制序列表示。上述方案中,在页面内容流中嵌入一定比特的信息头表示隐藏信息的长度前还进行如下步骤:遍历页面内容流中所有的操作符的操作数,依次找到操作符中的所有文字串;计算文字串中所有显示字符码的个数;计算转为二进制串的隐藏信息的长度,将隐藏信息的长度转换为二进制串,将该二进制串作为信息头;将隐藏信息的长度和信息头的长度相加后与显示字符码的个数相比较,确定TOF文档中有足够的信息嵌入容量。上述方案中,二进制串的隐藏信息在嵌入页面内容流之前还利用密钥进行加密操作。上述方案中,根据隐藏信息的实际长度设置信息头的长度。一种基于英文PDF文档的隐藏信息提取方法,PDF文档为利用上述所述的方法嵌入隐藏信息后的文件,所述方法包括:读入嵌有隐藏信息的PDF文档数据流;分析该文档的逻辑结构,找出所有页面内容流对象;解压缩页面内容流对象的流,根据显示字符码的表示形式,提取位于前面的一定比特的信息并转换为十进制整数,该十进制整数即为隐藏信息的长度;根据隐藏信息的长度,在内容流中提取相应长度的二进制串;将二进制串转换为隐藏消息字符串并输出。上述方案中,根据显示字符码的表示形式,提取位于前面的一定比特的信息并转换为十进制整数,该十进制整数即为隐藏信息的长度包括:按顺序查找内页面内容流中操作符的操作数,在操作符中逐个查找文字串的显示字符码,如果文字串的显示字符码是字符则提取比特‘0’,如果文字串的显示字符码是八进制序列则提取比特‘I’,提取一定长度的二进制序列后,将该二进制序列转换为整数,即得到隐藏信息的长度。上述方案中,根据隐藏信息的长度,在内容流中提取相应长度的二进制串包括:在已提取了隐藏信息的长度的操作符后的操作符中,逐个查找文字串的显示字符码,如果文字串的显示字符码是字符则提取比特‘0’,如果文字串的显示字符码是八进制序列则提取比特‘I’,根据隐藏信息的长度提取相应长度的二进制串。上述方案中,当在内容流中提取的二进制串为经过加密操作的二进制串时,则还利用密钥对该二进制串进行解密操作,再将解密后的二进制串转换为隐藏信息。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术能够在英文PDF文档中嵌入和提取隐藏信息,利用英文PDF文档中的显示字符码嵌入特定的隐藏信息,以此为依据判别PDF文档的来源、版权、真伪等信息。其中,隐藏信息嵌入PDF文档后,对文档的显示不会带来任何的影响,具有良好的视觉隐蔽性。而且,被嵌入隐藏信息后的PDF文档通过用户一般的编辑性操作后,仍然能够从中提取出正确的隐藏信息,使得本专利技术的方法对文档的一般编辑行为是鲁棒的。【专利附图】【附图说明】图1为现有技术中显示字符码的利用字符与八进制序列表示的示例图。图2为部分显示字符码的转移序列图。图3为本专利技术一种基于英文PDF文档的隐藏信息嵌入方法具体实施例的流程图。图4为原载体文档和利用本专利技术方法嵌入隐藏信息后的文档显示对比图。图5为本专利技术一种基于英文PDF文档的隐藏信息提取方法具体实施例的流程图。图6为对已嵌入隐藏信息的文件进行的各种注释、标记操作的显示图。图7为原始文档与“另存为”文档的逻辑结构关系图。图8为对已嵌入隐藏信息的英文PDF文档进行各种攻击后的实验结果统计图。【具体实施方式】附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1本专利技术的方法基于文字串中的字符与八进制序列的等价关系来嵌入信息。如图1所示,其为显示字符码的两种表达方式示例。该图展示了字符与八进制序列的等价关系,图中的第一行,操作符TJ的操作数本文档来自技高网
...

【技术保护点】
一种基于英文PDF文档的隐藏信息嵌入方法,其特征在于,包括:读入PDF文档的数据流;读入待嵌入的隐藏信息,并转换为二进制串;分析该PDF文档的逻辑结构,找出所有页面内容流对象;解压缩页面内容流对象的内容流,通过修改显示字符码的表示方式,在页面内容流中嵌入一定比特的信息头表示隐藏信息的长度,并在信息头后接着嵌入已转为二进制串的隐藏信息;重新压缩内容流并写入文件体;根据重压缩后内容流的长度变化,更新交叉引用表和文件尾;输出嵌有隐藏信息的PDF文档。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘红梅林少柳黄继武
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1