以一类PDF文本作为掩体的信息嵌入和提取方法技术

技术编号:4193008 阅读:258 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种以一类PDF文本作为掩体的信息嵌入方法,包括:根据嵌入信息生成标识串FlagStr1、标识串FlagStr2,根据隐写密钥生成替换数字串;在所述标识串FlagStr2前加“0.”,将该标识串转化为(0,1)间的实数;构造两个Logistic混沌序列密码生成器Chao1和Chao2;遍历并替换PDF文件的所有TJ操作对象中的数字;将包含完整嵌入信息的PDF文件转换为隐写文件。本发明专利技术还提供了一种以一类PDF文本作为掩体的信息提取方法。

【技术实现步骤摘要】

本专利技术涉及计算机网络信息通信安全
,特别是一种以一类PDF文本作为掩体的信息嵌入和提取方法。
技术介绍
信息加密是保证通讯安全的重要方式,但是在实际应用中仅仅使用加密通常是不够的。尽管现代密码术已经发展成为 一 门比较成熟的学科,但在许多需要秘密通信的应用中仍然倾向于对信息进行加密后再进行隐写,以不引起人们的注意。由于经过加密方法处理所生成的密文具有随机性,因而很容易引起监控者的注意,并可以以此为依据展开对密文的破译或对发送者和接收者的攻击,而如果发送的是一条表面上可以被任何人读取的信息,那么就可以减少人们对它产生怀疑并试图寻找秘密信息的可能性。因此,通信安全的研究不仅包括密码术的研究,还包括信息隐藏技术的研究,而隐写技术是信息隐藏技术的重要分支。与密码术保护信息内容的目的不同,隐写技术是为了隐蔽信息存在的事实或信息存在的位置,即将重要信息隐藏在其它信息之中,使得人们觉察不到它的存在,或者知道它的存在,但未经授权者无法确定它的位置。PDF文件是Portable Document Format的缩写,意为可携式文件格式,是由Adobe公司在1992年发表的。现在它已经成为跨平台的通用格式,可畅通无阻地在几乎任意平台上显示与阅读,已成为世界上通用的电子信息传递及在网络出版印刷中常用的标准格式文件,是网上电子杂志等最热门的传递方式之一。PDF格式文件以PostScript页面描述语言中确立的二维矢量图形成像方法作为基本的成像模型。作为格式文档,PDF格式页面元素不仅包括正文文本图元,还包括图形图元和图像图元等,对在图形图像图元中的信息隐写方法可参考现有文献(如:Proceedings of the First-Sixth Information Hiding Workshop, Spinger-Verlag,1996-2004等)。本专利技术仅研究以PDF文档的正文文本作为掩体的信息隐写方法,考虑到PDF文档的多样性,本专利技术以两端对齐的英文WORD文档转化生成的PDF文档(文本中的每一个字符各自精确定位)为例。与音,视频等数据不同,文本数据中含有很少的可用来进行秘密通信的冗余信息,以文本作为掩体与以音,视频作为掩体的信息隐写方法不尽相同。现有的在格式文档中隐写信息的方法不多(如Brassil J. et al. Electronic Marking and IdentificationTechniques to Discourage Document Copying. Proceeding of INFORCOM,94,1994, 1278-1287和Low S.H. et al. Document Identification for CopyrightProtection Using Centroid Detection. IEEE Transaction on Communications, Vol.46, No.3, 1998, 372-383等),典型的做法是将信息存储在行间距或列间距中以及采用字形特征编码等隐写单位为1 Bit的方法。现有的以格式文档为掩体的信息隐写方法有如下不足A.可隐写的信息量很小;B.可隐写的信息量难以估计;C.易被隐写分析攻破等。这些不足制约了隐写方法的实用性。
技术实现思路
本专利技术的目的是为了克服目前以格式文档为掩体的信息隐写方法的不足,本专利技术针对当前最热门的网络传递文档类型之一的PDF文档,在其正文文本中隐写较大可估计信息量的信息,支持盲提取,做到简单实用,且专利技术的方法本身遵守Kerckhoffs原理通信的安全性不依赖于对所使用方法本身的保密性,而仅依赖于隐写密钥。本专利技术所采用的总体技术方案是由于从两端对齐的英文WORD文档转化生成的PDF文档(文本中的每一个字符各自精确定位)的正文文本TJ操作对象的数字中存在着隐密信道,利用显示操作符TJ的页面描述机理,可在保证透明性的基础上,在TJ操作对象中有策略地选取部分整数数字(B《1来隐写可盲提取的信息。隐写方法的嵌入过程和提取过程按如下方案设计整数数字的选取采用以一定的冗余换取安全性的策略,只选取部分(冗余度参数可调)整数数字,,来隐写信息,选取算法的安全性依赖于伪随机数发生器的迭代初值(由隐写密钥生成),另外,还利用了单向散列函数SHA算法及MOD(16)运算来保证嵌入信息的数据完整性。本专利技术的优点在于本专利技术方法的隐写容量是可估计的。本专利技术由于采用了范围在1-16的整数(范围在0-15的整数数字加l)数字来隐写信息,故一个数字可表示4Bit的隐写信息,这比较上述将信息存储在行间距或列间距中以及采用字形特征编码的方法(隐写单位为1 Bit)将能隐写较大的信息量。图l为选取PDF参考手册(Adobe Systems Incorporated. Portable Document FormatReference Manual. Version 1.3 . http:〃www.Adobe.com. March, 1999.)的Chapterl.l ~ 2.3.1的内容生成的PDF掩体文件PDFCoverFile.pdf,共6页,包含24026个字符;图2为4668字节的嵌入信息(经处理的Lena图片);图3为经过本专利技术方法处理的隐写了图2的隐写文件PDFStegoFile.pdf;当选取90%(冗余度参数为10%)的范围在1-16的整数数字来隐写信息(范围在1-16的整数数字减l)时,明显地,隐写文件PDFStegoFile.pdf保持了显示的透明性,且可隐写率(隐写信息字节数/英文正文文本字符数)为(4668/24026)xl00%9.43%。本专利技术对不同排版格式(如:单列,双列等)的PDF掩体以及对含有各类文本(数学公式等),图形,图像等页面元素的PDF掩体都是完全适用的。另夕卜,本专利技术方法的安全性遵守Kerckhoffs原理;具备对嵌入信息数据完整性的保证机制以及支持盲提取等特点,这些特点提高了本专利技术方法的实用性。丄户/XF义y^jHjtX本Wf面潜迷A理PDF把对文本的操作封装起来构成文本对象,每一个文本对象都包含有自己的字符编码、文本状态参数和坐标操作符。PDF将文本字符看作图像模型,每个字符对应一个特定的图形(glyph).字符图形以字体(font)方式编组, 一个字体包含了一组特定的字符码和图形,并且定义了字符码和图形之间的对应关系。程序执行时,每个字体生成带有名称的一个字典(fontdictionary),对每一个需要绘制的字符,程序首先寻找到含有该字符的字典名(fontname),从字典中得到字符码,再根据字符码取得字符图形。PDF文档的正文文本对象Text Object :以BT操作符开始,以ET操作符结束,其中包含了显示文本字符或字符串、移动文本状态、设置文本状态以及其它的一些参数信息。PDF文档中包括如下操作符文本状态操作符Tf,文本定位操作符Tm,文本定位操作符Td/ TD和文本显示操作符TJ/Tj等。文本状态操作符Tf:Tf的第1个参数为字体信息。文本定位操作符Tm:文本矩阵Tm的操作数为[Sx 0 0 Sy Tx Ty]其中,Tx和Ty是将原坐标系在x轴和y轴方向转化成的长度。新坐标系本文档来自技高网
...

【技术保护点】
一种以一类PDF文本作为掩体的信息嵌入方法,包括:  步骤1)、根据嵌入信息生成用于验证数据完整性的标识串FlagStr1以及替换数字串,根据隐写密钥生成标识串FlagStr2,所述标识串FlagStr1、替换数字串以及标识串FlagStr2依次排列形成替换数字库;其中,  所述的标识串FlagStr1、标识串FlagStr2以及替换数字串中的数字为范围在0到2m-1之间的整数,所述的m代表替换数字库中的数字表示成二进制数时的位数;  步骤2)、在所述标识串FlagStr2前加“0.”,将该标识串转化为(0,1)间的实数;  步骤3)、构造两个Logistic混沌序列密码生成器Chao1和Chao2,所述Chao1、Chao2的迭代初值ChaoKey都设置为步骤2)所得到的由标识串FlagStr2转化而来的实数,所述Chao1、Chao2的迭代值分别标记为Chao1Num,Chao2Num;  步骤4)、遍历PDF文件的所有TJ操作对象中的数字,若所遇数字的绝对值在1到2m之间,且所述Chao2Num的值大于用户预先设定的“冗余度参数”,则从所述替换数字库中顺序选取一未曾选取的数字,将该数字加“1”后替换TJ操作对象中当前所遇数字;若所遇数字的绝对值在1到2m之间,但所述Chao2Num的值小于所述“冗余度参数”,则将所述Chao1Num转化成范围在0到2m-1之间的一整数后,将该整数加“1”后替换TJ操作对象中当前所遇数字;若所遇数字的绝对值大于2m,则保持该数字不变;  步骤5)、所述Chao1和Chao2分别对所述Chao1Num、Chao2Num做迭代变换,然后对所述替换数字库中的数字是否都已被选择进行判断,若所述替换数字库中的数字都已被选取,则当所遇TJ操作对象中的数字的绝对值在1到2m之间时,将所述Chao1Num转化成范围在0到2m-1之间的一整数后,将该整数加“1”后替换TJ操作对象中当前所遇数字;若所述替换数字库中还有未被选取的数字,则重新执行步骤4);  步骤6)、将包含完整嵌入信息的PDF文件转换为隐写文件。...

【技术特征摘要】
1、一种以一类PDF文本作为掩体的信息嵌入方法,包括步骤1)、根据嵌入信息生成用于验证数据完整性的标识串FlagStr1以及替换数字串,根据隐写密钥生成标识串FlagStr2,所述标识串FlagStr1、替换数字串以及标识串FlagStr2依次排列形成替换数字库;其中,所述的标识串FlagStr1、标识串FlagStr2以及替换数字串中的数字为范围在0到2m-1之间的整数,所述的m代表替换数字库中的数字表示成二进制数时的位数;步骤2)、在所述标识串FlagStr2前加“0.”,将该标识串转化为(0,1)间的实数;步骤3)、构造两个Logistic混沌序列密码生成器Chao1和Chao2,所述Chao1、Chao2的迭代初值ChaoKey都设置为步骤2)所得到的由标识串FlagStr2转化而来的实数,所述Chao1、Chao2的迭代值分别标记为Chao1Num,Chao2Num;步骤4)、遍历PDF文件的所有TJ操作对象中的数字,若所遇数字的绝对值在1到2m之间,且所述Chao2Num的值大于用户预先设定的“冗余度参数”,则从所述替换数字库中顺序选取一未曾选取的数字,将该数字加“1”后替换TJ操作对象中当前所遇数字;若所遇数字的绝对值在1到2m之间,但所述Chao2Num的值小于所述“冗余度参数”,则将所述Chao1Num转化成范围在0到2m-1之间的一整数后,将该整数加“1”后替换TJ操作对象中当前所遇数字;若所遇数字的绝对值大于2m,则保持该数字不变;步骤5)、所述Chao1和Chao2分别对所述Chao1Num、Chao2Num做迭代变换,然后对所述替换数字库中的数字是否都已被选择进行判断,若所述替换数字库中的数字都已被选取,则当所遇TJ操作对象中的数字的绝对值在1到2m之间时,将所述Chao1Num转化成范围在0到2m-1之间的一整数后,将该整数加“1”后替换TJ操作对象中当前所遇数字;若所述替换数字库中还有未被选取的数字,则重新执行步骤4);步骤6)、将包含完整嵌入信息的PDF文件转换为隐写文件。2、 根据权利要求1所述的以一类PDF文本作为掩体的信息嵌入方法, 其特征在于,所述的m的值取4,所述替换数字库中的数字为0-15之 间的整数。3、 根据权利要求2所述的以一类PDF文本作为掩体的信息嵌入方法, 其特征在于,在所述的步骤1)中,根据所述的嵌入信息生成用于验证数 据完整性的标识串FlagStrl包括步骤1-1-1 )、对所述的嵌入信息做单向散列函数SHA操作;步骤1-1-2)、将SHA操作后的结果均分为20个二进制数,将这20个二进制数做MOD(16)运算,得到20个范围在0- 15间的整数,所得到的结果标记为标识串FlagStrl。4、 根据权利要求2所述的以一类PDF文本作为掩体的信息嵌入方法, 其特征在于,在所述的步骤1)中,根据所述的嵌入信息生成替换数字串 包括步骤1-2-1 )、读取所述的嵌入信息;步骤1-2-2)、将所读取嵌入信息的每4个Bit转化成一个范围在0-15间的整数。5、 根据权利要求2所述的以一类PDF文本作为掩体的信息嵌入方法, 其特征在于,在所述的步骤1)中,根据隐写密钥生成标识串FlagStr2包 括步骤1-3-1 )、对所述的隐写密钥做单向散列函数SHA操作;步骤1-3-2)、将SHA操...

【专利技术属性】
技术研发人员:钟尚平程学旗余智华郭莉
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1