一种基于PDF文件的图文相关鲁棒隐写方法及系统技术方案

技术编号:21185108 阅读:27 留言:0更新日期:2019-05-22 15:43
本发明专利技术公开了一种基于PDF文件的图文相关鲁棒隐写方法及系统,方法包括:利用载体图像生成对应的文本,基于载体图像和载体图像对应的文本生成初始PDF文件,基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像,基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入,生成载密图像,将载密图像转化为码流,并从底层修改载密PDF文件内容。本发明专利技术基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。

A Graph-Text Relevant Robust Steganography Method and System Based on PDF File

The invention discloses a robust steganography method and system based on PDF file. The method includes: generating corresponding text using carrier image, generating initial PDF file based on corresponding text of carrier image and carrier image, extracting carrier image in initial PDF file based on structure and format of initial PDF file, and adapting steganography algorithm based on image in initial PDF file. The carrier image is embedded with information to generate the encrypted image. The encrypted image is transformed into code stream, and the contents of the encrypted PDF file are modified from the bottom. The invention is based on PDF file transmission in social media is non-destructive, major social media will not process PDF file, combined with image understanding and topic generation technology, generate graphics-text related PDF file, and construct steganography algorithm combined with the robustness of PDF file and the characteristics of large embedding capacity of image steganography, which can effectively avoid attacks of large data analysis means, and preserve. Correct extraction of evidence secret information.

【技术实现步骤摘要】
一种基于PDF文件的图文相关鲁棒隐写方法及系统
本专利技术涉及数据处理
,尤其涉及一种基于PDF文件的图文相关鲁棒隐写方法及系统。
技术介绍
隐写术的主要目的是用图像、音频、视频等载体掩盖秘密消息,实现隐蔽通信。信号中相关性弱、难以模型化的区域(如图像的纹理复杂区域)更适合修改,因为在这样的区域内修改嵌入信息是难以被检测到的,而相关性强的区域内嵌入信息则易被检测到。这促使隐写术自适应地优先修改失真小(难检测)的区域。相应地,隐写编码技术也向自适应方向发展。针对这种需求,目前提出了实用的最小化失真隐写编码,被称为STC。实用的最小化失真隐写编码出现以后,隐写术的研究就集中在了如何设计合理的失真函数。当前最流行的隐写载体为图像,它具有嵌入容量大的特点。但是大部分研究都是基于含有秘密信息的图像未经过任何处理传送到接收方。显然在实际生活中,更多场景是有损的处理,比如各大社交网站。载密图片在社交媒体上的传输会不可避免的受到有损处理,包括有损压缩,重采样等,这将导致隐秘信息无法正确提取。因此,如何有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取,是一项亟待解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于PDF文件的图文相关鲁棒隐写方法,基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。本专利技术提供了一种基于PDF文件的图文相关鲁棒隐写方法,包括:利用载体图像生成对应的文本;基于所述载体图像和所述载体图像对应的文本生成初始PDF文件;基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像;基于图像自适应隐写算法在所述初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;将所述载密图像转化为码流,并从底层修改载密PDF文件内容。优选地,所述利用载体图像生成对应的文本包括:提取所述载体图像的语义信息;基于所述语义信息,利用文本生成模型或利用关键词在网络上扒取获得一段文本。优选地,所述提取所述载体图像的语义信息包括:使用预训练的视觉语义映射模型提取所述载体图像的语义信息。优选地,所述利用载体图像生成对应的文本包括:基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本。优选地,所述基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像包括:基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像对象中的JPEG格式图像。一种基于PDF文件的图文相关鲁棒隐写系统,包括:第一生成模块,用于利用载体图像生成对应的文本;第二生成模块,用于基于所述载体图像和所述载体图像对应的文本生成初始PDF文件;提取模块,用于基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像;第三生成模块,用于基于图像自适应隐写算法在所述初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;转化模块,用于将所述载密图像转化为码流,并从底层修改载密PDF文件内容。优选地,所述第一生成模块在执行利用载体图像生成对应的文本时,包括:提取单元,用于提取所述载体图像的语义信息;扒取单元,用于基于所述语义信息,利用文本生成模型或利用关键词在网络上扒取获得一段文本。优选地,所述提取单元在执行提取所述载体图像的语义信息时,具体用于:使用预训练的视觉语义映射模型提取所述载体图像的语义信息。优选地,所述第一生成模块在执行利用载体图像生成对应的文本时,具体用于:基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本。优选地,所述提取模块具体用于:基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像对象中的JPEG格式图像。综上所述,本专利技术提供了一种基于PDF文件的图文相关鲁棒隐写方法,包括:利用载体图像生成对应的文本,基于载体图像和所述载体图像对应的文本生成初始PDF文件,基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像,基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入,生成载密图像,将载密图像转化为码流,并从底层修改载密PDF文件内容。本专利技术基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例1的流程图;图2为本专利技术公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例2的流程图;图3为本专利技术公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例3的流程图;图4为本专利技术公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例1的结构示意图;图5为本专利技术公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例2的结构示意图;图6为本专利技术公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例3的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,为本专利技术公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例1的流程图,可以包括以下步骤:S101、利用载体图像生成对应的文本;当需要实现基于PDF文件的图文相关鲁棒隐写时,首先获取用于加载加密信息的载体图像,同时,利用获取到的载体图像生成与载体图像对应的文本。S102、基于载体图像和载体图像对应的文本生成初始PDF文件;当获取到载体图像,以及与载体图像对应的文本后,进一步根据载体图像和载体图像对应的文本生成初始PDF文件。需要说明的是,在生成初始PDF文件时,可利用MicrosoftWord或者其他办公软件编辑,并生成初始PDF文件。S103、基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像;其中,PDF文件的结构和格式包括:文件头(Header),指明了该文件所遵从的PDF规范的版本号,它出现在PDF文件的第一行。文件体(Body),PDF文件的主要部分,由一系列对象组成。交叉引用表(Cross-referencetable),为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。文件尾(Trailer),声明了交叉引用表的地址,即指明了文件体的根对象(Catalog),从而能够找到PDF文件中各个对象体的位置,达到随机访问。另外还保存了PDF文件的加密等安全信息。根据初始P本文档来自技高网...

【技术保护点】
1.一种基于PDF文件的图文相关鲁棒隐写方法,其特征在于,包括:利用载体图像生成对应的文本;基于所述载体图像和所述载体图像对应的文本生成初始PDF文件;基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像;基于图像自适应隐写算法在所述初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;将所述载密图像转化为码流,并从底层修改载密PDF文件内容。

【技术特征摘要】
1.一种基于PDF文件的图文相关鲁棒隐写方法,其特征在于,包括:利用载体图像生成对应的文本;基于所述载体图像和所述载体图像对应的文本生成初始PDF文件;基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像;基于图像自适应隐写算法在所述初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;将所述载密图像转化为码流,并从底层修改载密PDF文件内容。2.根据权利要求1所述的方法,其特征在于,所述利用载体图像生成对应的文本包括:提取所述载体图像的语义信息;基于所述语义信息,利用文本生成模型或利用关键词在网络上扒取获得一段文本。3.根据权利要求2所述的方法,其特征在于,所述提取所述载体图像的语义信息包括:使用预训练的视觉语义映射模型提取所述载体图像的语义信息。4.根据权利要求1所述的方法,其特征在于,所述利用载体图像生成对应的文本包括:基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本。5.根据权利要求2或4所述的方法,其特征在于,所述基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像包括:基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像对象中的JPEG格式图像。6.一种基于PDF文件的图文相关鲁棒隐写系统,其特征在于,包...

【专利技术属性】
技术研发人员:张卫明俞能海陈可江周航董潇逸
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1