当前位置: 首页 > 专利查询>清华大学专利>正文

基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置制造方法及图纸

技术编号:21035111 阅读:28 留言:0更新日期:2019-05-04 05:43
本发明专利技术公开了一种基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置,方法包括:得到训练集,并构建相应的马尔可夫网络模型;按照词频排序生成词典D;构成预设列表;随机从预设列表中选择一个词作为训练好的Marcov网络模型的输入;迭代式计算各个时刻词的动态条件概率分布;选用排序靠前的N个词构成候选词词列表;构建哈夫曼树,并进行哈夫曼编码;根据需要嵌入的码流从哈夫曼树的根结点开始搜索,直到搜索到相应的叶子结点对应的词作为当前时刻的输出;重复执行直到生成完整的隐写文本;发送完整的隐写文本,以使接收方在接收隐写文本后,对隐写文本进行解码并获取机密消息。该方法可以有效提高生成隐写文本的质量,提升系统隐蔽性。

Text Steganography Method and Device Based on Markov Model and Huffman Coding

【技术实现步骤摘要】
基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
本专利技术涉及文本生成
,特别涉及一种基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置。
技术介绍
Shannon在关于信息安全的专著中总结了三个基本的信息安全系统,分别是隐私系统,加密系统和隐藏系统。隐私系统主要通过限制用户对信息的访问对数据进行安全保护。只有授权用户才能实现对重要信息的访问,而未经授权的用户用任何方式都无法访问信息。但是这种方式会暴露目标的存在性和重要性。目前,传统的信息安全主要是围绕加密技术及体系完成的。加密技术是一种值得信赖的内容安全手段,能非常有效的解决数据安全问题。但进入移动互联网、大数据时代,传统的加密技术使加密数据作为一场数据,容易成为数据分析挖掘的重点目标。隐藏系统帮助用户把各种格式的重要数据,隐藏在普通的多媒体文件中,用户通过本地存储或网络分享含有私密数据的普通多媒体文件来实现重要数据和个人隐私信息的存储或分享。保证了隐藏信息的隐蔽性和安全性。隐写术和数字水印同为隐藏系统中的关键技术。隐写术是把一个有意义的心意隐藏在公开载体的信息中得到隐蔽载体,非法者不知道这个普通信息中是否隐藏了其他的信息,即使知道也难以提取或去除隐蔽的信息。数字水印是将特定的数字信息(如身份信息、序列号、文字或图像标志等)潜入到图像、音频或视频等各种数字产品中,多用于达到信息安全和版权保护的目的。隐写术较数字水印来说嵌入的信息量更大,且隐藏信息无规律可循,增加了攻击的难度。信息隐藏系统的结构框图如图1所示。信息隐藏可以利用各种多媒体信息载体来隐藏信息,它利用多媒体信息中的数据冗余,将秘密信息嵌入到文本、图像等常见载体中来达到隐蔽通信的目的。文本作为一种广泛使用的信息载体,与同可作为载体的图像与音频相比,具有更高的可编码性,减少冗余信息的产生。基于上述原因,利用文本来进行信息隐藏具有巨大的研究价值和应用前景,并且吸引了大量研究人员的注意,出现了越来越多的机遇文本的信息隐藏方法。目前,基于文本的信息隐藏技术主要分为两大类:一类是基于文本的结构特点;另一类是基于文本的语义信息。基于文本结构特点的信息隐藏技术主要是利用文本的结构特征来隐藏信息。比如:通过改变文档的行间距以及行内字符间的水平距离来隐藏信息;通过改变文本中字体大小、颜色等基本特征来隐藏信息。这些方法的缺点是鲁棒性不足,在信息传输的过程中一些微笑的扰动足以破坏隐藏的信息。基于文本语义的信息隐藏技术主要是通过对文本所表达的语义进行编码来潜入信息。比如:通过替换特定词的同义词来隐藏信息;基于文本翻译的方法来隐藏信息。现如今自然语言技术发展越来越趋于成熟,出现了基于文本生成技术的信息隐藏方法。但这些方法多是通过人为设定的语法规则来产生文本,在语义上缺乏流畅度。对于文本来说,这种载体可以对其进行修改和生成。通常情况下,图像和语音同样可以通过修改给定的载体来实现机密信息的嵌入,但由于图像和语音有较高的荣誉性,定量的修改不会造成很大的视觉效果或者听觉变化。针对文本而言,正是由于它具有较低的信息冗余量,限制了可修改空间的大小,难以实现高隐藏容量的要求。基于载体生成的文本隐写,根据需要传递的秘密信息自动生成载体,并在生成过程中嵌入了秘密信息。这种方式实现了高隐藏容量的目标,因此吸引了大量研究人员的目光。由于文本生成需要文本的可读性高,针对文本语义的流畅度问题,需要设计生成高质量文本的模型。这已成为该领域亟待解决的问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于马尔可夫模型和哈夫曼编码的文本隐写方法,该方法可以有效提高生成隐写文本的质量,提升系统隐蔽性。本专利技术的另一个目的在于提出一种基于马尔可夫模型和哈夫曼编码的文本隐写装置。为达到上述目的,本专利技术一方面实施例提出了一种基于马尔可夫模型和哈夫曼编码的文本隐写方法,包括以下步骤:步骤S1:根据预设文本媒体形式的数据集得到训练集;步骤S2:对自然文本进行建模,以利用trigram模型构建相应的马尔可夫网络模型;步骤S3:通过预设的训练文本统计词频,并按照词频排序生成词典D;步骤S4:统计训练样本中每个句子第一个词的词频分布,并选择词频最高的前预设个数词构成预设列表;步骤S5:每次生成一句隐写文本时,随机从所述预设列表中选择一个词作为训练好的Marcov网络模型的输入;步骤S6:利用Marcov的语言模型,迭代式计算各个时刻词的动态条件概率分布;步骤S7:在每个迭代步骤T,根据各个词的条件概率依降序排列,并选用排序靠前的N个词构成候选词词列表;步骤S8:确定候选池的大小后,根据所述候选池中各个词的条件概率构建哈夫曼树,并进行哈夫曼编码;步骤S9:根据需要嵌入的码流从所述哈夫曼树的根结点开始搜索,直到搜索到相应的叶子结点对应的词作为当前时刻的输出,以实现隐藏秘密比特流的能力;步骤S10:重复执行所述步骤S6至所述步骤S10,直到生成完整的隐写文本,以完成根据秘密信息自动生成文本载体的过程;步骤S11:发送所述完整的隐写文本,以使接收方在接收所述隐写文本后,对所述隐写文本进行解码并获取机密消息。本专利技术实施例的基于马尔可夫模型和哈夫曼编码的文本隐写方法,根据需要隐藏的秘密比特流,利用候选池的收缩机制,自动生成高质量的隐写文本,并通过对大量样本构建模型,对统计语言模型进行了很好的估计,根据训练好的统计语言模型,能够自动生成高质量的文本,且在文本生成过程中,基于其条件概率分布合理地对每个单词进行编码,根据语言模型的概率值实现候选池自适应收缩,然后根据比特流控制文本生成,从而可以有效提高生成隐写文本的质量,提升系统隐蔽性。另外,根据本专利技术上述实施例的基于马尔可夫模型和哈夫曼编码的文本隐写方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述预设文本媒体形式包括Twitter、电影评论和新闻。进一步地,在本专利技术的一个实施例中,在对所述自然文本进行建模之前,还包括:对所述训练集中的数据源进行预处理。进一步地,在本专利技术的一个实施例中,所述对所述训练集中的数据源进行预处理,包括:将所有英文单词转换为小写的英文单词;删除所述数据中的特殊符号,并过滤小于预设频率的低频词。进一步地,在本专利技术的一个实施例中,所述预设个数为100。为达到上述目的,本专利技术另一方面实施例提出了一种基于马尔可夫模型和哈夫曼编码的文本隐写装置,包括:获取模块,用于根据预设文本媒体形式的数据集得到训练集;建模模块,用于对自然文本进行建模,以利用trigram模型构建相应的马尔可夫网络模型;第一统计模块,用于通过预设的训练文本统计词频,并按照词频排序生成词典D;第二统计模块,用于统计训练样本中每个句子第一个词的词频分布,并选择词频最高的前预设个数词构成预设列表;选择模块,用于每次生成一句隐写文本时,随机从所述预设列表中选择一个词作为训练好的Marcov网络模型的输入;迭代模块,用于利用Marcov的语言模型,迭代式计算各个时刻词的动态条件概率分布;排列模块,用于在每个迭代步骤T,根据各个词的条件概率依降序排列,并选用排序靠前的N个词构成候选词词列表;确定模块,用于确定候选池的大小后,根据所述候选池中各个词的条件概率构建哈夫曼树,本文档来自技高网
...

【技术保护点】
1.一种基于马尔可夫模型和哈夫曼编码的文本隐写方法,其特征在于,包括以下步骤:步骤S1:根据预设文本媒体形式的数据集得到训练集;步骤S2:对自然文本进行建模,以利用trigram模型构建相应的马尔可夫网络模型;步骤S3:通过预设的训练文本统计词频,并按照词频排序生成词典D;步骤S4:统计训练样本中每个句子第一个词的词频分布,并选择词频最高的前预设个数词构成预设列表;步骤S5:每次生成一句隐写文本时,随机从所述预设列表中选择一个词作为训练好的Marcov网络模型的输入;步骤S6:利用Marcov的语言模型,迭代式计算各个时刻词的动态条件概率分布;步骤S7:在每个迭代步骤T,根据各个词的条件概率依降序排列,并选用排序靠前的N个词构成候选词词列表;步骤S8:确定候选池的大小后,根据所述候选池中各个词的条件概率构建哈夫曼树,并进行哈夫曼编码;步骤S9:根据需要嵌入的码流从所述哈夫曼树的根结点开始搜索,直到搜索到相应的叶子结点对应的词作为当前时刻的输出,以实现隐藏秘密比特流的能力;步骤S10:重复执行所述步骤S6至所述步骤S10,直到生成完整的隐写文本,以完成根据秘密信息自动生成文本载体的过程;以及步骤S11:发送所述完整的隐写文本,以使接收方在接收所述隐写文本后,对所述隐写文本进行解码并获取机密消息。...

【技术特征摘要】
1.一种基于马尔可夫模型和哈夫曼编码的文本隐写方法,其特征在于,包括以下步骤:步骤S1:根据预设文本媒体形式的数据集得到训练集;步骤S2:对自然文本进行建模,以利用trigram模型构建相应的马尔可夫网络模型;步骤S3:通过预设的训练文本统计词频,并按照词频排序生成词典D;步骤S4:统计训练样本中每个句子第一个词的词频分布,并选择词频最高的前预设个数词构成预设列表;步骤S5:每次生成一句隐写文本时,随机从所述预设列表中选择一个词作为训练好的Marcov网络模型的输入;步骤S6:利用Marcov的语言模型,迭代式计算各个时刻词的动态条件概率分布;步骤S7:在每个迭代步骤T,根据各个词的条件概率依降序排列,并选用排序靠前的N个词构成候选词词列表;步骤S8:确定候选池的大小后,根据所述候选池中各个词的条件概率构建哈夫曼树,并进行哈夫曼编码;步骤S9:根据需要嵌入的码流从所述哈夫曼树的根结点开始搜索,直到搜索到相应的叶子结点对应的词作为当前时刻的输出,以实现隐藏秘密比特流的能力;步骤S10:重复执行所述步骤S6至所述步骤S10,直到生成完整的隐写文本,以完成根据秘密信息自动生成文本载体的过程;以及步骤S11:发送所述完整的隐写文本,以使接收方在接收所述隐写文本后,对所述隐写文本进行解码并获取机密消息。2.根据权利要求1所述的基于马尔可夫模型和哈夫曼编码的文本隐写方法,其特征在于,所述预设文本媒体形式包括Twitter、电影评论和新闻。3.根据权利要求1所述的基于马尔可夫模型和哈夫曼编码的载体生成式文本隐写方法,其特征在于,在对所述自然文本进行建模之前,还包括:对所述训练集中的数据源进行预处理。4.根据权利要求3所述的基于马尔可夫模型和哈夫曼编码的文本隐写方法,其特征在于,所述对所述训练集中的数据源进行预处理,包括:将所有英文单词转换为小写的英文单词;删除所述数据中的特殊符号,并过滤小于预设频率的低频词。5.根据权利要求1所述的基于马尔可夫模型和哈夫曼编码的文本隐写方法,其特征在于,所述预设个数为100。6.一种基于马尔可夫模型和哈夫曼编码的...

【专利技术属性】
技术研发人员:黄永峰杨忠良杨震胡雨婷袁志刚武楚涵
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1