【技术实现步骤摘要】
基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
本专利技术涉及文本生成
,特别涉及一种基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置。
技术介绍
Shannon在关于信息安全的专著中总结了三个基本的信息安全系统,分别是隐私系统,加密系统和隐藏系统。隐私系统主要通过限制用户对信息的访问对数据进行安全保护。只有授权用户才能实现对重要信息的访问,而未经授权的用户用任何方式都无法访问信息。但是这种方式会暴露目标的存在性和重要性。目前,传统的信息安全主要是围绕加密技术及体系完成的。加密技术是一种值得信赖的内容安全手段,能非常有效的解决数据安全问题。但进入移动互联网、大数据时代,传统的加密技术使加密数据作为一场数据,容易成为数据分析挖掘的重点目标。隐藏系统帮助用户把各种格式的重要数据,隐藏在普通的多媒体文件中,用户通过本地存储或网络分享含有私密数据的普通多媒体文件来实现重要数据和个人隐私信息的存储或分享。保证了隐藏信息的隐蔽性和安全性。隐写术和数字水印同为隐藏系统中的关键技术。隐写术是把一个有意义的心意隐藏在公开载体的信息中得到隐蔽载体,非法者不知道这个普通信息中是 ...
【技术保护点】
1.一种基于马尔可夫模型和哈夫曼编码的文本隐写方法,其特征在于,包括以下步骤:步骤S1:根据预设文本媒体形式的数据集得到训练集;步骤S2:对自然文本进行建模,以利用trigram模型构建相应的马尔可夫网络模型;步骤S3:通过预设的训练文本统计词频,并按照词频排序生成词典D;步骤S4:统计训练样本中每个句子第一个词的词频分布,并选择词频最高的前预设个数词构成预设列表;步骤S5:每次生成一句隐写文本时,随机从所述预设列表中选择一个词作为训练好的Marcov网络模型的输入;步骤S6:利用Marcov的语言模型,迭代式计算各个时刻词的动态条件概率分布;步骤S7:在每个迭代步骤T,根 ...
【技术特征摘要】
1.一种基于马尔可夫模型和哈夫曼编码的文本隐写方法,其特征在于,包括以下步骤:步骤S1:根据预设文本媒体形式的数据集得到训练集;步骤S2:对自然文本进行建模,以利用trigram模型构建相应的马尔可夫网络模型;步骤S3:通过预设的训练文本统计词频,并按照词频排序生成词典D;步骤S4:统计训练样本中每个句子第一个词的词频分布,并选择词频最高的前预设个数词构成预设列表;步骤S5:每次生成一句隐写文本时,随机从所述预设列表中选择一个词作为训练好的Marcov网络模型的输入;步骤S6:利用Marcov的语言模型,迭代式计算各个时刻词的动态条件概率分布;步骤S7:在每个迭代步骤T,根据各个词的条件概率依降序排列,并选用排序靠前的N个词构成候选词词列表;步骤S8:确定候选池的大小后,根据所述候选池中各个词的条件概率构建哈夫曼树,并进行哈夫曼编码;步骤S9:根据需要嵌入的码流从所述哈夫曼树的根结点开始搜索,直到搜索到相应的叶子结点对应的词作为当前时刻的输出,以实现隐藏秘密比特流的能力;步骤S10:重复执行所述步骤S6至所述步骤S10,直到生成完整的隐写文本,以完成根据秘密信息自动生成文本载体的过程;以及步骤S11:发送所述完整的隐写文本,以使接收方在接收所述隐写文本后,对所述隐写文本进行解码并获取机密消息。2.根据权利要求1所述的基于马尔可夫模型和哈夫曼编码的文本隐写方法,其特征在于,所述预设文本媒体形式包括Twitter、电影评论和新闻。3.根据权利要求1所述的基于马尔可夫模型和哈夫曼编码的载体生成式文本隐写方法,其特征在于,在对所述自然文本进行建模之前,还包括:对所述训练集中的数据源进行预处理。4.根据权利要求3所述的基于马尔可夫模型和哈夫曼编码的文本隐写方法,其特征在于,所述对所述训练集中的数据源进行预处理,包括:将所有英文单词转换为小写的英文单词;删除所述数据中的特殊符号,并过滤小于预设频率的低频词。5.根据权利要求1所述的基于马尔可夫模型和哈夫曼编码的文本隐写方法,其特征在于,所述预设个数为100。6.一种基于马尔可夫模型和哈夫曼编码的...
【专利技术属性】
技术研发人员:黄永峰,杨忠良,杨震,胡雨婷,袁志刚,武楚涵,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。