一种基于生成对抗网络的文本隐写方法技术

技术编号:19638162 阅读:17 留言:0更新日期:2018-12-01 18:30
本发明专利技术公开了一种基于生成对抗网络的文本隐写方法,该模型将文本隐写看作是一个文本序列生成过程,通过密钥映射表将秘密文本有效地隐写于生成文本中,同时保证了生成文本有较高的质量,在对抗训练中使用策略梯度优化生成器,最后使得生成模型可以生成高质量隐写文本,相比于传统的训练方法,对抗学习过程可以让模型更好地拟合整个语料库的分布,生成更为合理的短语搭配和长文本。

【技术实现步骤摘要】
一种基于生成对抗网络的文本隐写方法
本专利技术涉及互联网
,尤其涉及一种基于生成对抗网络的文本隐写方法。
技术介绍
隐写术是将秘密信息隐藏在公开载体中,以实现隐蔽通信的一种技术。根据载体数据类型的不同,隐写术可分为文本隐写、图像隐写、音频隐写和视频隐写等。文本隐写要求在文本数据中载入隐藏信息,并保持良好的可读性,同时不容易被察觉到,与存在大量冗余信息的图像、音频和视频等多媒体载体相比,文本隐写实现起来更加困难。实现文本隐写有多种途径,如改变文本的现有格式,文本同义词替换,生成随机字符序列和以特定语法生成可读文本]等。传统的文本隐写方法主要基于修改已存在的载体文本,包括同义词替换、短语替换和文本排版格式变换等,已取得了很多成果。利用文本的排版结构冗余信息,现有技术提出通过增删字间和段间空格实现文本隐写的算法;或利用统计信息,在不改变原文本前提下,结合词的上下文语境选用适当的同义词替换原文本词语,以嵌入隐藏信息;或基于短语替换规则修改原文本,将隐藏信息嵌入文本载体的同时还保证了语法准确性和语句流畅度;或引入失真函数来衡量同义词替换后文本统计特征的改变程度,选择失真度最小的同义词组,用以嵌入隐蔽信息,提高了文本隐写的稳定性和安全性;或设计了一种中文繁简体替换的文本隐写算法,对隐写信息进行分段,通过“解释”的方式嵌入分段信息;或提出了一种基于中文标点的文本信息隐写算法,利用标点全角和半角互换来达到信息隐藏的目的。尽管传统的文本隐写算法成果不少,但都是基于对文本载体的有限修改,如果较大规模同义词替换、标点互换、排版结构的替换和修改等方法,都会影响文本语法准确性和流畅度,因此,解决这一类的问题显得尤为重要。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于生成对抗网络的文本隐写方法,通过训练一个文本生成模型,实现隐藏信息的文本隐写,可以生成高质量的文本,同时将较多的隐写信息有效地嵌入输出文本信息中,已解决现有技术的不足。为了解决现有技术的不足,本专利技术提供了一种基于生成对抗网络的文本隐写方法,其特征在于,包括:基于生成对抗网络的文本生成模型:生成对抗网络由两部分组成,第一部分是生网络,第二部分是判别网络,让生网络和判别网络相互竞争,通过生成网络来生成假的数据,对抗网络通过判别器判别真伪,最后以生成网络生成的数据来以假乱真骗过判别器;优化生成对抗网络:生成对抗网络的优化用生成器G和判别器D的零和博弈游戏来表示,其优化目标函数公式为在生成对抗网络的优化过程中,需要训练生成器G来最大化判别数据来源真实数据还是生成数据,同时还需要训练生成模型来最小化使得生成的数据更加能够骗过判别器D,采用交替优化的方法,先固定生成器G,优化判别器D,使得判别器D达到最优,然后固定判别器D,优化生成器G,使得判别器D的判别准确率下降,当且仅当Pdata=Pg,即判别器D对真实采样样本和生成样本,输出概率都是0.5时达到全局最优解;训练文本生成模型:生成器G生成每一个词看做一个强化学习中代理决策过程,同时借用策略梯度算法来优化生成器G,并在训练过程中用正样本辅助训练技巧,提升算法收敛速度和算法稳定性,生成器Gθ用两层单向的LSTM神经网络实现,θ是网络的参数,判别器D用多层卷积网络实现;生成器G生成的文本数据标记为负样本,采样得到的真实文本数据标记位正样本,将生成器G生成负样本和采样得到的正样本同时输入判别器进行迭代优化,是判别网络参数,判别器损失函数采用交叉熵损失函数,如下公式(2)所示,y(i)是输入数据的标签生成器生成数据定义为0,真实语料库采样数据标记为1;当训练生成器G时,把判别器D参数固定,对于生成器Gθ,其训练目标是最终生成合理的文本序列,而对于文本合理性的评价用判别器D来实现,当生成器G生成完成一个完整的序列,将其输入判别器即可得到判别结果作为Reward,生成器G优化的目标就是最大化Reward值,生成器的损失函数如公式(3)所示,RT是一个完整序列y1:T的Reward值,由判别器D给出,Gθ(yt|s0:t-1)代表生成器Gθ根据历史状态s0:t-1产生决策行为,即产生当前词yt的概率值;文本隐写算法:首先根据ASCII码将待加密的密文映射为二进制串S,然后将二进制串S切分为长度为|B|的片段,最后文本生成模型根据上述片段序列生成隐写文本。进一步改进在于:在整个文本生成算法的训练过程,采用交叉迭代替换,分别训练判别器D和生成器G,直到最终判别器D分不清输入数据来源,即输出概率值为0.5,达到纳什均衡。进一步改进在于:正样本辅助训练策略为每一次训练生成器时,都从真实语料库中采样出一部分正样本,然后输入判别器得到较好的Reward值。进一步改进在于:在文本隐写算法中,密钥是一个特定的将片段序列转化为词语集合的映射表,将语料库中所有词汇随机采样分成2|B|个分块,每个块是不相交的词汇集合。进一步改进在于:在语料库中每个词恰好出现在一个分块中,并且每个分块的包含词语的大小是|V|/2|B|个,其中|V|表示语料库单词表的个数,如表1所示。进一步改进在于:文本生成模型把现有生成序列作为输入/输出必须从二进制片段对应的词汇集合中选出一个词,由于限制每一步输出必须从一个分块编码词汇集合中映射一个词,使得每个词汇集合的词语数量必须足够多,让生成的文本更加自然,最后解码器以确定的方式直接恢复原始加密数据,根据密钥映射表,将隐写文本词直接对应所属的分块编码,即可恢复了原始的二进制串。本专利技术的有益效果是:本专利技术的一种基于生成对抗网络的文本隐写模型,该模型将文本隐写看作是一个文本序列生成过程,通过密钥映射表将秘密文本有效地隐写于生成文本中,同时保证了生成文本有较高的质量(文本流畅度和合理性),在对抗训练中使用策略梯度优化生成器,最后使得生成模型可以生成高质量隐写文本,相比于传统的训练方法,对抗学习过程可以让模型更好地拟合整个语料库的分布,生成更为合理的短语搭配和长文本。附图说明图1是本专利技术的生成对抗网络的结构图。图2是本专利技术的判别器训练过程示意图。图3是本专利技术的生成器训练过程示意图。图4是本专利技术的文本隐写算法框架。图5是本专利技术的Tweets数据集实验结果。图6是本专利技术的Emails数据集实验结果。图7是本专利技术的News数据集实验结果。具体实施方式为了加深对本专利技术的理解,下面将结合实施例对本专利技术做进一步详述,本实施例仅用于解释本专利技术,并不构成对本专利技术保护范围的限定。本实施例公开了一种基于生成对抗网络的文本隐写方法,其特征在于,包括:基于生成对抗网络(以下简称GAN)的文本生成模型:生成对抗网络由两部分组成,第一部分是生网络,第二部分是判别网络,让生网络和判别网络相互竞争,通过生成网络来生成假的数据,对抗网络通过判别器判别真伪,最后以生成网络生成的数据来以假乱真骗过判别器;优化生成对抗网络:GAN的优化过程是一个极小极大博弈问题,优化目标是达到纳什均衡,使得生成器估测到数据样本的分布,GAN的结构图如图1所示。GAN输入分别是真实的数据x和随机变量z,G(z)是由G生成尽量服从真实分布Pdata(x)的样本。如果判别器D的输入来自真实的数据,则标注为1,如果输入来自G(z)则标注为0。判别器D的目标是实现数据的二分类判别,将真实数本文档来自技高网
...

【技术保护点】
1.一种基于生成对抗网络的文本隐写方法,其特征在于,包括:基于生成对抗网络的文本生成模型:生成对抗网络由两部分组成,第一部分是生网络,第二部分是判别网络,让生网络和判别网络相互竞争,通过生成网络来生成假的数据,对抗网络通过判别器判别真伪,最后以生成网络生成的数据来以假乱真骗过判别器;优化生成对抗网络:生成对抗网络的优化用生成器G和判别器D的零和博弈游戏来表示,其优化目标函数公式为

【技术特征摘要】
1.一种基于生成对抗网络的文本隐写方法,其特征在于,包括:基于生成对抗网络的文本生成模型:生成对抗网络由两部分组成,第一部分是生网络,第二部分是判别网络,让生网络和判别网络相互竞争,通过生成网络来生成假的数据,对抗网络通过判别器判别真伪,最后以生成网络生成的数据来以假乱真骗过判别器;优化生成对抗网络:生成对抗网络的优化用生成器G和判别器D的零和博弈游戏来表示,其优化目标函数公式为在生成对抗网络的优化过程中,需要训练生成器G来最大化判别数据来源真实数据还是生成数据,同时还需要训练生成模型来最小化使得生成的数据更加能够骗过判别器D,采用交替优化的方法,先固定生成器G,优化判别器D,使得判别器D达到最优,然后固定判别器D,优化生成器G,使得判别器D的判别准确率下降,当且仅当Pdata=Pg,即判别器D对真实采样样本和生成样本,输出概率都是0.5时达到全局最优解;训练文本生成模型:生成器G生成每一个词看做一个强化学习中代理决策过程,同时借用策略梯度算法来优化生成器G,并在训练过程中用正样本辅助训练技巧,提升算法收敛速度和算法稳定性,生成器Gθ用两层单向的LSTM神经网络实现,θ是网络的参数,判别器D用多层卷积网络实现;生成器G生成的文本数据标记为负样本,采样得到的真实文本数据标记位正样本,将生成器G生成负样本和采样得到的正样本同时输入判别器进行迭代优化,是判别网络参数,判别器损失函数采用交叉熵损失函数,如下公式(2)所示,y(i)是输入数据的标签生成器生成数据定义为0,真实语料库采样数据标记为1;当训练生成器G时,把判别器D参数固定,对于生成器Gθ,其训练目标是最终生成合理的文本序列,而对于文本合理性的评价用判别器D来实现,当生成器G生成完成一个完整的序列,将其输入判别器即可得到判别结果作为Reward,生成器G优化的目标就是最大化Reward值,生成...

【专利技术属性】
技术研发人员:段大高赵振东韩忠明崔岩松
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1