基于文本改写模型的隐写文本生成方法技术

技术编号：38275143 阅读：25 留言：0更新日期：2023-07-27 10:27

本发明专利技术公开了一种基于文本改写模型的隐写文本生成方法，采用预训练降噪自编码模型BART完成文本改写任务，对数据集进行数据增强构建了微调数据集对模型进行微调，利用条件限制编码进行二次微调来控制输出文本的长度。在信息嵌入阶段，设计了掩码策略进行秘密信息的嵌入，并采用重排序方式来选择最优隐写文本。相较于现有技术，本发明专利技术所提出的方法能够保证隐写文本的可控性以及自然性，较现存方法能够生成更自然流畅的语句。生成更自然流畅的语句。生成更自然流畅的语句。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本改写模型的隐写文本生成方法

[0001]本专利技术属于信息安全
，特别是涉及一种基于文本改写模型的隐写文本生成方法。

技术介绍

[0002]随着互联网的快速发展，人们能够通过网络实现高效的信息传输，但在信息的传输过程中，其很容易受到恶意攻击者的监听和拦截，导致信息外泄。这一影响轻则会泄漏个人信息，影响个人隐私；重则会导致重大信息被窃取，严重影响社会安全。因此，数据传输的安全问题引起了社会各界的广泛关注，人们已经投入了大量的研究工作来保证数据传输的安全以及隐私。数据隐写是一种可逆的数据嵌入技术，即数据的发送方可以通过深度学习模型将需要传输的秘密数据嵌入到图像、文本等载体，当中并发送该携带秘密信息的载体，接收方则可以根据事先商定好的解码策略从隐写数据中提取出秘密信息。
[0003]目前基于语言模型的隐写方法大致可以分为：基于编辑的语言隐写和基于生成的语言隐写。基于编辑的语言隐写方法通过替换一段话中的某些词来嵌入秘密信息，对于待替换的词，首先构造出该词的同义词组，其中的每个同义词都用一个二进制对其进行编码。基于生成的语言隐写方法是通过在自然语言模型生成文本的过程中限制生成过程来嵌入秘密信息。这类方式属于一种文本续写的方式，他们首先利用载体文本来初始化一个语言模型，并基于待加密的秘密信息来生成后续的隐写文本。目前对于隐写方法仍存在下列不足：
[0004]1.由于同义词组的构造是一个极其复杂且繁琐的过程，现有技术提出利用掩码语言模型作为工具来完成同义词替换；对待替换的词进行掩码操作，并利用降噪自编...

【技术保护点】

【技术特征摘要】
1.基于文本改写模型的隐写文本生成方法，其特征在于，包括以下步骤：S1、采集文本训练数据和测试数据，并将待加密的文本数据转换为比特流；S2、构建预训练降噪自编码模型；S3、微调模型，使用数据增强方式生成微调数据集；S4、基于条件限制性编码进行二次微调，在输入文本后拼接一个模板，模板内容为期望输出的文本长度；S5、秘密信息嵌入，在文本生成的解码阶段，使用特定的分组掩码操作根据S1生成的比特流来约束当前时间步的生成；S6、文本重排序，同时生成多个候选文本，计算其困惑度并选择最优解；S7、秘密信息提取，接收方收到携带秘密信息的隐写文本后，通过事先确定的解码策略从隐写文本中恢复秘密信息。2.根据权利要求1所述的基于文本改写模型的隐写文本生成方法，其特征在于，S1将文本训练数据和测试数据转化为比特流的具体方式为通过异或操作将字符串转换为对应的utf
‑
8编码的比特序列。3.根据权利要求1所述的基于文本改写模型的隐写文本生成方法，其特征在于，S2中所述降噪自编码模型具备编解码结构，其编码器首先会将输入映射成隐空间向量，解码器再将该隐空间向量融合上下文信息生成对应的输出文本Y'
t
，具体形式如下式：H＝Encoder(Y)Y
′
t
＝Decoder(Y
′
1:t
‑1,H)其中，t为第t个时刻，Encoder()表示编码过程，Decoder()表示解码过程，Y表示输入文本，H表示隐空间向量，Y`表示Y对应的输出文本，Y'
1:t
‑1表示第1时刻到t
‑
1时刻Y对应的输出文本。4.根据权利要求1所述的基于文本改写模型的隐写文本生成方法，其特征在于，微调模型的具体过程如下：在降噪自编码模型的预训练阶段，对于给定的原始文本X
original
，通过在X
original
添加手动定义的噪声来合成一个噪声文本X
corrupt
，再利用降噪自编码模型将损坏后的文本恢复为X
original
：P
BART
(X
original
|X
corrupt
)其中，P
BART
()表示X
cor...

【专利技术属性】
技术研发人员：董云云，李钒效，巫思杏，周维，
申请(专利权)人：云南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人