当前位置: 首页 > 专利查询>云南大学专利>正文

基于文本改写模型的隐写文本生成方法技术

技术编号:38275143 阅读:25 留言:0更新日期:2023-07-27 10:27
本发明专利技术公开了一种基于文本改写模型的隐写文本生成方法,采用预训练降噪自编码模型BART完成文本改写任务,对数据集进行数据增强构建了微调数据集对模型进行微调,利用条件限制编码进行二次微调来控制输出文本的长度。在信息嵌入阶段,设计了掩码策略进行秘密信息的嵌入,并采用重排序方式来选择最优隐写文本。相较于现有技术,本发明专利技术所提出的方法能够保证隐写文本的可控性以及自然性,较现存方法能够生成更自然流畅的语句。生成更自然流畅的语句。生成更自然流畅的语句。

【技术实现步骤摘要】
基于文本改写模型的隐写文本生成方法


[0001]本专利技术属于信息安全
,特别是涉及一种基于文本改写模型的隐写文本生成方法。

技术介绍

[0002]随着互联网的快速发展,人们能够通过网络实现高效的信息传输,但在信息的传输过程中,其很容易受到恶意攻击者的监听和拦截,导致信息外泄。这一影响轻则会泄漏个人信息,影响个人隐私;重则会导致重大信息被窃取,严重影响社会安全。因此,数据传输的安全问题引起了社会各界的广泛关注,人们已经投入了大量的研究工作来保证数据传输的安全以及隐私。数据隐写是一种可逆的数据嵌入技术,即数据的发送方可以通过深度学习模型将需要传输的秘密数据嵌入到图像、文本等载体,当中并发送该携带秘密信息的载体,接收方则可以根据事先商定好的解码策略从隐写数据中提取出秘密信息。
[0003]目前基于语言模型的隐写方法大致可以分为:基于编辑的语言隐写和基于生成的语言隐写。基于编辑的语言隐写方法通过替换一段话中的某些词来嵌入秘密信息,对于待替换的词,首先构造出该词的同义词组,其中的每个同义词都用一个二进制对其进行编码。基于生成的语言隐写方法是通过在自然语言模型生成文本的过程中限制生成过程来嵌入秘密信息。这类方式属于一种文本续写的方式,他们首先利用载体文本来初始化一个语言模型,并基于待加密的秘密信息来生成后续的隐写文本。目前对于隐写方法仍存在下列不足:
[0004]1.由于同义词组的构造是一个极其复杂且繁琐的过程,现有技术提出利用掩码语言模型作为工具来完成同义词替换;对待替换的词进行掩码操作,并利用降噪自编码模型输出该位置的同义词组;为了保证生成的隐写文本的自然性,edit

based方式一般根据阈值来选取top

K个单词作为同义词组,然而,这也导致了其承载秘密信息的能力,该方法能够加密的秘密信息取决于选取的载体文本的长度。当需要加密的秘密信息过长时,edit

based方法需要选择足够长的文本作为载体文本,若此时选取的载体文本过短,则无法对秘密信息进行完全加密。
[0005]2.现有的基于生成的语言隐写方法虽然大幅度提升了隐写文本对秘密信息的嵌入能力,但其生成方式是不可控的,完全根据语言模型的当前状态及秘密信息来生成文本,很容易导致生成的隐写文本不自然。

技术实现思路

[0006]本专利技术实施例的目的在于提供一种基于文本改写得自然可控的隐写文本生成方式,以克服现有技术手段的不足,通过改变单词的使用来嵌入秘密信息同时保证语义相似性,能够在保证信息承载能力的同时提升文本的自然性和可控性。
[0007]为解决上述技术问题,本专利技术所采用的技术方案是:
[0008]本专利技术提供一种基于文本改写模型的隐写文本生成方法,其特征在于,包括以下
步骤:
[0009]S1、采集文本训练数据和测试数据,并将待加密的文本数据转换为比特流;
[0010]S2、构建预训练降噪自编码模型;
[0011]S3、微调模型,使用数据增强方式生成微调数据集;
[0012]S4、基于条件限制性编码进行二次微调,在输入文本后拼接一个模板,模板内容为期望输出的文本长度;
[0013]S5、秘密信息嵌入,在文本生成的解码阶段,使用特定的分组掩码操作根据S1生成的比特流来约束当前时间步的生成;
[0014]S6、文本重排序,同时生成多个候选文本,计算其困惑度并选择最优解;
[0015]S7、秘密信息提取,接收方收到携带秘密信息的隐写文本后,通过事先确定的解码策略从隐写文本中恢复秘密信息。
[0016]进一步的,S1将文本训练数据和测试数据转化为比特流的具体方式为通过异或操作将字符串转换为对应的utf

8编码的比特序列。
[0017]进一步的,S2中所述降噪自编码模型具备编解码结构,其编码器首先会将输入映射成隐空间向量,解码器再将该隐空间向量融合上下文信息生成对应的输出文本Y'
t
,具体形式如下式:
[0018]H=Encoder(Y)
[0019]Y

t
=Decoder(Y

1:t
‑1,H)
[0020]其中,t为第t个时刻,Encoder()表示编码过程,Decoder()表示解码过程,Y表示输入文本,H表示隐空间向量,Y`表示Y对应的输出文本,Y'
1:t
‑1表示第1时刻到t

1时刻Y对应的输出文本。
[0021]具体的,S3微调模型的具体过程如下:
[0022]在降噪自编码模型的预训练阶段,对于给定的原始文本X
original
,通过在X
original
添加手动定义的噪声来合成一个噪声文本X
corrupt
,再利用降噪自编码模型将损坏后的文本恢复为X
original

[0023]P
BART
(X
original
|X
corrupt
)
[0024]其中,P
BART
()表示X
corrupt
被恢复为X
original
的概率;
[0025]从原始数据集中采样出了困惑度大于20且小于200的高质量文本,然后使用数据增强工具合成扰动数据,包括8个扰动操作:随机单词插入、随机单词替换、同义词替换、反义词替换、单词分解、单词删除、单词换位以及上述方法的随机组合,最后,选择100万条数据样本作为模型的输入,并选择这些扰动数据对应的原始数据作为标签来微调模型。
[0026]进一步的,在所述微调过程中,X
corrupt
作为解码器的输入并得到隐空间向量H,编码器在X
corrupt
的限制下生成与其语义相关并去噪的文本X
original

[0027]具体的,所述S4中模板为“Generate a sentence oflength Lbyparaphrasingthe contentonthe left”,其中,L为本专利技术想要生成的文本的长度。
[0028]具体的,所述S5的具体过程为,降噪自编码模型首先输出一个维度与词表大小相同的向量,在经过softmax之后,对词表进行分组,保留对应当前待加密比特序列的分组内的单词的概率,其他概率则全置为0,并基于分组掩码的方式从期望的组内选择概率最高的单词作为当前时刻的输出。
[0029]进一步的,所述S5中分组具体为,将词表划分为2
n
个组,每一个组用一个唯一的长度为n的比特序列来表示。
[0030]进一步的,文本重排序的过程中,选择贪心搜索或beam

Search任一方式进行输出。
[0031]具体的,S6计算困惑度并选择最优解的计算步骤如下:
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于文本改写模型的隐写文本生成方法,其特征在于,包括以下步骤:S1、采集文本训练数据和测试数据,并将待加密的文本数据转换为比特流;S2、构建预训练降噪自编码模型;S3、微调模型,使用数据增强方式生成微调数据集;S4、基于条件限制性编码进行二次微调,在输入文本后拼接一个模板,模板内容为期望输出的文本长度;S5、秘密信息嵌入,在文本生成的解码阶段,使用特定的分组掩码操作根据S1生成的比特流来约束当前时间步的生成;S6、文本重排序,同时生成多个候选文本,计算其困惑度并选择最优解;S7、秘密信息提取,接收方收到携带秘密信息的隐写文本后,通过事先确定的解码策略从隐写文本中恢复秘密信息。2.根据权利要求1所述的基于文本改写模型的隐写文本生成方法,其特征在于,S1将文本训练数据和测试数据转化为比特流的具体方式为通过异或操作将字符串转换为对应的utf

8编码的比特序列。3.根据权利要求1所述的基于文本改写模型的隐写文本生成方法,其特征在于,S2中所述降噪自编码模型具备编解码结构,其编码器首先会将输入映射成隐空间向量,解码器再将该隐空间向量融合上下文信息生成对应的输出文本Y'
t
,具体形式如下式:H=Encoder(Y)Y

t
=Decoder(Y

1:t
‑1,H)其中,t为第t个时刻,Encoder()表示编码过程,Decoder()表示解码过程,Y表示输入文本,H表示隐空间向量,Y`表示Y对应的输出文本,Y'
1:t
‑1表示第1时刻到t

1时刻Y对应的输出文本。4.根据权利要求1所述的基于文本改写模型的隐写文本生成方法,其特征在于,微调模型的具体过程如下:在降噪自编码模型的预训练阶段,对于给定的原始文本X
original
,通过在X
original
添加手动定义的噪声来合成一个噪声文本X
corrupt
,再利用降噪自编码模型将损坏后的文本恢复为X
original
:P
BART
(X
original
|X
corrupt
)其中,P
BART
()表示X
cor...

【专利技术属性】
技术研发人员:董云云李钒效巫思杏周维
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1