【技术实现步骤摘要】
一种多尺度联合文本隐写方法及系统
[0001]本专利技术涉及一种多尺度联合文本隐写方法及系统,属于信息隐藏
技术介绍
[0002]文本隐写是一种在文本中嵌入秘密信息并进行安全传输的方法,主要用于实现秘密通信。文本隐写与密码学的最主要区别就是隐藏信息本身的存在而不是信息的内容。因此,文本隐写在保护信息安全方面具有独特优势。但传统的文本隐写算法存在隐写文本质量低和嵌入率低等问题。
技术实现思路
[0003]本专利技术的目的在于克服现有技术中的不足,提供一种多尺度联合文本隐写方法及系统,解决传统的文本隐写算法存在隐写文本质量低和嵌入率低的技术问题。
[0004]为达到上述目的,本专利技术是采用下述技术方案实现的:第一方面,本专利技术提供了一种多尺度联合文本隐写方法,包括:获取文本序列和秘密信息;将文本序列输入预构建的生成替换联合模型中,获取各单词的生成概率分布;根据秘密信息和生成概率分布对文本序列进行隐写操作,获取第一隐写文本以及隐写记录;根据隐写记录确定文本序列中未隐写单词,将文本序列输入预构建 ...
【技术保护点】
【技术特征摘要】
1.一种多尺度联合文本隐写方法,其特征在于,包括:获取文本序列和秘密信息;将文本序列输入预构建的生成替换联合模型中,获取各单词的生成概率分布;根据秘密信息和生成概率分布对文本序列进行隐写操作,获取第一隐写文本以及隐写记录;根据隐写记录确定文本序列中未隐写单词,将文本序列输入预构建的生成替换联合模型中,获取各未隐写单词的替换概率分布;根据秘密信息和替换概率分布对未隐写单词进行隐写操作,获取第二隐写文本;根据第一隐写文本和第二隐写文本生成联合隐写文本。2.根据权利要求1所述的一种多尺度联合文本隐写方法,其特征在于,所述生成替换联合模型的构建过程包括:获取预设数量的文本数据;对文本数据进行预处理,基于预处理后的文本数据构建样本集;将样本集按预设比例划分为训练集和验证集;基于PyTorch搭建生成替换联合模型,所述生成替换联合模型包括生成模型和替换模型;使用训练集对生成替换联合模型进行迭代训练,在迭代训练后,使用验证集对迭代训练后的生成替换联合模型进行验证,在验证后,保留损失最小的生成替换联合模型并输出。3.根据权利要求2所述的一种多尺度联合文本隐写方法,其特征在于,所述预处理包括:对文本数据进行分割,保留分割结果中的单词并生成单词序列;将单词序列的前n
‑
1位作为样本,将单词序列的后n
‑
1位作为标签,n为单词序列的总位数;若样本或标签的位数小于预设位数阈值N,则在相应的样本或标签尾部通过填充符号填充,使其位数等于预设位数阈值N;若样本或标签的位数大于预设位数阈值N,则在相应的样本或标签尾部截去单词,使其位数等于预设位数阈值N。4.根据权利要求2所述的一种多尺度联合文本隐写方法,其特征在于,所述使用训练集对生成替换联合模型进行迭代训练包括:将训练集中的样本输入生成替换联合模型,获取生成模型输出的生成概率分布和替换模型输出的替换概率分布;根据生成概率分布预测结果和替换概率分布预测结果分别与标签作为交叉熵损失函数的输入,计算损失和,对损失和求和获取损失;对损失进行反向传播得到生成替换联合模型的参数梯度,并使用Adam优化器进行参数优化;将参数优化后的生成替换联合模型带入上述步骤进行迭代,直至损失收敛,输出训练好的生成替换联合模型。5.根据权利要求4所述的一种多尺度联合文本隐写方法,其特征在于,所述生成模型输
出的生成概率分布包括:使用LSTM逐个提取出样本中各单词的时序关系特征向量,并组成时序关系特征矩阵;通过多头自注意力机制计算样本中各单词的在时序特征上的关系权重,反映成注意力矩阵:;式中,为注意力头输出的特征向量,为注意力头总数,分别为注意力头的query、key、value向量对应的参数矩阵,为注意力参数矩阵,,为时序关系特征向量的维度,为连接操作,为sigmoid函数;将时序关系特征矩阵与注意力矩阵相乘得到各时间步的时间特征矩阵:;通过词嵌入层将样本中各单词映射到高维的语义空间,获取各单词的词嵌入向量;构建一个图结构,并将样本中的所有单词的词嵌入向量作为图结构的各个节点,即,为样本中单词数量;通过滑动窗口算法对样本中的所有单词的空间关系进行提取以建立图结构的边集,即,为边的数量;使用GAT从图结构中提取出各节点的空间关系特征向量,通过多头自注意力机制计算空间特征,反映成注意力系数:;式中,为节点到节点的注意力系数,为节点的相邻节点,为节点、节点和节点的空间关系特征向量,为各节点的线性变换权重矩阵,为权重向量,为激活函数,为将两个向量拼接;将注意力系数与节点的空间关系特征向量相乘,并通过多头自注意力机制更新节点的空间关系特征向量,生成空间特征矩阵:;式中,为注意力头对应的权重矩阵;将时间特征矩阵和空间特征矩阵通过第一全连接层和激活函数进行特征融合得到融合特征矩阵:;式中,为第一全连接层的参数矩阵;将融合特征矩阵通过第二全连接层和激活函数进行预测生成,输出生成概率分布:;式中,为第二全连接层的参数矩阵,为第一偏置参数。
6.根据权利要求4所述的一种多尺度联合文本隐写方法,其特征在于,所述替换模型输出的替换概率分布包括:从样本中随机选取多个单词替换为代表掩码的符号,得到带掩码符号样本;通过BERT的嵌入向量层将带掩码符号样本映射到高维的语义空间,获取各单词的特征映射向量:;式中,为带掩码符号样本,为嵌入向...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。