一种可跨语料库可跨算法的生成式文本隐写分析方法技术

技术编号:37434765 阅读:20 留言:0更新日期:2023-05-06 09:06
本发明专利技术公开了一种可跨语料库可跨算法的生成式文本隐写分析方法,该方法包括:将文本片段输入预先建立和训练好的的文本隐写检测模型,实现对自然文本与隐写文本的判别;所述文本隐写检测模型包括依次连接的词重要性语义编码模块、词间关联多尺度感知模块和岭回归分类模型;其中,所述词重要性语义编码模块,用于提取文本片段的语义特征;所述词间关联多尺度感知模块,用于从语义特征中获取词间关联特征;所述岭回归分类模型,用于根据词间关联特征实现对自然文本与隐写文本的判别。本发明专利技术的方法实现在少样本场景下仍能保持对自然文本与隐写文本的精准判别,性能指标超过现有方法。法。法。

【技术实现步骤摘要】
一种可跨语料库可跨算法的生成式文本隐写分析方法


[0001]本专利技术涉及信息安全及深度学习
,特别涉及一种可跨语料库可跨算法的生成式文本隐写分析方法。

技术介绍

[0002]隐写术能够将秘密信息嵌入在图像、声音、文本等数字媒体介质上而不给其带来显著变化。借助隐写术可以在不引起监管者怀疑的情况下将修改过的载体通过公共信道发送给接收者,之后接收者从中完整重构秘密信息从而实现隐蔽通信。文本作为人类在日常生活中的主要通信媒介,这导致其会是一种重要的信息隐藏载体。文本隐写主要包含两类方法:基于修改式的和基于生成式的。基于修改式的文本隐写是指在已有文本载体的基础上对文本格式或内容进行修改来嵌入秘密信息,嵌入载荷不高。基于生成式的文本隐写是指借助语言模型在大规模语料库下学习文本词间统计分布,然后根据秘密信息直接生成隐写文本。这类方法允许嵌入更多的秘密信息从而造成了更大的信息安全威胁。因此,为了预防违法犯罪分子利用生成式文本隐写实施危害公共信息安全的活动,有必要开发出一种性能优异的生成式文本隐写分析算法。
[0003]生成式文本隐写分析方法主要分为两类,基于人工特征提取的方法与基于深度学习的方法。人工特征提取方法的基本思想为手工提取文本特征后送入支持向量机等传统分类器实现分类。该方法的缺点是需要大量领域知识且提取特征与训练分类器分离导致检测性能不高,难以应对新兴的生成式文本隐写方法生成的高质量隐写文本。基于深度学习的方法能够通过特定的网络结构自动提取特征并以端到端的方式进行训练,与人工提取特征的方法相比,克服了引入先验知识带来的局限性从而实现了更好的检测效果。
[0004]相同训练语料库和相同隐写算法下生成的隐写文本属于同一个隐写域。生成式文本隐写方法生成隐写文本时,首先借助在大规模语料库下预训练好的语言模型获得生成候选词池,然后利用隐写算法来建立秘密信息比特流与候选词之间的映射关系,实现在保证生成文本自然度的同时嵌入秘密信息。在此过程中,当使用不同的训练语料库时生成的隐写文本会有较大差异,此外,采用不同的隐写算法也会给隐写文本带来不同。因此,隐写文本主要受训练语料库和隐写算法两个因素影响。现有基于深度学习的隐写分析方法大多需要满足两个前提条件:大量监督数据参与训练以及测试集与训练集属于同一个隐写域。当有监督数据量较少(少样本)或测试集与训练集属于不同隐写域(跨域)时,这些方法的检测性能将急剧下降。

技术实现思路

[0005]本专利技术的目的在于克服现有技术缺陷,提出了一种可跨语料库可跨算法的生成式文本隐写分析方法。
[0006]为了实现上述目的,本专利技术提出了一种可跨语料库可跨算法的生成式文本隐写分析方法,所述方法包括:
[0007]将文本片段输入预先建立和训练好的的文本隐写检测模型,实现对自然文本与隐写文本的判别;
[0008]所述文本隐写检测模型包括依次连接的词重要性语义编码模块、词间关联多尺度感知模块和岭回归分类模型;其中,
[0009]所述词重要性语义编码模块,用于提取文本片段的语义特征;
[0010]所述词间关联多尺度感知模块,用于从语义特征中获取词间关联特征;
[0011]所述岭回归分类模型,用于根据词间关联特征实现对自然文本与隐写文本的判别。
[0012]作为上述方法的一种改进,所述词重要性语义编码模块包括预训练语言表示模型RoBERTa和词重要度挖掘结构;其中,
[0013]所述预训练语言表示模型RoBERTa包括词嵌入层和堆叠的12层Transformer;
[0014]所述词重要度挖掘结构包括平均池化、最大池化与卷积核大小为2*1的卷积层。
[0015]作为上述方法的一种改进,所述预训练语言表示模型RoBERTa的处理过程具体包括:
[0016]对于输入文本片段T={t1,t2,

t
j
,

,t
len
},其中len代表句子长度,t
j
代表第j个单词,词嵌入层将T中单词转换为词向量,并引入段向量与位置向量得到输入矩阵E={e1,e2,

,e
j
,

,e
len
},其中,e
j
代表第j个单词的嵌入向量,E通过12层Transformer后得到文本词嵌入表示P={p1,p2,

,p
j
,

,p
len
},其中,p
j
∈[1,L
WE
]是第j个单词的词嵌入表示,L
WE
为词嵌入长度。
[0017]作为上述方法的一种改进,所述词重要度挖掘结构的处理过程具体包括:
[0018]由平均池化与最大池化来从不同视角获取文本词嵌入表示P中的文本信息,将二者拼接起来得到双角度文本信息C,由卷积核对双角度文本信息C进行信息融合,得到词级别重要度信息G,通过sigmoid激活函数得到表示词重要度的权重系数G,并利用其对词嵌入表示进行更新,找出对隐写敏感单词的语义特征V,计算公式如下:
[0019]C=[MaxPool(P),AvgPool(P)][0020][0021]V=P

G
[0022]其中,MaxPool与MaxPool分别为最大池化与平均池化操作,Conv
f
为核大小为(2,1)的卷积层,V∈[len,L
SF
],L
SF
为词语义特征长度,

表示矩阵逐点相乘。
[0023]作为上述方法的一种改进,所述词间关联多尺度感知模块包括具有不同感受野的特征提取模块及具有压缩

激励结构的注意力模块;其中,
[0024]所述特征提取模块,用于有针对性地从隐写敏感单词的语义特征V中提取不同尺度的词间关系特征,包括三路分支,每路分支包括若干个卷积核的二维卷积以及最大池化;再对三路分支进行拼接处理,满足下式:
[0025]O=[MaxPool(Conv1(V)),MaxPool(Conv2(V)),MaxPool(Conv3(V))][0026]其中,Conv1,Conv2,Conv3中分别包含d个大小分别为(3,L
SF
),(4,L
SF
),(5,L
SF
)的卷积核;
[0027]所述注意力模块包括两个大小不一致的线性层,利用压缩操作获取特征的全局描述,再通过激励操作寻找不同特征间的相互依赖关系,获得能代表不同特征重要程度的权
重值Q,通过点乘操作实现权重信息与词间关系特征O的融合,得到多尺度关联感知特征M,满足下式:
[0028][0029]M=Q

O
[0030]其中,与分别为两个线性层的权重向量和偏置,sigmoid表示激励操作,Q∈(3d),M∈(3d)。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可跨语料库可跨算法的生成式文本隐写分析方法,所述方法包括:将文本片段输入预先建立和训练好的的文本隐写检测模型,实现对自然文本与隐写文本的判别;所述文本隐写检测模型包括依次连接的词重要性语义编码模块、词间关联多尺度感知模块和岭回归分类模型;其中,所述词重要性语义编码模块,用于提取文本片段的语义特征;所述词间关联多尺度感知模块,用于从语义特征中获取词间关联特征;所述岭回归分类模型,用于根据词间关联特征实现对自然文本与隐写文本的判别。2.根据权利要求1所述的可跨语料库可跨算法的生成式文本隐写分析方法,其特征在于,所述词重要性语义编码模块包括预训练语言表示模型RoBERTa和词重要度挖掘结构;其中,所述预训练语言表示模型RoBERTa包括词嵌入层和堆叠的12层Transformer;所述词重要度挖掘结构包括平均池化、最大池化与卷积核大小为2*1的卷积层。3.根据权利要求2所述的可跨语料库可跨算法的生成式文本隐写分析方法,其特征在于,所述预训练语言表示模型RoBERTa的处理过程具体包括:对于输入文本片段T={t1,t2,...t
j
,...,t
len
},其中len代表句子长度,t
j
代表第j个单词,词嵌入层将T中单词转换为词向量,并引入段向量与位置向量得到输入矩阵E={e1,e2,...,e
k
,...,e
len
},其中,e
j
代表第j个单词的嵌入向量,E通过12层Transformer后得到文本词嵌入表示P={p1,p2,...,p
j
,...,p
len
},其中,p
j
∈[1,L
WE
]是第j个单词的词嵌入表示,L
WE
为词嵌入长度。4.根据权利要求3所述的可跨语料库可跨算法的生成式文本隐写分析方法,其特征在于,所述词重要度挖掘结构的处理过程具体包括:由平均池化与最大池化来从不同视角获取文本词嵌入表示P中的文本信息,将二者拼接起来得到双角度文本信息C,由卷积核对双角度文本信息C进行信息融合,得到词级别重要度信息G,通过sigmoid激活函数得到表示词重要度的权重系数G,并利用其对词嵌入表示进行更新,找出对隐写敏感单词的语义特征V,计算公式如下:C=[MaxPool(P),AvgPool(P)]V=P

G其中,MaxPool与MaxPool分别为最大池化与平均池化操作,Conv
f
为核大小为(2,1)的卷积层,V∈[len,L
SF
],L
SF
为词语义特征长度,

表示矩阵逐点相乘。5.根据权利要求4所述的可跨语料库可跨算法的生成式文本隐写分析方法,其特征在于,所述词间关联多尺度感知模块包括具有不同感受野的特征提取模块及具有压缩

激励结构的注意力模块;其中,所述特征提取模块,用于有针对性地从隐写敏感单词的语义特征V中提取不同尺度的词间关系特征,包括三路分支,每路分支包括若干个卷积核的二维卷积以及最大池化;再对三路分支进行拼接处理,满足下式:O=[MaxPool(Conv1(V)),MaxPool(Conv2(V)),MaxPool(Conv3(V))]其中,Conv1,Conv2,Conv3中分别包含d个大小分别为(3,L
SF
),(4,L
SF
),(5,L
SF
)的卷积
核;所述注意力模块包括两个大小不一致的线性层,利用压缩操作获取特征的全局描述,再通过激励操作寻找不同特征间的相互依赖关系,获得能代表不同特征重要程度的权重值Q,通过点乘操作实现权重信息与词间关系特征O的融合,得到多尺度关联感知特征M,满足下式:M=Q

O其中,与分别为两个线性层的权重向量和偏置,sigmoid表示激励操作,Q∈(3d),M∈(3d)。6.根据权利要求5所述的可跨语料库可跨算法的生成式文本隐写分析方法,其特征在于,所述方法还包括文本隐写检测模型的训练步骤;具体包括:步骤1)划分数据集,将利用不同训练语料库或不同隐写算法使用不同嵌入率生成的隐写文本划分为不同的类别,有标签数据组成源域元数据集S
source
,无标签数据组成目标域数据集S
target
;步骤2)对步骤1)中得到的源域元数据集S
source
与目标域数据集S
target
,采用元学习策略从源域元数据集S
source
中抽取支持集查询集其对应标签分别为y
s
、y
q
,从目标域数据集S
target
中抽取目标集步骤3)对步骤2)中得到的文本片段集合将其分别通过词重要性语义编码模块得到语义特征n
s
,n
q
与n
t
;步骤4)对步骤3)中得到的文本特征n
s
,n
q
与n
t
,分别通过词间关联多尺度感知模块得到词间关联特征...

【专利技术属性】
技术研发人员:李松斌杜辉王津港魏晓曦劳成旺陈榕魁
申请(专利权)人:恒锋信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1