System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于信息隐藏领域,涉及文本隐写检测,具体涉及一种基于知识注入和知识编码的语言隐写分析方法。
技术介绍
1、文本隐写分析随着自然语言处理技术的进步而迅速发展。尽管检测能力有了显著提升,但在面对真实的在线文本检测场景时,仍然难以取得令人满意的结果。一个显著的原因在于,公共网络空间中的文本,如twitter等,往往是高度碎片化的,单个文本通常具有有限的指示特征。当前的检测模型在从个体输入文本中提取足够丰富的特征方面面临着挑战,阻碍了对文本的全面理解,限制了模型的最终检测能力。
2、yang等人[sesy:linguistic steganalysis framework integrating semanticand syntactic features]提出了一种sesy方案,使用强大的预训练语言模型——双向编码器表示变换(bert)来提取语义特征,并设计了sesy框架来考虑由于嵌入秘密信息而引起的语法变化,有效提升了现有先进的语言隐写分析算法。这种方案在一定程度上增强了文本隐写分析的能力,但这些检测模型在真实网络检测场景中面临着由网络文本的碎片化性质引起的严峻挑战。
3、fu等人[hga:hierarchical feature extraction with graph and attentionmechanism for linguistic steganalysis]提出了一种hga方案,引入了ls-bgat,这是一种创新方法,将文本节点与单词节点合并,形成一个庞大的异构图,利用图注意网络(
技术实现思路
1、本专利技术提出了一种基于知识注入和知识编码的语言隐写分析方法,用以解决由网络文本碎片化引起的文本隐写分析的实际挑战等问题。
2、所述基于知识注入和知识编码的语言隐写分析方法,具体步骤如下:
3、步骤一,构建一个基于知识注入和知识编码的语言隐写分析系统模型;
4、所述的系统模型命名为kike,包括两个部分:基于知识注入的语义编码和基于知识提取的知识编码。
5、步骤二,语言隐写分析系统模型借助知识图对输入句子进行预处理,以适应现有的顺序语言模型框架,完成知识注入;
6、预处理过程具体为:
7、步骤201,输入句子s是由一系列标记组成的集合,表示为s={w1,w2,...,wn},其中n是句子的长度,wi是句子的第i个标记。知识图k是由实体和实体之间关系的三元组组成的图结构,表示为k(v,e),k包含多个三元组(vi,ek,vj),其中vi和vj是实体,ek表示实体之间的关系。
8、步骤202,利用知识图将输入句子从原始形式s转换为句子树s'为:
9、
10、其中,(wi,...,wi+l-1)代表由l个词组成的实体ei,表示连接到ei的多个分支。
11、步骤203,对句子树s'中的标记重新编号,使用软位置索引和硬位置索引的组合进行语言模型的位置嵌入;
12、具体实现过程为:
13、首先,原句子每个标记的软位置索引为1~n,若知识图注入的内容与原句子软位置i的距离为x,则知识图注入内容的软位置索引为i+x,并在位置嵌入过程中映射到相同的位置向量;
14、然后,硬位置索引用于重新排序句子树中的标记,并将句子树展平为线性序列,以进行编码阶段。
15、最后,通过以上软硬位置索引的组合,得到句子树中各标记的索引。
16、步骤204,使用硬位置索引构建可见矩阵m,指导知识分支的可视范围;
17、可见矩阵m表示如下:
18、
19、其中,表示两个标记在同一分支,表示两个标记不在同一分支。i和j是硬位置索引。
20、步骤三,对句子树和可见矩阵采用bert,完成语义特征的提取,并进行知识注入语义编码;
21、具体过程为:
22、步骤301,bert的嵌入层包括词嵌入、位置嵌入和段嵌入,在位置嵌入部分使用软位置索引,以表示句子中标记的相对位置,词嵌入和段嵌入部分保留原始的映射方法。
23、步骤302,将这三部分信息嵌入到高维特征空间并相加,以获得隐藏层变量h0={h1,h2,...,hn′}∈rn′×d,其中n'是经过压缩句子树后展平序列的长度,d是特征的数量。
24、步骤303,将h0传递给mask-transformer模块,该模块由l个堆叠的mask-transformer子层组成,每一层的输入向量集是前一层的输出向量集,如下所示:
25、hl=mask-transformerl(hl-1),1≤l≤l
26、每一层mask-transformer子层包括一个多头注意力层、一个全连接层和两个残差连接标准化层。使用可见矩阵来控制在注意力计算过程中标记之间的相关性计算。每个隐藏向量组(ql,kl,vl)的计算如下:
27、
28、其中,wq、wk和wv是可训练的参数矩阵,hl是第l层中所有隐藏向量的组合。如果向量hli对hlj是可见的,那么相关计算与bert中的相同。如果hli和hlj是不可见的,由于mij=-∞,注意力得分将被设置为0。sl是第l层的注意力得分。
29、步骤304,经过l层语义特征的细化,使用sigmoid函数得到知识注入语义编码的表示向量:
30、
31、表示第l层mask-transformer子层输出的隐藏层变量;
32、步骤四,在预处理的同时,使用图结构建模的ke模块对输入句子和知识图进行知识提取,得到迷你图;
33、首先从输入句子中提取已识别的实体,并逐一连接,然后将它们连接到知识图中相应的对象分支,形成一个迷你图g(γ,e),其中γ={v1,…,vm},m是句子树中实体的数量,e={εab=(va,vb)1≤a,b≤m}是边集。
34、通过最大池化函数将hc中的实体向量作为图节点的初始向量,并采用一个邻接矩阵a∈rm×m来表示实体之间的连接关系。
35、步骤五,通过一个两层的gat对迷你图进行知识编码。
36、具体实现过程为:
37、首先,第一层采用多头图注意力层,提取节点之间的关联信息。对于每个多头图注意力层,使用一个全局共享的权重矩阵w对初始向量进行线性变换。
38、然后,使用softmax方法计算每个节点与其连接节点之间的图注意力系数αij,具体表达式如下:
39、
40、其中,ni表示与节点ei相连接的所有邻居节点的集合,w∈rd×d'和是可训练的模型参数,leakyrelu是一个非线性激活函数。
41、最后,利用αij,通本文档来自技高网...
【技术保护点】
1.一种基于知识注入和知识编码的语言隐写分析方法,其特征在于,具体步骤如下:
2.根据权利要求1所述的一种基于知识注入和知识编码的语言隐写分析方法,其特征在于,对句子树S'中的标记重新编号的具体实现过程为:
3.根据权利要求1所述的一种基于知识注入和知识编码的语言隐写分析方法,其特征在于,所述每一层Mask-Transformer子层包括一个多头注意力层、一个全连接层和两个残差连接标准化层。
4.根据权利要求3所述的一种基于知识注入和知识编码的语言隐写分析方法,其特征在于,所述Mask-Transformer子层使用可见矩阵来控制在注意力计算过程中标记之间的相关性计算;每个隐藏向量组(Ql,Kl,Vl)的计算如下:
5.根据权利要求1所述的一种基于知识注入和知识编码的语言隐写分析方法,其特征在于,GAT对迷你图进行知识编码的过程为:
6.根据权利要求1所述的一种基于知识注入和知识编码的语言隐写分析方法,其特征在于,交叉熵损失函数为:
【技术特征摘要】
1.一种基于知识注入和知识编码的语言隐写分析方法,其特征在于,具体步骤如下:
2.根据权利要求1所述的一种基于知识注入和知识编码的语言隐写分析方法,其特征在于,对句子树s'中的标记重新编号的具体实现过程为:
3.根据权利要求1所述的一种基于知识注入和知识编码的语言隐写分析方法,其特征在于,所述每一层mask-transformer子层包括一个多头注意力层、一个全连接层和两个残差连接标准化层。
4.根据权利要求3所...
【专利技术属性】
技术研发人员:周琳娜,杨忠良,周志立,马宾,王壮,尤玮珂,陈学楷,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。