一种自然语言水印方法技术

技术编号:38351180 阅读:5 留言:0更新日期:2023-08-05 17:24
本发明专利技术公开了一种自然语言水印方法,包括以下步骤:步骤1、鲁棒词识别器构建;步骤2、标注语料库,训练鲁棒词识别器;步骤3、词替换模型构建;步骤4、鲁棒词语料库的数据增强;步骤5、水印信息嵌入。水印信息嵌入。水印信息嵌入。

【技术实现步骤摘要】
一种自然语言水印方法


[0001]本专利技术涉及自然语言处理技术及信息安全领域,具体涉及一种自然语言水印方法。

技术介绍

[0002]随着互联网技术和网络社交媒体的发展,数字内容便利共享的同时也引发了如数字内容泄露、侵权、伪造等一系列信息安全问题。自然语言数字水印是一种针对文本内容的版权保护技术,它对文本内容进行语义等价变换,从而以不可感知的方式嵌入能够标识文本版权的水印信息,通过水印信息的检测来保护文本的版权。
[0003]已有自然语言数字水印方法在保证文本语义不变的前提下,通常通过对文本中的词进行同义替换或者语义等价的句子变换,实现水印信息的嵌入。相比基于句法变换的自然语言数字水印方法,基于同义词替换的方法实现难度较低,对文本内容的修改较少,具有较好的鲁棒性和不可感知性。但基于同义词替换的方法局限于同义词之间的替换,且即使一个词具有多种语义,为了避免提取时的歧义,通常一个词将限定与规定的少量词进行替换。另外,受限于上下文,并不是所有的同义词均适合当前的上下文,因此,为了使得水印文本最大程度地保留原始文本的语义,通常需要利用嵌入位置的上下文来衡量同义词的合适度,以选择更加合适的同义词。因此,虽然基于同义词替换的方法能够较好地保留文本语义不变,但实际的水印容量较低。
[0004]为了提高基于同义词替换的自然语言水印方法的不可感知性和容量,有研究者提出了基于神经网络语言模型的词替换自然语言水印方法,这种方法利用神经网络语言模型来为文本中的内容自动生成合适的替换项以嵌入水印。相比基于同义词替换的方法,由于可替换的词不局限于互为同义的词,水印容量更大;其次,神经网络语言模型能够更好地表示上下文的语义信息,通过上下文语义信息来预测当前位置的合适的可替换词,使得替换前后的文本内容具有更高的语义相似度,更好地保持了文本内容的语义,使水印文本的不可感知性更高。但是,由于这类方法是利用上下文的信息来自动预测可替换词列表的,因此可替换词的预测是对上下文敏感的,当上下文发生改变,如遭受删除、替换、插入词等文本编辑攻击,可替换词的预测结果将随之发生改变,从而影响水印信息的正确提取。同时,在水印信息提取时,难以准确定位水印信息的位置。特别是,现有基于词替换的自然语言水印方法在遭受攻击时,容易导致水印信息提取失败,失去对文本内容版权的保护,制约了自然语言水印方法的应用价值。因此,如何提升自然语言水印技术的鲁棒性是亟需解决的重要问题。
[0005]面对现有自然语言数字水印技术存在的不足,本专利技术在保证文本语义不变和流畅性的前提下,实现了一种对文本编辑鲁棒的自然语言水印方法,提高了水印方法的鲁棒性,该方法使水印文本在遭受词删除、插入等文本编辑攻击时,仍能准确提取水印信息进行版权保护。

技术实现思路

[0006]为解决现有技术存在的不足,本专利技术提出了一种对文本编辑鲁棒的自然语言水印方法。
[0007]为实现本专利技术之目的,采用以下技术方案予以实现:
[0008]一种自然语言水印方法,包括以下步骤:
[0009]步骤1、鲁棒词识别器构建;
[0010]步骤2、标注语料库,训练鲁棒词识别器;
[0011]步骤3、词替换模型构建;
[0012]步骤4、鲁棒词语料库的数据增强;
[0013]步骤5、水印信息嵌入。
[0014]所述的自然语言水印方法,其中,所述步骤1中,鲁棒词识别器构建包括:
[0015]步骤1.1将单词及其词性标签进行向量化,表示为嵌入向量;
[0016]步骤1.2对单词及词性标签嵌入进行编码;
[0017]步骤1.3计算单词间的上下文语义特征向量;
[0018]步骤1.4计算当前时刻单词的隐藏状态;
[0019]步骤1.5利用隐藏状态预测单词的鲁棒标签。
[0020]所述的自然语言水印方法,其中,所述步骤2中,标注鲁棒语料库时包括:
[0021]步骤2.1获取语义对齐的复杂句和简单句数据集。
[0022]步骤2.2对于语义对齐的复杂句和简单句句子对,按下式逐一计算复杂句X和简单句Y之间的最短编辑距离Lev
X,Y
(m,k):
[0023][0024]其中m,k分别表示复杂句X和简单句Y的单词长度。
[0025]步骤2.3根据最短编辑距离来判断句子对中每个词的编辑操作,根据单词的编辑信息来标注单词的鲁棒类别。
[0026]所述的自然语言水印方法,其中,所述步骤2还包括:
[0027]步骤2.4确定鲁棒词识别器的训练目标,将上述步骤获得的鲁棒词语料库作为鲁棒识别器的训练数据训练鲁棒词识别器,获取最优的模型参数,包括:
[0028]确定鲁棒词识别模型的训练目标为最大化条件概率分布P(Z|X):
[0029][0030]其中,X={x1,x2,...,x
m
}为训练句,其鲁棒标签序列为Z={z1,z2,...,z
m
},m为训练句的单词长度;通过训练句X、当前时刻单词x
i
的信息以及当前时刻之前所有词的鲁棒标签序列z
1:i
‑1,预测当前时刻单词x
i
的鲁棒类型z
i
,z
i
∈{0,1},0代表该词为非鲁棒词,1代表该词为鲁棒词;
[0031]确定好鲁棒识别器的训练目标后,将步骤2.3中已标注好鲁棒标签的训练句及其鲁棒标签序列输入鲁棒识别器进行训练。
[0032]所述的自然语言水印方法,其中,所述步骤3中,词替换模型构建包括:
[0033]步骤3.1将掩码的句子输入嵌入层,获得句子的嵌入表示矩阵;
[0034]步骤3.2利用双向长短期记忆网络Bi

LSTM构建编码器,得到掩码位置所在上下文的语义特征向量;
[0035]步骤3.3构建解码器学习掩码位置特征向量;
[0036]步骤3.4根据掩码位置特征向量和掩码上下文语义特征向量,利用多头注意力模块得到解码器隐藏状态;
[0037]步骤3.5根据解码器隐藏状态预测掩码位置的可替换词的概率分布,获取掩码位置的可替换词列表。
[0038]所述的自然语言水印方法,其中,所述步骤4中,鲁棒词语料库的数据增强包括:
[0039]步骤4.1对鲁棒词语料库中的鲁棒词进行掩码获得掩码句子;
[0040]步骤4.2利用步骤3所构建的词替换模型,生成鲁棒词x
i
的可替换单词列表CP
i
={cp
i1
,cp
i2
,...,cp
ij
,...,cp
iq
};
[0041]步骤4.3利用可替换单词列表中词依次替换鲁棒词x
i
,得到新的句子;
[0042]步骤4.4利用增强的鲁棒词语料库微调鲁棒词识别器。
[0043]所述的自然语言水印方法,其中,所述步骤5中,水印本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言水印方法,其特征在于包括以下步骤:步骤1、鲁棒词识别器构建;步骤2、标注语料库,训练鲁棒词识别器;步骤3、词替换模型构建;步骤4、鲁棒词语料库的数据增强;步骤5、水印信息嵌入。2.根据权利要求1所述的自然语言水印方法,其特征在于,所述步骤3中,词替换模型构建包括:步骤3.1将掩码的句子输入嵌入层,获得句子的嵌入表示矩阵;步骤3.2利用双向长短期记忆网络Bi

LSTM构建编码器,得到掩码位置...

【专利技术属性】
技术研发人员:向凌云黄明豪刘杨凡张晨凌王蓉
申请(专利权)人:长沙理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1