一种用于自然语言信息隐藏的大规模可替换词词库构建方法技术

技术编号:25397985 阅读:64 留言:0更新日期:2020-08-25 23:02
本发明专利技术公开了一种用于自然语言信息隐藏的大规模可替换词词库构建方法,包括:步骤1,对于词典中的每个单词,对其进行计算以将其表示成低维稠密的词向量;步骤2,根据单词间的词向量距离,计算单词间的相似度,获取每个单词的相似词列表;步骤3,进行所有相似词之间的关联关系和相似程度的表示;步骤4,根据相似词之间的关联关系和相似程度构建候选可替换词词组。通过本发明专利技术,成功构建了一个大规模的候选可替换词词库,实现了对自然语言信息隐藏方法嵌入容量的提升,并通过候选可替换词的过滤提高了含密文本的质量,实现了秘密信息的安全性的提高。

【技术实现步骤摘要】
一种用于自然语言信息隐藏的大规模可替换词词库构建方法
本专利技术属于信息安全领域,尤其涉及一种用于自然语言信息隐藏的可替换词词库构建方法。
技术介绍
随着全球信息化的发展,语言文字成了生活、工作中必不可少的交际工具和信息载体,越来越多的人通过网络进行办公、学习、交谈等信息传递活动。据CNNIC最新发布《第44次中国互联网络发展状况统计报告》显示,截至2019年6月,中国网民规模达8.54亿,网络新闻用户规模达6.86亿,即时通信用户规模达8.25亿。这些数据表明,我国每时每刻都有丰富的文本数据在传输、公布、共享。因此,文本数据非常适合作为信息隐藏的载体实现隐蔽通信,保护秘密信息的安全传输和存储。另一方面,由于网络的开放性和共享性,使得文本数据容易遭受修改、复制、盗版等攻击,因此,非常有必要使用信息隐藏技术在文本数据中嵌入水印信息,实现重要文本数据的版权保护和泄密追踪等。以文本内容为载体的自然语言信息隐藏是一种将秘密信息以不可感知的方式秘密地隐藏在公开文本载体中的技术,能够达到隐蔽通信、版权保护等目的。自然语言信息隐藏技术的核心是保持原始文本内容的可读性和语义不变性,因此,常利用语义等价词的替换、语义等价句型的变换等方式来嵌入秘密信息,替换或变换后的文本能够较好的保留原始文本在局部或全局的语义。由于不需要复杂的自然语言处理技术的支撑,已有的自然语言信息隐藏相关成果主要集中在利用同义词替换进行信息隐藏的方法上。基于同义词替换的自然语言信息隐藏方法将同义的词编码成不同的值后,根据待嵌入的秘密信息,选择具有指定编码值的同义词来替换原始词实现秘密信息的嵌入。由于同义的词具有相似的含义,理论上,这种同义词的替换不会影响原始文本的含义,嵌入的秘密信息具有较好的隐蔽性。已有研究者从提高嵌入容量、嵌入效率和抗隐写分析检测能力等方面进行了深入研究,提出了许多相关的信息隐藏方法。然而,由于同义词数量的有限,且一个词只能出现在一个同义词词组中,否则容易导致秘密信息的嵌入失败,因此,已有的基于同义词替换的自然语言信息隐藏方法普遍存在嵌入容量低的问题,大大的降低了此类方法的实用性。基于同义词替换的方法局限在同义词之间的相互替换,但在自然语言文本中,不止同义词是可相互替换来进行信息的隐藏。在很多情况下,具有相似上下文语境的词比如同位词、反义词等相互之间的替换,并不影响自然文本的可读性、使用价值和文本质量。如表示不同颜色的词在使用时,常常具有相似的上下文,在例句“Shewearsagreencoat”中,当将green替换成其他颜色词red等,对句子的影响较少。在词典中,不管是green的哪一种词义项,均不包括red等颜色词作为近义(同义)词。因此,在已有基于词替换的自然语言信息隐藏方法中,不会利用此类词进行替换。但利用分布式词向量表示green和red后,通过向量之间的距离来计算两者的相似度高达0.9235,在这种情况下,可以将具有高相似度的green和red视为可替换词用于信息隐藏,从而扩大可替换词的范围,提高信息隐藏方法的嵌入容量。基于上述分析,本专利技术提出了一种大规模可替换词词库构建方法,从两方面来提高基于同义词替换的信息隐藏方法的嵌入容量:可替换词词组的数量和互为可替换词的词数量。所构建的可替换词词库应用于基于同义词替换的自然语言信息隐藏方法时,大大提高了嵌入容量,同时生成的含密文本具有较高的文本质量和抗隐写分析检测能力。
技术实现思路
为实现本专利技术之目的,采用以下技术方案予以实现:一种用于自然语言信息隐藏的大规模可替换词词库构建方法,包括:步骤1,对于词典中的每个单词,对其进行计算以将其表示成低维稠密的词向量;步骤2,根据单词间的词向量距离,计算单词间的相似度,获取每个单词的相似词列表;步骤3,进行所有相似词之间的关联关系和相似程度的表示;步骤4,根据相似词之间的关联关系和相似程度构建候选可替换词词组。所述的词库构建方法,其中:步骤1包括:1.1准备一个词典D={w1,w2,L,wN},其中w为字典中的词,N为字典中总的单词数;1.2对于词典中的词,利用连续神经网络语言模型Skip-gram训练预设的语料库后获得每个词的词向量表示,对于词典D中的任意一个词wi,其词向量记为E(wi)。所述的词库构建方法,其中:步骤2包括:2.1利用余弦公式和词向量来度量两个词之间的相似度,计算单词wi和单词wj之间相似度,公式如下:2.2设置相似度阈值δ来判定两个词是否为相似词,若S(wi,wj)>δ,则判定wi与wj为相似词。所述的词库构建方法,其中步骤2还包括:2.3根据阈值δ获得wi的相似词列表其中swij为wi的第j个相似词,其与wi的相似度值满足:S(wi,swij)>δ,且称swij与wi是相似的;ni为wi的相似词个数,得到所有词的相似词列表,这些列表组成的集合记为SList,表示如下:所述的词库构建方法,其中步骤3包括:3.1将词典D中所有单词的相似词列表SList转换成一个无向图G(D,E),该图以词典D中单词为顶点,若两个单词是相似的,则对应顶点之间有边相连,边的集合为E,边的权值为边所在顶点对应的单词之间的相似度;3.2根据词之间的关联关系,将G(D,E)划分成多个极大连通子图,每个极大连通子图中顶点对应单词之间具有某些相似关系,而与其他极大连通子图中的任意单词均不相似。所述的词库构建方法,其中步骤4包括:4.1对于G(D,E)中的每个极大连通子图,计算该子图中的所有极大团,并从中提取出所有最大团;4.2对于顶点完全独立的最大团,则直接确定为候选可替换组;4.3对于具有共享顶点的多个最大团,选择边权值的均值最大的最大团作为候选可替换词组。4.4除已确定为候选可替换词组的最大团以外,从剩余极大团中删除已确定候选可替换词组中的词,即删除与已选定最大团共享的顶点,重复步骤4.1-4.3,直至无剩余极大团或者删除共享顶点后极大团的顶点数小于2。所述的词库构建方法,其中步骤4包括:4.1根据Bron-Kerbosch算法,枚举出G(D,E)中一个极大连通子图中的所有极大团,设所有极大团组成的集合为CS;候选可替换词组集合为4.2遍历CS中的每个极大团,获得所有最大团并计算每个最大团的边权值的平均值,根据平均边权值的大小,从大到小对最大团进行排序,得到排序后的最大团为:MC0,K,MCk,即Avg(MC0)≥,K,≥Avg(MCk),其中Avg(MCk)表示最大团MCk中边的权值的平均值;4.3设i=1;候选最大团集合MCS={MC0};4.4设MCi的顶点依次为vw0,...,vwl,j=0;4.4.1对于vwj,依次遍历MCS中所有候选最大团的顶点,若vwj出现在MCS中,则MCi与MCS中某个最大团存在共享顶点,则忽略MCi,跳转至步骤4.5;否则j=j+1;4.4.2若j≤l,则重复步骤4.4.1;否则j=l+1,说明MCi与MCS任意候选本文档来自技高网
...

【技术保护点】
1.一种用于自然语言信息隐藏的大规模可替换词词库构建方法,其特征在于包括:步骤1,对于词典中的每个单词,对其进行计算以将其表示成低维稠密的词向量;步骤2,根据单词间的词向量距离,计算单词间的相似度,获取每个单词的相似词列表;步骤3,进行所有相似词之间的关联关系和相似程度的表示;步骤4,根据相似词之间的关联关系和相似程度构建候选可替换词词组。/n

【技术特征摘要】
1.一种用于自然语言信息隐藏的大规模可替换词词库构建方法,其特征在于包括:步骤1,对于词典中的每个单词,对其进行计算以将其表示成低维稠密的词向量;步骤2,根据单词间的词向量距离,计算单词间的相似度,获取每个单词的相似词列表;步骤3,进行所有相似词之间的关联关系和相似程度的表示;步骤4,根据相似词之间的关联关系和相似程度构建候选可替换词词组。


2.根据权利要求1所述的词库构建方法,其特征在于:步骤1包括:...

【专利技术属性】
技术研发人员:向凌云冯章成傅明郭国庆杨双辉刘宇航
申请(专利权)人:长沙理工大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1