基于词元编码的文本无载体信息隐藏方法技术

技术编号:25637447 阅读:24 留言:0更新日期:2020-09-15 21:29
本发明专利技术公开一种基于词元编码的文本无载体信息隐藏方法,该方法以文本为载体,通过词元编码实现秘密信息的隐蔽传输,具体步骤包括:建立动态更新的文本库,通过预处理规范文本的格式;利用分词模块获取各文本的词元序列并形成词元索引文件,利用词元索引文件构造词元节点树;按照转移概率将非叶子词元节点的相邻子节点降序排列,并对其邻接路径进行编码;构建各个词元节点源路径的同构文本集;发送方根据秘密信息检索相应文本并发送至接收端,接收方经由相应逆变换即可实现秘密信息的提取。与现有文本无载体信息隐藏技术相比,本发明专利技术能够抵抗现有的隐写检测技术,同时显著提升了嵌入容量,极大扩展了无载体信息隐藏方法的适用场景。

【技术实现步骤摘要】
基于词元编码的文本无载体信息隐藏方法
本专利技术属于信息安全
,尤其涉及一种基于词元编码的文本无载体信息隐藏方法。
技术介绍
网络与通信技术的发展极大地推动了生产力变革,成为社会发展不可或缺的支柱力量。受互联网的开放性特点影响,数据安全面临的风险日益复杂,通信活动的隐蔽性和安全性亟待加强。在不影响数字载体正常功能的前提下,信息隐藏技术将预处理后的秘密信息嵌入到选定载体中,通过载体的传输来实现信息的传递。相比于加密方法,信息隐藏能够更好地消除秘密信息的可感知性。但在实践过程中,传统信息隐藏技术不可避免地会对载体进行一定粒度的修改,因而导致其统计特征发生变化,难以抵抗特定的隐写检测攻击。在此种背景下,无载体信息隐藏的概念引起了研究人员的重视。无载体信息隐藏方法以秘密信息为驱动,直接检索符合要求的自然文本并发送,接收方根据约定规则即可实现秘密信息的提取。与传统信息隐藏技术相比,无载体信息隐藏方法无需对载体进行修改,因而能够抵抗现有的隐写检测手段。由此可见,无载体信息隐藏技术能够真正实现关键数据的隐秘传输,在隐蔽性和抗检测性等方面具有无可比拟的优势,必将进一步推动信息隐藏技术的飞速发展。以文本为对象开展的无载体信息隐藏的研究工作主要包括:文献1(吉红勇,付章杰,孙星明.基于单关键词的文本无载体信息隐藏方案[C]//全国信息隐藏暨多媒体信息安全学术大会.2016.)将秘密信息切分为关键词形式,利用用户身份信息生成定位标签,检索含有“标签+关键词”组合的自然文本进行发送,接收方根据标签即可实现秘密信息的提取;文献2(ZhouZ,MuY,ZhaoN,etal.CoverlessInformationHidingMethodBasedonMulti-keywords[J].2016.)利用词语的词性来隐藏文本中的关键词数目,并通过标签的筛查与重分配消除提取过程中的标签歧义现象,隐藏容量略有增加。文献3(ZhangJ,WangL,LinH.CoverlessTextInformationHidingMethodBasedontheRankMap[J].網際網路技術學刊,2017,18.)利用词转换协议将秘密信息转换为文本集常见词,利用词阶标签引导常见词的定位,以此实现秘密信息的嵌入与提取;文献4(ZhangJ,HuangH,WangL,etal.Coverlesstextinformationhidingmethodusingthefrequentwordshash[J].InternationalJournalofNetworkSecurity,2017,19(6):1016-1023.)定义了文本的常见词距离,通过常见词距离与词阶标签定位协议为转换后的秘密信息选择相应定位标签,直接检索包含转换后的秘密信息及相应词阶标签的文本作为隐写载体;文献5(XianyiC,ShengC.Textcoverlessinformationhidingbasedoncompoundandselectionofwords[J].SoftComputing,2018.)利用汉字unicode编码的奇偶性作为标签,以常用的复合词汇作为关键词,进一步提升了文本的隐藏成功率与隐藏容量;文献6(XianyiC,ShengC.Textcoverlessinformationhidingbasedoncompoundandselectionofwords[J].SoftComputing,2018.)利用word2vec获取关键词的近似词汇作为检索失配时的替换,显著提升了隐藏成功率。上述研究成果可归类为基于标签模型的无载体信息隐藏方法,在该类方法中,秘密信息或其变换形式仅存在于文本的特定部位(如特定关键词等),即载体文本仅有特定位置用以传输秘密信息,主体部分则主要用于保持文本的正常语义和完整结构,并不承担表征具体信息的职能,平均每篇文本仅能隐藏1~2.87个中文字符,隐藏容量十分有限。此外,标签与关键词的组合使得隐藏成功与否与文本库容量和涵盖词汇范围密切相关,生僻关键词往往无法匹配成功,进而导致隐藏成功率降低。基于此,本专利技术拟基于词元编码实现基于文本的无载体信息隐藏,与现有研究成果相比,本方法具备稳定的隐藏成功率,并显著提升了载体文本的隐藏容量。由于本方法未对自然文本进行任何更改,因而能够抵抗现有的隐写检测手段,具备理想的隐蔽性和安全性。
技术实现思路
本专利技术针对现有文本无载体隐藏方法隐藏成功率不稳定、隐藏容量低的问题,提出一种基于词元编码的文本无载体信息隐藏方法,显著提升了隐藏成功率与隐藏容量。为了实现上述目的,本专利技术采用以下技术方案:一种基于词元编码的文本无载体信息隐藏方法,包括:步骤1:建立动态更新的文本库C,并对文本库C中各文本进行预处理;步骤2:依次读取预处理后的各文本内容,提取词元信息,根据提取的词元信息构造词元节点树G;步骤3:遍历词元节点树G,对任意非叶子词元节点,按照转移概率将其相邻子节点降序排列,并对该词元节点的邻接路径进行编码;步骤4:遍历词元节点树G,构建各词元节点的源路径的同构文本集;步骤5:对秘密信息进行加密,根据词元节点树G与加密比特流确定词元节点源路径,从相应的同构文本集中选取载密文本并进行发送;步骤6:接收载密文本,提取载密文本的词元信息,根据词元节点树G提取词元信息中的加密比特流,经过相应逆变换实现秘密信息的提取。进一步地,所述步骤1包括:步骤1.1:去除文本库C中各文本中的停用词、非中文字符;步骤1.2:根据文本长度对文本库C中各文本进行筛选,去除长度偏离预设值的文本。进一步地,所述步骤2包括:步骤2.1:依次读取预处理后的各文本内容,提取各文本对应的词元内容、位置索引、可用文本链接并存储,形成词元索引文件;步骤2.2:查询步骤2.1所得的词元索引文件,将位置索引为1且内容相同的词元聚合为同一节点,作为词元节点树G的第一层词元节点,并按照词元节点标识、父节点标识、位置索引、词元内容、可用文本链接集合的结构进行存储;步骤2.3:设Vi为词元节点树G第i层词元节点的集合,vi,j为词元节点树G第i层的第j个词元节点,令i=2,对于读取vi-1,j的可用文本链接集合的文本内容,将该部分文本中位置索引为i且内容相同的词元聚合为同一节点,作为vi-1,j的子节点,重复执行该过程,直至集合Vi-1中所有词元节点均已处理完毕,获得词元节点树的第i层词元节点;步骤2.4:令i=i+1,重复步骤2.3及步骤2.4直至所有的词元索引文件均已处理完毕,获得文本库C的词元节点树G。进一步地,所述步骤3包括:步骤3.1:依次导入各个非叶子词元节点,按照词元节点的转移概率将其相邻子节点降序排列;词元节点的转移概率为其中Sj为Si的相邻子节点,Tj表示词元节点Sj的可用文本链接数量,∑T表示词元节点Si所有相邻子节点的可用文本链接数量之和;步骤3.2:获取各个非叶子词元节点的邻接路径数本文档来自技高网
...

【技术保护点】
1.一种基于词元编码的文本无载体信息隐藏方法,其特征在于,包括:/n步骤1:建立动态更新的文本库C,并对文本库C中各文本进行预处理;/n步骤2:依次读取预处理后的各文本内容,提取词元信息,根据提取的词元信息构造词元节点树G;/n步骤3:遍历词元节点树G,对任意非叶子词元节点,按照转移概率将其相邻子节点降序排列,并对该词元节点的邻接路径进行编码;/n步骤4:遍历词元节点树G,构建各词元节点的源路径的同构文本集;/n步骤5:对秘密信息进行加密,根据词元节点树G与加密比特流确定词元节点源路径,从相应的同构文本集中选取载密文本并进行发送;/n步骤6:接收载密文本,提取载密文本的词元信息,根据词元节点树G提取词元信息中的加密比特流,经过相应逆变换实现秘密信息的提取。/n

【技术特征摘要】
1.一种基于词元编码的文本无载体信息隐藏方法,其特征在于,包括:
步骤1:建立动态更新的文本库C,并对文本库C中各文本进行预处理;
步骤2:依次读取预处理后的各文本内容,提取词元信息,根据提取的词元信息构造词元节点树G;
步骤3:遍历词元节点树G,对任意非叶子词元节点,按照转移概率将其相邻子节点降序排列,并对该词元节点的邻接路径进行编码;
步骤4:遍历词元节点树G,构建各词元节点的源路径的同构文本集;
步骤5:对秘密信息进行加密,根据词元节点树G与加密比特流确定词元节点源路径,从相应的同构文本集中选取载密文本并进行发送;
步骤6:接收载密文本,提取载密文本的词元信息,根据词元节点树G提取词元信息中的加密比特流,经过相应逆变换实现秘密信息的提取。


2.根据权利要求1所述的基于词元编码的文本无载体信息隐藏方法,其特征在于,所述步骤1包括:
步骤1.1:去除文本库C中各文本中的停用词、非中文字符;
步骤1.2:根据文本长度对文本库C中各文本进行筛选,去除长度偏离预设值的文本。


3.根据权利要求1所述的基于词元编码的文本无载体信息隐藏方法,其特征在于,所述步骤2包括:
步骤2.1:依次读取预处理后的各文本内容,提取各文本对应的词元内容、位置索引、可用文本链接并存储,形成词元索引文件;
步骤2.2:查询步骤2.1所得的词元索引文件,将位置索引为1且内容相同的词元聚合为同一节点,作为词元节点树G的第一层词元节点,并按照词元节点标识、父节点标识、位置索引、词元内容、可用文本链接集合的结构进行存储;
步骤2.3:设Vi为词元节点树G第i层词元节点的集合,vi,j为词元节点树G第i层的第j个词元节点,令i=2,对于读取vi-1,j的可用文本链接集合的文本内容,将该部分文本中位置索引为i且内容相同的词元聚合为同一节点,作为vi-1,j的子节点,重复执行该过程,直至集合Vi-1中所有词元节点均已处理完毕,获得词元节点树的第i层词元节点;
步骤2.4:令i=i+1,重复步骤2.3及步骤2.4直至所有的词元索引文件均已处理完毕,获得文本库C的词元节点树G。


4.根据权利要求1所述的基于词元编...

【专利技术属性】
技术研发人员:王晓梅张维张晨旭吴亚男安鑫陈兴强
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1