一种部件直方图的文本无载体隐写方法与装置制造方法及图纸

技术编号:28872088 阅读:17 留言:0更新日期:2021-06-15 23:05
本发明专利技术公开了一种部件直方图的文本无载体隐写方法与装置,包括:步骤1:文本库的码本构建;步骤2:秘密信息预处理;步骤3:基于随机文本选择的隐藏方法;步骤4:信息隐藏;步骤5:秘密索引的构建;步骤6:秘密信息的提取。与现有文本无载体信息隐藏技术相比,本发明专利技术至多能将所有秘密信息隐藏在一个文本中,大幅度提高了隐藏容量,且在提取过程中利用混合索引结构而非自然语言处理的方法,增大了隐藏成功率。

【技术实现步骤摘要】
一种部件直方图的文本无载体隐写方法与装置
本专利技术属于信息安全
,尤其涉及一种基于部件直方图的文本无载体信息隐藏方法。
技术介绍
网络与通信技术的发展极大地推动了生产力变革,成为社会发展不可或缺的支柱力量。受互联网的开放性特点影响,数据安全面临的风险日益复杂,通信活动的隐蔽性和安全性亟待加强。其中,技术方案——ChenX,SunH,etal.CoverlessInformationHidingMethodBasedontheChineseMathematicalExpression.公开了以汉字数学表达式为基本理论,将秘密信息进行分词,利用字转换协议,转换为新的关键词;再设计定位标签协议,从而生成包含转换后的关键词以及定位标签的组合,通过搜索包含数据库中组合的文本,达到信息隐藏的目的。但是,目前传统的基于搜索的文本无载体信息隐藏,传输载体为文本,一个文本平均只能隐藏一个关键字,导致隐藏容量低,在提取过程中,运用的自然语言处理方法会存在歧义和二义性等问题,使得隐藏成功率下降。因此,提供一种信息隐藏容量大、隐藏成功率高的无载体信息隐藏方法是本领域技术人员亟需解决的问题。
技术实现思路
本专利技术针对目前无载体信息隐藏存在的信息隐藏容量小、隐藏成功率低的问题,提出一种部件直方图的文本无载体隐写方法与装置,显著提升了隐藏成功率与隐藏容量。为了实现上述目的,本专利技术采用以下技术方案:一种部件直方图的文本无载体隐写方法与装置,其特征在于,包括:步骤1:文本库的码本构建;步骤2:秘密信息预处理;步骤3:基于随机文本选择的隐藏方法;步骤4:信息隐藏;步骤5:秘密索引的构建;步骤6:秘密信息的提取。优选的,文本的无载体信息隐藏依托于文本数据库,本文选取搜狗实验室公开的新闻数据集作为文本载体库,通过构建文本库中每篇文本的部件直方图作为信息隐藏的码本,文本的部件直方图的概念是由图像的灰度直方图引申而来,部件直方图是部件级的函数,能够反映出文本中所有部件的统计分布特征,文本的部件直方图由部件编号、部件频次以及部件频次的排名(即部件的阶)三部分构成;部件直方图CFR(Component-Frequency-Rank)定义如下:CFR={ci,fci,rci|i=1,2,3…,U}(2.1)其中,U是部件总数,是部件编号,是部件出现的次数,是部件在这篇文本部件直方图中的阶;具体生成方法为:将文本里的所有汉字转换为汉字数学表达式,然后统计文本中所有汉字的数学表达式中的部件,得到所有部件在该文本中出现的次数,最后以部件编号为横坐标,以部件频次为纵坐标,按照部件出现的频次排序做出统计图,就得到了文本汉字的部件直方图;它能直观地表示某一篇文本中出现的所有部件的次数以及排名情况;具体方法如下:步骤1.1:遍历文本库中所有文本,将每篇文本生成唯一的哈希值作为文本编号;步骤1.2:对于每一篇文本,遍历文本中的汉字,根据每个汉字的数学表达式,将每个汉字拆分为部件,统计文本中所有汉字的部件号、部件频次和部件的阶(即部件频次排名),构建成该文本的部件直方图。步骤1.3:以文本编号为表名,将文本的部件直方图写入数据库中。优选的,在对秘密信息隐藏前,发送方与接收方根据约定的公开库文本构建部件直方图码本库,接收方隐藏秘密信息前,需对秘密信息进行预处理,假设秘密信息为M,其中M由n个汉字构成,不妨记作:M={m1,m2,m3,…,mn}(1)将秘密信息M的每个汉字mi转换为汉字数学表达式,即将M转换为M′,如公式2所示:M′=EXP(M)={m′1,m′2,m′3,…,m′n}(2)其中EXP是汉字数学表达式转换函数,EXP(M)表示将秘密信息每个汉字转换为汉字数学表达式,由于每个汉字的数学表达式是唯一的,故可以根据汉字数学表达式可以还原为原汉字,则有:M=EXP(M′)(3)优选的,为保证秘密信息隐藏的鲁棒性,本文提出一种基于随机文本选择的隐藏方法,主要思路是发送方在隐藏秘密信息时,在构建好的部件直方图码本库中随机选择一定量的文本部件直方图,根据秘密信息部件直方图进行运算,得到能包含秘密信息所有部件的含密载体文本部件直方图,然后结合秘密信息的汉字表达式,将秘密信息的部件号映射为含密载体文本部件直方图中的阶的表达式作为索引,为保证传输效率,将生成的索引进行哈夫曼编码,生成一个二进制文件发送给接收方;具体方法和步骤如下:步骤3.1:使用秘密信息预处理中的方法,将秘密信息所有汉字转换为汉字数学表达式;步骤3.2:获取到秘密信息所有汉字的数学表达式后,提取数学表达式中的所有部件,构建成秘密信息的部件直方图,记作Msg_Com_Hist;步骤3.3:为保证搜索载密文本的随机性,增加隐藏鲁棒性,同时也提高检索效率,本文提出一种随机文本选择方法实现信息进行检索载密文本,主要思想是在公开载体库中随机抽取一定比率的载体文本与秘密信息的部件直方图做运算,从中获得一个包含秘密信息所有部件的载体文本;假设公开文本库包含文本总数为X,随机抽取的载体文本数量为x,则选择阈值:优选的,本专利技术以中文汉字为研究对象,通过借助汉字数学表达式,提出一种基于部件直方图的无载体信息隐藏方法,具体步骤如下所示:步骤4.1:利用公式2将秘密信息M转换为数学表达式M′,同时计算M′的部件直方图;步骤4.2:构建码本库的部件直方图,并根据阈值δ随机选择一定数量的文本部件直方图;步骤4.3:若秘密信息的部件直方图是文本的部件直方图集合的子集,从中选择一个含密载体文本,其文本编号作为文本索引;步骤4.4:利用公式7和公式8,将数学表达式的部件号和运算符分别映射为含密载体文本部件直方图中的阶和字母运算符,并用分隔符’J’作为每个汉字数学表达式的边界,将其作为秘密信息索引;步骤4.5:秘密信息索引和文本索引构成混合秘密索引,对混合秘密索引进行哈夫曼编码,形成二进制序列,将其压缩至二进制文本,最后发送给接收方。优选的,当发送方获得可以隐藏秘密信息的载体文本后,可根据载体文本的部件直方图构建秘密信息索引;本文以秘密信息的汉字表达式为驱动,通过阶-部件映射规则,将秘密信息汉字数学表达式的部件映射为载体文本中部件直方图的阶,然后通过运算符映射规则,将秘密信息汉字数学表达式的运算符映射为指定的字符;通过映射部件和运算符后,形成新的表达式作为秘密信息索引,另外为保证接收方能找到含密载体,将含密载体文本的编号附加于秘密信息索引后面,构成“秘密信息索引+文本索引”混合结构;映射规则定义如下:阶-部件映射规则已知部件直方图CFR包含部件(component)、部件频次(frequency)和部件的阶(rank)三部分;其中部件和阶在任何一个部件直方图中可唯一表示,也即在部件直方图中,部件和阶具有唯一对应关系;故可定义部件和阶的转换函数CH,存在本文档来自技高网...

【技术保护点】
1.一种部件直方图的文本无载体隐写方法与装置,其特征在于,包括:/n步骤1:文本库的码本构建;/n步骤2:秘密信息预处理;/n步骤3:基于随机文本选择的隐藏方法;/n步骤4:信息隐藏;/n步骤5:秘密索引的构建;/n步骤6:秘密信息的提取。/n

【技术特征摘要】
1.一种部件直方图的文本无载体隐写方法与装置,其特征在于,包括:
步骤1:文本库的码本构建;
步骤2:秘密信息预处理;
步骤3:基于随机文本选择的隐藏方法;
步骤4:信息隐藏;
步骤5:秘密索引的构建;
步骤6:秘密信息的提取。


2.根据权利要求1所述的一种部件直方图的文本无载体隐写方法与装置,其特征在于,所述步骤1具体包括:
通过构建文本库中每篇文本的部件直方图作为信息隐藏的码本,
部件直方图CFR(Component-Frequency-Rank)定义如下:
CFR={ci,fci,rci|i=1,2,3…,U}(2.1)
其中,U是部件总数,是部件编号,是部件出现的次数,是部件在这篇文本部件直方图中的阶;
具体生成方法为:将文本里的所有汉字转换为汉字数学表达式,然后统计文本中所有汉字的数学表达式中的部件,得到所有部件在该文本中出现的次数,最后以部件编号为横坐标,以部件频次为纵坐标,按照部件出现的频次排序做出统计图,就得到了文本汉字的部件直方图。


3.根据权利要求1所述的一种部件直方图的文本无载体隐写方法与装置,其特征在于,所述步骤2具体包括:
在对秘密信息隐藏前,发送方与接收方根据约定的公开库文本构建部件直方图码本库,接收方隐藏秘密信息前,需对秘密信息进行预处理,假设秘密信息为M,其中M由n个汉字构成,不妨记作:
M={m1,m2,m3,…,mn}(1)
将秘密信息M的每个汉字mi转换为汉字数学表达式,即将M转换为M′,如公式2所示:
M′=EXP(M)={m′1,m′2,m′3,…,m′n}(2)
其中EXP是汉字数学表达式转换函数,EXP(M)表示将秘密信息每个汉字转换为汉字数学表达式,由于每个汉字的数学表达式是唯一的,故可以根据汉字数学表达式可以还原为原汉字,则有:
M=EXP(M′)(3)


4.根据权利要求1所述的一种部件直方图的文本无载体隐写方法与装置,其特征在于,所述步骤3具体包括:
步骤3.1:使用秘密信息预处理中的方法,将秘密信息所有汉字转换为汉字数学表达式;
步骤3.2:获取到秘密信息所有汉字的数学表达式后,提取数学表达式中的所有部件,构建成秘密信息的部件直方图,记作Msg_Com_Hist;
步骤3.3:为保证搜索载密文本的随机性,增加隐藏鲁棒性,同时也提高检索效率,本文提出一种随机文本选择方法实现信息进行检索载密文本,主要思想是在公开载体库中随机抽取一定比率的载体文本与秘密信息的部件直方图做运算,从中获得一个包含秘密信息所有部件的载体文本;假设公开文本库包含文本总数为X,随机抽取的载体文本数量为x,则选择阈值:





5.根据权利要求1所述的一种部件直方图的文本无载体隐写方法与装置,其特征在于,所述步骤4具体包括:
步骤4.1:利用公式2将秘密信息M转换为数学表达式M′,同时计算M′的部件直方图;
步骤4.2:构建码本库的部件直方图,并根据阈值δ随机选择一定数量的文本部件直方图;
步骤4.3:若秘密信息的部件直方图是文本的部件直方图集合的子集,从中选择一个含密载体文本,其文本编号作为文本索引;
步骤4.4:利用公式7和公式8,将数学表达式的部件号和运算符分别映射为含密载体文本部件直方图中的阶和字母运算符,并用分隔符’J’作为...

【专利技术属性】
技术研发人员:黄华军曾笛陈芳
申请(专利权)人:湖南财政经济学院中南林业科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1