基于深度学习的隐写文本抗隐写分析能力增强方法技术

技术编号:37334466 阅读:16 留言:0更新日期:2023-04-21 23:13
本发明专利技术属于信息传输中的信息隐藏技术领域,公开了一种基于深度学习的隐写文本抗隐写分析能力增强方法,该方法利用深度学习方法学习开放域环境中的数据集特征,并在嵌入秘密信息的同时生成具有原数据集统计分布的隐写文本,最后根据隐写文本的情感倾向和表情符号在真实环境中的分布情况对隐写文本进行相应的表情符号推荐,从而进一步强化隐写文本的抗隐写分析能力。本发明专利技术解决了生成式文本隐写工作中隐写文本情感线索缺失的问题,从而使得隐写文本在公共信道中进行传输时的抗攻击能力更强。强。强。

【技术实现步骤摘要】
基于深度学习的隐写文本抗隐写分析能力增强方法


[0001]本专利技术属于信息传输中的信息隐藏
,具体涉及一种基于深度学习的隐写文本抗隐写分析能力增强方法。

技术介绍

[0002]信息隐藏领域主要研究如何将秘密信息高效且安全地嵌入到其他信息载体中,目的是通过掩盖信息的存在性从而保障其安全。
[0003]近些年来,随着互联网的飞速发展,越来越多的人使用互联网进行信息的传递与互通交流,这使得保护秘密信息安全的主战场从特定场景逐渐转向开放域环境。在实际意义上,生成式文本隐写相较于检索式和修改式文本隐写,具有能够根据真实载体的统计分布特征生成符合真实环境统计分布特征的隐写文本、能保证一定隐蔽性的同时有着较大的嵌入容量、实用性高、噪声低等优势,所以更适合开放式网络环境。在社交媒体中的真实载体中充斥着大量的表情符号被用于强化句子的情绪、明确句子的含义。正是表情符号可以作为一种感情、视觉线索去帮助用户明确意图,大大降低接收方对于发送方意图理解的歧义,所以其越来越深受用户的喜爱,导致表情符号在社交媒体上的使用频率越来越高,在国内外常见的社交平台上,含有表情符号的网络文本占比高达20%左右,而同类工作并没有考虑表情符号引起的人类视觉感知问题,因此我们不能不重视这一问题。在以往相关研究中,研究者们都未能充分的考虑真实信道的分布特征,他们都忽略了真是信道中的表情符号的存在(即在预处理阶段就将表情符号从文本中剔除了),这势必导致隐写载体分布与真实载体的统计分布过大,导致隐写文本的抗隐写分析能力变差,即对秘密信息的保护能力变差,导致隐蔽系统变得更加不安全。

技术实现思路

[0004]针对以往研究都未能充分考虑真实信道统计分布特征这一问题,本专利技术提出了一种基于深度学习的隐写文本抗隐写分析能力增强方法,充分考虑了真实信道中的特征统计分布,并进一步提高了隐写文本在公共信道中的抗隐写分析能力。
[0005]本专利技术的目的是通过以下技术方案实现的:一种基于深度学习的隐写文本抗隐写分析能力增强方法,该方法包含以下步骤:
[0006]一种基于深度学习的隐写文本抗隐写分析能力增强方法,包含以下步骤:
[0007]步骤1:从社交媒体平台中搜集网络文本;
[0008]步骤2:对数据集进行相应的预处理,包括清除特殊符号、超链接以及电话号码构成数据集;
[0009]步骤3:统计数据集中表情符号的统计分布特征并根据语义进行分类,并设计两种表情符号推荐算法:Insert算法与Replace算法;
[0010]步骤4:进一步处理数据集分别用于隐写文本生成模型和表情符号预测模型的训练;
[0011]步骤5:用步骤4中训练好的隐写文本生成模型生成具有秘密信息的隐写文本,并将隐写文本输入到步骤4中训练好的表情符号预测模型中,根据步骤3的推荐算法将表情符号加入到隐写文本中;
[0012]步骤6:计算步骤5中生成的隐写文本生成模型生成的纯文本隐写文本、经Insert算法加入表情符号的隐写文本、经Replace算法加入表情符号的隐写文本三组数据的基本指标,并输入进隐写分析模型中比较三组隐写文本的抗隐写分析能力强弱。
[0013]进一步地,所述步骤1包括以下步骤:
[0014]步骤1

1:首先利用相应社交媒体平台通用停用词库作为爬虫的关键词库;
[0015]步骤1

2:以随机的方式从停用词库中抽取一个停用词作为一轮数据爬取的关键词;
[0016]步骤1

3:自定义设置每轮爬取的关键词数目,以统计通信信道自身的统计特征为目标,
[0017]数据量大小不低于100万条。
[0018]进一步地,所述步骤3包括以下步骤:
[0019]步骤3

1:统计表情符号的频率特征:统计各个表情符的频率,以及含有表情符号的网络文本占比;
[0020]步骤3

2:统计含有标点符号的网络文本占比;
[0021]步骤3

3:统计表情符号在网络文本中的位置信息,划分为句首、句中以及句尾;
[0022]步骤3

4:统计含有各数目表情符号的网络文本占比;
[0023]步骤3

5:根据所统计的信息作为宏观调控,设计表情符号推荐算法。
[0024]进一步地,所述步骤3

5包括以下步骤:
[0025]步骤3
‑5‑
1:算法参数说明:
[0026]A:步骤5中隐写文本生成模型生成的纯文本隐写文本集;
[0027]s:A中的单条隐写文本;
[0028]s1:完成表情符插入后的隐写文本;
[0029]B:步骤5中经过表情符号推荐算法加入表情符号后的隐写文本集;
[0030]f:步骤3

1中统计出的数据集中含有表情符号的网络文本占比;
[0031]f1:步骤3

2中统计出来的含有标点符号的网络文本占比;
[0032]P:步骤3

3中统计出的表情符号在网络文本中的位置信息;
[0033]p:P中的具体值,取句首、句中与句尾其中一个;
[0034]P1:当前网络文本的标点符号位置索引列表;
[0035]p1:随机从P1中选取的具体值;
[0036]N:步骤3

4中统计出的含有各数目表情符号的网络文本占比情况;
[0037]n:N中的具体值,取值范围为n∈[1,5],其中n为正整数;
[0038]步骤3
‑5‑
2:设计表情符号插入算法:
[0039]1)从A中选取s,然后根据f的概率值,判断是否对其进行表情符号插入操作,如果判断结果为Flase则进入2),为True则进入3);
[0040]2)将s输出到B中,该条隐写文本操作结束;
[0041]3)从N中选取数量信息n作为对s的插入表情符号数量;
[0042]4)表情符号预测模型对输入句子进行情感预测,然后从预测的表情符号分类池中根据真实统计分布选择一个表情符号,然后从P中选取位置信息p作为该表情符在s中的插入位置,此过程循环n遍;
[0043]5)完成4)操作后,得到s1,并将s1输出到B中;
[0044]步骤3
‑5‑
3:设计表情符号替换算法:
[0045]1)从A中选取s,判断s中是否含有标点符号,如果判断结果为True,则进入3),如果为Flase,则进入2);
[0046]2)将s输出到B中,该条隐写文本操作结束;
[0047]3)根据的概率值,判断是否对其进行表情符号替换操作,如果判断结果为True,则进入5),如果判断结果为Flase,则进入4);
[0048]4)将s输出到B中,该条隐写文本操作结束;
[0049]5)从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的隐写文本抗隐写分析能力增强方法,其特征在于,包含以下步骤:步骤1:从社交媒体平台中搜集网络文本;步骤2:对数据集进行相应的预处理,包括清除特殊符号、超链接以及电话号码构成数据集;步骤3:统计数据集中表情符号的统计分布特征并根据语义进行分类,并设计两种表情符号推荐算法:Insert算法与Replace算法;步骤4:进一步处理数据集分别用于隐写文本生成模型和表情符号预测模型的训练;步骤5:用步骤4中训练好的隐写文本生成模型生成具有秘密信息的隐写文本,并将隐写文本输入到步骤4中训练好的表情符号预测模型中,根据步骤3的推荐算法将表情符号加入到隐写文本中;步骤6:计算步骤5中生成的隐写文本生成模型生成的纯文本隐写文本、经Insert算法加入表情符号的隐写文本、经Replace算法加入表情符号的隐写文本三组数据的基本指标,并输入进隐写分析模型中比较三组隐写文本的抗隐写分析能力强弱。2.根据权利要求1所述的基于深度学习的隐写文本抗隐写分析能力增强方法,其特征在于,所述步骤1包括以下步骤:步骤1

1:首先利用相应社交媒体平台通用停用词库作为爬虫的关键词库;步骤1

2:以随机的方式从停用词库中抽取一个停用词作为一轮数据爬取的关键词;步骤1

3:自定义设置每轮爬取的关键词数目,以统计通信信道自身的统计特征为目标,数据量大小不低于100万条。3.根据权利要求1所述的基于深度学习的隐写文本抗隐写分析能力增强方法,其特征在于,所述步骤3包括以下步骤:步骤3

1:统计表情符号的频率特征:统计各个表情符的频率,以及含有表情符号的网络文本占比;步骤3

2:统计含有标点符号的网络文本占比;步骤3

3:统计表情符号在网络文本中的位置信息,划分为句首、句中以及句尾;步骤3

4:统计含有各数目表情符号的网络文本占比;步骤3

5:根据所统计的信息作为宏观调控,设计表情符号推荐算法。4.根据权利要求3所述的基于深度学习的隐写文本抗隐写分析能力增强方法,其特征在于,所述步骤3

5包括以下步骤:步骤3
‑5‑
1:算法参数说明:A:步骤5中隐写文本生成模型生成的纯文本隐写文本集;s:A中的单条隐写文本;s1:完成表情符插入后的隐写文本;B:步骤5中经过表情符号推荐算法加入表情符号后的隐写文本集;f:步骤3

1中统计出的数据集中含有表情符号的网络文本占比;f1:步骤3

2中统计出来的含有标点符号的网络文本占比;P:步骤3

3中统计出的表情符号在网络文本中的位置信息;p:P中的具体值,取句首、句中与句尾其中一个;
P1:当前网络文本的标点符号位置索引列表;p1:随机从P1中选取的具体值;N:步骤3

4中统计出的含有各数目表情符号的网络文本占比情况;n:N中的具体值,取值范围为n∈[1,5],其中n为正整数;步骤3
‑5‑
2:设计表情符号插入算法:1)从A中选取s,然后根据f的概率值,判断是否对其进行表情符号插入操作,如果判断结果为Flase则进入2),为True则进入3);2)将s输出到B中,该条隐写文本操作结束;3)从N中选取数量信息n作为对s的插入表情符号数量;4)表情符号预测模型对输入句子进行情感预测,然后从预测的表情符号分类池中根据真实统计分布选择一个表情符号,然后从P中选取位置信息p作为该表情符在s中的插入位置,此过程循环n遍;5)完成4)操作后,得到s1,并将s1输出到B中;步骤3
‑5‑
3:设计表情符号替换算法:1)从A中选取s,判断s中是否含有标点符号,如果判断结果为True,则进入3),如果为Flase,则进入2);2)将s输出到B中,该条隐写文本操作结束;3)根据的概率值,判断是否对其进行表情符号替换操作,如果判断结果为True,则进入5),如果判断结果为Flase,则进入4);4)将s输出到B中,该条隐写文本操作结束;5)从N中选取数量信息n作为对s的插入表情符号数量;6)计算当前隐写文本的标点符号位置索引P1,并从中随机选取替换位置p1;7)使用表情符号预测模型对s进行n次预测,得到n个表情符号合并成一个字符串对p1位置的标点符号进行替换;8)完成7)操作后得到...

【专利技术属性】
技术研发人员:胡智文胡琪镐
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1