【技术实现步骤摘要】
一种基于多生成器的http流量拟态生成方法
[0001]本专利技术涉及流量拟态领域,尤其涉及一种基于多生成器的http流量拟态生成方法。
技术介绍
[0002]伴随着互联网的爆炸式发展,互联网安全迎来了巨大的挑战,一种从统计分析角度的攻击行为即流量分析攻击正在日益增多。而面对该种以网络流量统计为基础,从实时数据行为分析角度出发的攻击,目前已有的流量合成器以及隧道技术并不能在保证合成的流量的准确性与真实性的基础上较好的规避该种攻击。
[0003]拟态的目的在于将受到监管的协议伪装成白名单协议格式来规避攻击者的审查。在目前已有的各项研究成果中,即便是相对比较成熟的洋葱路由使用的流量混淆技术也存在数据包熵值过高的问题,很容易被基于深度包检测的技术探测到并识别出来。
技术实现思路
[0004]本专利技术的目的是提供一种基于多生成器的http流量拟态生成方法,通过对正常的网络数据流量的模式进行学习,并对已有数据进行流量整形,达到与真实数据在统计特征和数据包构造上高度相似的目的。
[0005]本专利技术采用下述技术方案:
[0006]一种基于多生成器的http流量拟态生成方法,依次包括以下步骤:
[0007]A:构建网络流量数据集;网络流量数据集中的每条初始网络流量数据均包括以下数据特征:数据包总数、源端口、目的端口、总字节数和流持续时间;
[0008]B:利用Word2vec网络模型,对网络流量数据集中的初始网络流量数据进行预处理,生成对应的Word2vec向量作为原始流 ...
【技术保护点】
【技术特征摘要】
1.一种基于多生成器的http流量拟态生成方法,其特征在于,依次包括以下步骤:A:构建网络流量数据集;网络流量数据集中的每条初始网络流量数据均包括以下数据特征:数据包总数、源端口、目的端口、总字节数和流持续时间;B:利用Word2vec网络模型,对网络流量数据集中的初始网络流量数据进行预处理,生成对应的Word2vec向量作为原始流量样本;C:构建基于pytorch的多生成器与并行鉴别器的生成对抗网络模型并对模型进行训练,得到训练后的生成对抗网络模型;生成对抗网络模型中的生成器由两个串行的转置卷积生成器构成,鉴别器第一层为并行卷积结构,随后串联多层卷积层;D:将高斯噪声输入训练后的生成对抗网络模型的生成器中,将所得到的生成数据作为比较样本;E:构建流量生成器,并将步骤D中获得的比较样本根据数据特征进行还原,得到与初始网络流量数据格式相同的还原数据,并将还原数据输入流量生成器中,生成流级别数据;F:将步骤E中得到的流级别数据输入流量生成器中,由流量生成器根据输入的流级别数据,在整个网络流量数据集中寻找最相似的前N条初始网络流量数据进行匹配,并通过构建数据包长度序列和时间间隔序列生成数据包级别数据,得到与流级别数据及初始网络流量数据的数据特征一致的拟态网络流量数据。2.根据权利要求1所述的基于多生成器的http流量拟态生成方法,其特征在于:所述的步骤B中,采用现有的Word2vec网络模型对初始网络流量数据进行训练,将单条初始网络流量数据中的每一个维度的特征均转换为定长的80维Word2vec向量,所有特征转换后的维度共计400维,随后将该400维的向量变形成20*20的图片形式,并将所得到的对应的Word2vec向量作为原始流量样本。3.根据权利要求1所述的基于多生成器的http流量拟态生成方法,其特征在于:所述的步骤C中,对基于pytorch的多生成器与并行鉴别器的生成对抗网络模型进行训练时,将训练数据输入到生成对抗网络模型的鉴别器D中,获得Wasserstien距离;若得到的Wasserstien距离小于设定的距离阈值K1,则结束训练,得到训练后的生成对抗网络模型;若得到的Wasserstien距离大于等于设定的距离阈值K1,则对生成对抗网络模型的参数进行调整后继续训练,直至得到的Wasserstien距离小于设定的距离阈值K1,最终得到训练后的生成对抗网络模型。4.根据权利要求1所述的基于多生成器的http流量拟态生成方法,其特征在于,所述的步骤D包括以下具体步骤:D1:将多个符合高斯分布的范围在[
‑
1,1]之间的20*20的噪声矩阵,输入到生成对抗网络模型的第一个生成器G1中,由第一个生成器G1生成中间结果;D2:将第一个生成器G1生成的中间结果,输入到生成对抗网络模型的第二个生成器G2中,由第二个生成器G2输出多个20*20的矩阵形式的生成数据,作为比较样本。5.根据权利要求1所述的基于多生成器的http流量拟态生成方法,其特征在于:所述的步骤E中,流量生成器包括数据还原模块、数据长度匹配模块、数据包间隔匹配模块和数据校验模块;所述的数据还原模块用于将比较样本还原为原始数据形式;数据包长度匹配模块用于根据流级别数据的要求,生成数据包长度;数据包间隔匹配模块用于匹配数据包之间的发送时长间隔;数据校验模块用于校验生成的数据包序列以及时间间隔序列的正确
性。6.根据权利要求5所述的基于多生成器的http流量拟态生成方法,其特征在于:所述的步骤E中,数据还原模块在根据数据特征对比较样本进行还原时,首先按照步骤A中的数据特征划分方式对比较样本进行切割,切割后得到的每个比较样本均为长度是80维的短向量,然后使用短向量在特征信息库中进行相似度匹配,分别获取与每个比较样本的特征相似度最高的数据特征结果,再将若干个数据特征结果进行组合,最终形成一条完整的流级别数据;特征信...
【专利技术属性】
技术研发人员:徐东亮,杨承林,刘志伟,马骁,徐舜,翟文升,王晨曦,韩旭,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。