本发明专利技术提供一种基于神经网络的海量流量数据类型的检测方法,涉及信息处理技术领域。该方法首先对原始流量进行流量类型标注,作为原始训练数据集,并对其以会话为单位进行切割,每个会话单独组成流量数据包序列,并在长度上加以处理,得到若干条等长数据包,将该数据包数据进行图形化操作,并按照时间顺序堆叠成流量图像三维数据;然后将预处理好的流量图像三维数据送入以3D卷积神经网络为基础的流量分类模型中,训练保存该模型,并检测模型准确性。将待分类的流量数据进行相同预处理操作,送入训练好的模型,得到分类结果。本发明专利技术提供的检测海量流量数据类型的方法,能够在接受海量流量数据的同时,快速准确的对流量数据类型做出分类。
【技术实现步骤摘要】
一种基于神经网络的海量流量数据类型的检测方法
本专利技术涉及信息处理
,尤其涉及一种基于神经网络的海量流量数据类型的检测方法。
技术介绍
随着互联网的快速发展,网络流量随着互联网用户数量的快速增加而呈现爆炸式增长,处理海量数据的工具和方法应运而生,但现如今提出的方法和工具对处理海量数据、尤其是对含有时间和空间概念的海量数据来说,准确性仍存在较大的问题。在流量检测方面,当今网络上的流量攻击类型层出不穷。针对网络流量数据进行分类成为目前信息
的一个热门问题,当前主要有四种流量分类方法:基于端口、基于深度包检测、基于统计和基于行为;其中基于统计和基于行为的方法是经典的机器学习方法,通过在已有数据中选择特征来实现对流量进行分类的目标;而基于端口和基于深度包检测的都是依赖于规则。由于原始数据的复杂性,机器学习方法经常过于注重原始数据中存在的无用冗余的数据而对分类结果进行误判;相反,基于规则判断的方法则过于注重人工提取出来的高维特征,从而忽略了原始数据集中一些相对重要的特征;如何在原始数据集中提取出尽可能多的有用数据而忽略冗余数据成为现在流量检测过程中一个关键性待解决的问题。由于图像检测领域的发展迅猛,将文本数据进行图像化表示来学习数据特征成为现在机器学习中一种有效的办法,并且大量文献表明这一转换思想的应用比较有效,但是其中存在一个问题,即转化成的二维图像体现出的数据特征是空间特征,所以只能处理部分具有空间特征的文本数据,针对既具有空间特征又具有时间特征的文本数据,虽然3D卷积神经网络可以表示,但是特征提取的准确率与二维图像处理方法相比,仍存在较大的差距。
技术实现思路
本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于神经网络的海量流量数据类型的检测方法,实现对海量流量数据类型的有效检测。为解决上述技术问题,本专利技术所采取的技术方案是:一种基于神经网络的海量流量数据类型的检测方法,包括以下步骤:步骤1、对原始流量数据进行流量类型标注,作为原始训练数据集;所述原始训练数据包括恶意流量和正常流量;步骤2、对原始训练数据集以会话为单位进行切割,得到会话数据集合;步骤3、将步骤2获得的会话数据集合以数据包为单位进行分割,得到按照时间排序的流量数据序列,对流量数据序列进行长度修正,使流量数据序列长度一致;步骤4、将进行长度修正后的流量数据序列处理成图像集合;步骤5、对步骤4中获得的图像集合按照时间顺序进行排列,并将这一图像集合按照排列顺序在时间维度进行堆叠,得到预处理后的流量图像三维数据;步骤6、搭建以3D卷积神经网络为基础的流量分类模型,并将步骤5中得到的流量图像三维数据送入该流量分类模型进行训练,保存训练完成的流量分类模型;步骤6.1、对输入的流量图像三维数据进行硬连线操作,对组成流量图像三维数据的每一张图片进行信息采集操作;所述对流量图像三维数据进行的硬连线操作具体为:针对图像三维数据中每一张图像提取出所需要的3个通道信息特征,这3个通道信息分别为灰度(gray),横坐标梯度(gradient-x),纵坐标梯度(gradient-y),并将这些信息按照时间顺序保存在图像三维数据中,最终得到一个通道数量是原来图像三维数据通道数量3倍的新图像三维数据;步骤6.2、将处理得到的流量图像三维数据分别利用3种不同大小的卷积核同时进行3次卷积操作;步骤6.3、对步骤6.2中得到的3种卷积结果进行特征融合操作,即将小卷积核的处理结果和大卷积核的处理结果进行融合,从而更新大卷积核处理的卷积结果;步骤6.4、对步骤6.3中得到的3种卷积结果进行下采样的操作;步骤6.5、重复执行步骤6.2到6.4的操作,最终得到一维向量,将该向量输入到全连接层进行计算,得到最终分类结果,完成流量分类模型的训练;步骤7、将测试的流量数据进行步骤2到步骤5的预处理操作,并将预处理的结果输入到步骤6训练好的流量分类模型中,得出分类结果,测试得到的流量分类模型分类的准确性;步骤8、对待分类的流量数据进行步骤2到步骤5预处理,并将预处理结果输入到训练好的流量分类模型中,得出分类结果,实现流量数据的分类。采用上述技术方案所产生的有益效果在于:本专利技术提供的一种基于神经网络的海量流量数据类型的检测方法,利用了3D卷积神经网络在海量数据处理方面的高效性和高正确性,结合3D卷积神经网络处理的流量图像三维数据本身具有时间性与空间性的特点,既解决了海量流量数据难处理的难题,也解决了普通二维网络难以解决的时间序列问题;本专利技术构建的以3D卷积神经网络为基础的流量分类模型,通过将不同卷积核卷积处理的结果进行特征融合,也有效的进行了特征提取工作,提高了3D卷积神经网络提取特征的有效性,从而加大了流量类型分类的准确性。附图说明图1为本专利技术实施例提供的一种基于神经网络的海量流量数据类型的检测方法的流程图;图2为本专利技术实施例提供的一种基于神经网络的海量流量数据类型的检测方法的具体说明图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。一种基于神经网络的海量流量数据类型的检测方法,如图1和2所示,包括以下步骤:步骤1、对原始流量数据进行流量类型标注,作为原始训练数据集;所述原始训练数据包括恶意流量和正常流量;本实施例中,搜集的原始流量数据中的恶意流量共分为5大类,该5种恶意流量具有网络交互偏多且不太容易分辨的特点,分别为ARP攻击、DNS劫持、伪造证书后的通信行为、R2L和U2L。该5大类别又可进行细分,如ARP攻击细分为IP地址冲突、ARP泛洪攻击、ARP欺骗攻击、ARP扫描攻击、虚拟主机攻击等。步骤2、对原始训练数据集以会话为单位进行切割,得到会话数据集合;步骤3、将步骤2获得的会话数据集合以数据包为单位进行分割,得到按照时间排序的流量数据序列,对流量数据序列进行长度修正,在保证流量数据序列进行较小调整的基础上使流量数据序列长度一致;本实施例中,数据包长度设定为784个字节,数据包的数据长度未达到该设定的数据长度时,在数据末尾补零值,大于该数据长度的进行数据截取;步骤4、将步骤3中得到的进行长度修正后的流量数据序列处理成图像集合;本实施例将预处理化后的每一个数据包数据转化为16进制数据,并将每一条数据包数据转化为宽度为256字节的二维数组,最后将每一个数据包数据组成的二维数组转化为一张灰度图,最终得到一个图像集合。步骤5、对步骤4中获得的图像集合按照时间顺序对集合中的图像进行排列,并将这一图像集合按照排列顺序在时间维度进行堆叠,得到预处理后的流量图像三维数据;步骤6、搭建以3D卷积神经网络为基础的流量分类模型,并将步骤5中得到的流量图像三维数据送入该流量分类模型进行训练,保存训练完成的流量分类模型;步骤6.1、对输入的流量图像三维本文档来自技高网...
【技术保护点】
1.一种基于神经网络的海量流量数据类型的检测方法,其特征在于:包括以下步骤:/n步骤1、对原始流量数据进行流量类型标注,作为原始训练数据集;所述原始流量训练数据包括恶意流量和正常流量;/n步骤2、对原始训练数据集以会话为单位进行切割,得到会话数据集合;/n步骤3、将步骤2获得的会话数据集合以数据包为单位进行分割,得到按照时间排序的流量数据序列,对流量数据序列进行长度修正,使流量数据序列长度一致;/n步骤4、将进行长度修正后的流量数据序列处理成图像集合;/n步骤5、对获得的图像集合按照时间顺序进行排列,并将这一图像集合按照排列顺序在时间维度进行堆叠,得到预处理后的流量图像三维数据;/n步骤6、搭建以3D卷积神经网络为基础的流量分类模型,并将步骤5中得到的流量图像三维数据送入该流量分类模型进行训练,保存训练完成的流量分类模型;/n步骤7、将测试的流量数据进行步骤2到步骤5的预处理,并将预处理的结果输入到步骤6训练好的流量分类模型中,得出分类结果,测试得到流量分类模型分类的准确性;/n步骤8、对待分类的流量数据进行步骤2到步骤5预处理,并将预处理结果输入到训练好的流量分类模型中,得出分类结果,实现流量数据的分类。/n...
【技术特征摘要】
1.一种基于神经网络的海量流量数据类型的检测方法,其特征在于:包括以下步骤:
步骤1、对原始流量数据进行流量类型标注,作为原始训练数据集;所述原始流量训练数据包括恶意流量和正常流量;
步骤2、对原始训练数据集以会话为单位进行切割,得到会话数据集合;
步骤3、将步骤2获得的会话数据集合以数据包为单位进行分割,得到按照时间排序的流量数据序列,对流量数据序列进行长度修正,使流量数据序列长度一致;
步骤4、将进行长度修正后的流量数据序列处理成图像集合;
步骤5、对获得的图像集合按照时间顺序进行排列,并将这一图像集合按照排列顺序在时间维度进行堆叠,得到预处理后的流量图像三维数据;
步骤6、搭建以3D卷积神经网络为基础的流量分类模型,并将步骤5中得到的流量图像三维数据送入该流量分类模型进行训练,保存训练完成的流量分类模型;
步骤7、将测试的流量数据进行步骤2到步骤5的预处理,并将预处理的结果输入到步骤6训练好的流量分类模型中,得出分类结果,测试得到流量分类模型分类的准确性;
步骤8、对待分类的流量数据进行步骤2到步骤5预处理,并将预处理结果输入到训练好的流量分类模型中,得出分类结果,实现流量数据的分类。
2...
【专利技术属性】
技术研发人员:赵玉媛,吴振豪,陈钟,李青山,杨可静,兰云飞,吴琛,李洪生,王晓青,
申请(专利权)人:博雅信安科技北京有限公司,北京国信云服科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。