一种基于深度学习的网络流量分类方法、系统及电子设备技术方案

技术编号:20875052 阅读:25 留言:0更新日期:2019-04-17 11:16
本申请涉及一种基于深度学习的网络流量分类方法、系统及电子设备。所述方法包括:步骤a:捕获网络流量样本数据;步骤b:通过深度学习分类算法提取所述网络流量样本数据的全局特征数据集;步骤c:根据所述全局特征数据集构建随机森林分类模型,通过随机森林分类模型输出网络流量分类结果。本申请利用提取的全局特征训练随机森林分类模型,结果表现出稳定的分类性能,能够处理很高维度的流量数据,并且不用做特征选择。相比现有技术,本申请能够有效的保障网络流量分类的高精度和高性能,同时,可以提高分类效率,缩短训练时间,降低计算开销。

【技术实现步骤摘要】
一种基于深度学习的网络流量分类方法、系统及电子设备
本申请属于网络流量分类
,特别涉及一种基于深度学习的网络流量分类方法、系统及电子设备。
技术介绍
随着互联网技术的飞快发展,网络中不断有大量的新应用出现,每种应用携带各种各样的服务和功能,使得网络环境变得异常庞大复杂多变。对于网络的正常运行和服务、资源实时分配,能有一种有效的监管网络活动的方法已经是必不可少的一环。网络流量分类在网络管理、资源分配、按需服务和安全系统等中发挥着重要作用,例如,对于企业管理者来说,通过对网络流量精细的分类和识别,可以对网络资源进行精准管理、资源有效再利用和提供个性化服务起到很好的作用,对企业节省网络不必要的开支也是非常的重要。因此,如何准确的对网络流量进行精准分类,提高网络资源再利用率和个性化服务是一大挑战。现有技术中,常用的网络流量分类方法包括一下几种:1、基于表征学习的网络流量分类:通过对获取到的网络流量数据进行预处理,使用表征学习算法对预处理后的网络流量数据进行特征提取,将网络流量数据生成网络流向量,根据网络流向量对网络流量数据进行分类,可实现高效地对网络流量进行分类。2、基于两阶段序列特征学习的网络流量分类方法:在数据包和网络流两个层次上分两阶段使用长短时记忆神经网络学习网络流量的序列特征,第一阶段在流量字节序列的基础上生成数据包向量序列,第二阶段在数据包向量序列的基础上进一步生成网络流向量,最后使用分类器对网络流向量执行流量分类。该方法充分考虑了网络流量的内部结构组织关系,有效利用了长短时记忆神经网络的时序特征学习能力,得到比较综合全面的流量特征后再进行分类,能够实现更加准确的网络流量分类效果。3、基于层次化时空特征学习的网络流量分类方法:通过第一神经网络获取网络流量数据的空间特征;通过第二神经网络获取所述网络流量数据的时序特征;根据所述空间特征和所述时序特征对所述网络流量进行分类。该方法可得到比较全面准确的流量特征信息,能够有效提高网络流量分类能力;使用更好的流量特征集可以有效地降低误警率。综上所述,现有的网络流量分类方法都是基于传统的机器学习技术,分类性能非常依赖于流量特征的设计,而且如何能准确的刻画出流量特性的特征集,需要大量的人工设计,这仍是目前解决网络流量分类问题的一个难点。同时,目前大部分的网络流量分类方法基本都是对训练阶段的分类算法模块提出了各种各样的优化和改进算法,但对于网络流量原始数据本身含有的局部特征却很少研究和挖掘,分类性能不稳定。
技术实现思路
本申请提供了一种基于深度学习的网络流量分类方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。为了解决上述问题,本申请提供了如下技术方案:一种基于深度学习的网络流量分类方法,包括以下步骤:步骤a:捕获网络流量样本数据;步骤b:通过深度学习分类算法提取所述网络流量样本数据的全局特征数据集;步骤c:根据所述全局特征数据集构建随机森林分类模型,通过随机森林分类模型输出网络流量分类结果。本申请实施例采取的技术方案还包括:在所述步骤a中,所述捕获网络流量样本数据具体包括:选择网络数据中心,采集所有网络数据包;同时,获取所述网络数据包对应时间段内网络流量之间交流产生的系统网络日志。本申请实施例采取的技术方案还包括:在所述步骤a中,所述网络流量样本数据还包括:检测网络流量样本数据,对网络流量样本数据进行预处理,过滤掉网络流量样本数据中的不完整网络数据包,并删除重传的网络数据包。本申请实施例采取的技术方案还包括:在所述步骤a中,所述网络流量样本数据还包括:对所述预处理后的网络流量样本数据进行样本打标签处理,得到网络流数据集;所述样本打标签具体为:分析所述网络流量样本数据,找出其中每个应用的自然属性和与其他应用交流之间的IP地址、传输协议;提取所述系统网络日志中与每个应用相关联的IP端点和传输包数,判断所述网络流量样本数据所属类别,并结合每个应用的IP地址和传输协议进行二者关联融合,完成所述网络流量样本数据的标记;最后,利用深度包检测技术对未知流量数据进行特征指纹匹配,完成未知流量数据的标记。本申请实施例采取的技术方案还包括:在所述步骤b中,所述通过深度学习分类算法提取所述网络流量样本数据的全局特征数据集具体包括:步骤b1:输入网络流数据集;步骤b2:利用TCP/IP协议四层所包含流量数据之间的关联程度,按比例依次提取每个网络数据包的应用层、传输层、网络层、数据链路层的流量数据;步骤b3:按照TCP/IP协议四层所包含的数据重要性程度,按比例依次分割并提取每层不同大小的流量数据;步骤b4:将提取出的流量数据组成一维化的M个字节,并将M个字节转换成N个像素点;步骤b5:将所述N个像素点转换成标准尺寸的灰度图像,形成新的灰度图像数据集;步骤b6:将所述灰度图像数据集送入到卷积神经网络模型的输入层,经过不断自适应调整卷积层和池化层的大小和数量,循坏进行卷积操作,得到高维的全局特征数据集。本申请实施例采取的另一技术方案为:一种基于深度学习的网络流量分类系统,包括:数据获取模块:用于捕获网络流量样本数据;特征提取模块:用于通过深度学习分类算法提取所述网络流量样本数据的全局特征数据集;分类模型构建模块:用于根据所述全局特征数据集构建随机森林分类模型;结果输出模块:用于输出网络流量分类结果。本申请实施例采取的技术方案还包括:所述数据获取模块捕获网络流量样本数据具体包括:选择网络数据中心,采集所有网络数据包;同时,获取所述网络数据包对应时间段内网络流量之间交流产生的系统网络日志。本申请实施例采取的技术方案还包括数据预处理模块,所述数据预处理模块用于检测网络流量样本数据,对所述网络流量样本数据进行预处理,过滤掉网络流量样本数据中的不完整网络数据包,并删除重传的网络数据包。本申请实施例采取的技术方案还包括数据打标签模块,所述数据打标签模块用于对所述预处理后的网络流量样本数据进行样本打标签处理,得到网络流数据集;所述样本打标签具体为:分析所述网络流量样本数据,找出其中每个应用的自然属性和与其他应用交流之间的IP地址、传输协议;提取所述系统网络日志中与每个应用相关联的IP端点和传输包数,判断所述网络流量样本数据所属类别,并结合每个应用的IP地址和传输协议进行二者关联融合,完成所述网络流量样本数据的标记;最后,利用深度包检测技术对未知流量数据进行特征指纹匹配,完成未知流量数据的标记。本申请实施例采取的技术方案还包括:所述特征提取模块通过深度学习分类算法提取所述网络流量样本数据的全局特征数据集具体为:输入网络流数据集;利用TCP/IP协议四层所包含流量数据之间的关联程度,按比例依次提取每个网络数据包的应用层、传输层、网络层、数据链路层的流量数据;按照TCP/IP协议四层所包含的数据重要性程度,按比例依次分割并提取每层不同大小的流量数据;将提取出的流量数据组成一维化的M个字节,并将M个字节转换成N个像素点;将所述N个像素点转换成标准尺寸的灰度图像,形成新的灰度图像数据集;将所述灰度图像数据集送入到卷积神经网络模型的输入层,经过不断自适应调整卷积层和池化层的大小和数量,循坏进行卷积操作,得到高维的全局特征数据集。本申请实施例采取的又一技术方案为:一种电子设本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的网络流量分类方法,其特征在于,包括以下步骤:步骤a:捕获网络流量样本数据;步骤b:通过深度学习分类算法提取所述网络流量样本数据的全局特征数据集;步骤c:根据所述全局特征数据集构建随机森林分类模型,通过随机森林分类模型输出网络流量分类结果。

【技术特征摘要】
1.一种基于深度学习的网络流量分类方法,其特征在于,包括以下步骤:步骤a:捕获网络流量样本数据;步骤b:通过深度学习分类算法提取所述网络流量样本数据的全局特征数据集;步骤c:根据所述全局特征数据集构建随机森林分类模型,通过随机森林分类模型输出网络流量分类结果。2.根据权利要求1所述的基于深度学习的网络流量分类方法,其特征在于,在所述步骤a中,所述捕获网络流量样本数据具体包括:选择网络数据中心,采集所有网络数据包;同时,获取所述网络数据包对应时间段内网络流量之间交流产生的系统网络日志。3.根据权利要求2所述的基于深度学习的网络流量分类方法,其特征在于,在所述步骤a中,所述网络流量样本数据还包括:检测网络流量样本数据,对网络流量样本数据进行预处理,过滤掉网络流量样本数据中的不完整网络数据包,并删除重传的网络数据包。4.根据权利要求3所述的基于深度学习的网络流量分类方法,其特征在于,在所述步骤a中,所述网络流量样本数据还包括:对所述预处理后的网络流量样本数据进行样本打标签处理,得到网络流数据集;所述样本打标签具体为:分析所述网络流量样本数据,找出其中每个应用的自然属性和与其他应用交流之间的IP地址、传输协议;提取所述系统网络日志中与每个应用相关联的IP端点和传输包数,判断所述网络流量样本数据所属类别,并结合每个应用的IP地址和传输协议进行二者关联融合,完成所述网络流量样本数据的标记;最后,利用深度包检测技术对未知流量数据进行特征指纹匹配,完成未知流量数据的标记。5.根据权利要求4所述的基于深度学习的网络流量分类方法,其特征在于,在所述步骤b中,所述通过深度学习分类算法提取所述网络流量样本数据的全局特征数据集具体包括:步骤b1:输入网络流数据集;步骤b2:利用TCP/IP协议四层所包含流量数据之间的关联程度,按比例依次提取每个网络数据包的应用层、传输层、网络层、数据链路层的流量数据;步骤b3:按照TCP/IP协议四层所包含的数据重要性程度,按比例依次分割并提取每层不同大小的流量数据;步骤b4:将提取出的流量数据组成一维化的M个字节,并将M个字节转换成N个像素点;步骤b5:将所述N个像素点转换成标准尺寸的灰度图像,形成新的灰度图像数据集;步骤b6:将所述灰度图像数据集送入到卷积神经网络模型的输入层,经过不断自适应调整卷积层和池化层的大小和数量,循坏进行卷积操作,得到高维的全局特征数据集。6.一种基于深度学习的网络流量分类系统,其特征在于,包括:数据获取模块:用于捕获网络流量样本数据;特征提取模块:用于通过深度学习分类算法提取所述网络流量样本数据的全局特征数据集;分类模型构建模块:用于根据所述...

【专利技术属性】
技术研发人员:赵世林叶可江须成忠
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1