面向加密异常流量识别的数据处理方法技术

技术编号:35508508 阅读:13 留言:0更新日期:2022-11-09 14:21
本发明专利技术公开了一种面向加密异常流量识别的数据处理方法,所述方法包括如下步骤:获取网络中的具有标签的加密流量数据,分别将不同标签的所述加密流量数据切分为多个会话单元,其中,每个会话单元包括若干数据包;根据每个会话单元所包括的数据包生成该会话单元相应的流量图像,每个流量图像包括若干与所述数据包一一对应的图像元素,并将所有会话单元的流量图像组成第一图像集;从所述第一图像集中随机选取至少一部分的流量图像,对其中每个流量图像的至少一部分图像元素进行图形处理,并得到第二图像集,以用于根据监督式机器学习方法进行加密异常流量识别。本发明专利技术能够有效扩充用于机器学习模型的训练数据集,实现数据增强。实现数据增强。实现数据增强。

【技术实现步骤摘要】
面向加密异常流量识别的数据处理方法


[0001]本专利技术涉及计算机网络安全领域,具体涉及一种面向加密异常流量识别的数据处理方法。

技术介绍

[0002]随着互联网技术的飞速发展,网络逐渐成为人们生产和生活中必不可缺的一部分,极大地方便了人们的生产生活。与此同时,日趋复杂的网络环境也产生了纷繁多样的网络攻击,给社会带来巨大的经济损失,并对国家安全形成巨大挑战。针对网络中数据的流量开展威胁检测是应对上述挑战的有效方式之一。近年来,由于加密通信协议的广泛应用,传统的依靠明文特征的检测方法变的越来越不可行,如何对加密流量开展威胁检测是一个亟待解决的重要问题。目前,根据网络中的流量是否具有威胁,可以将其分为正常流量(白流量)、恶意流量(黑流量)、异常流量(灰流量),而加密流量的广泛存在使得直接检测黑流量变得越来越困难。加密异常流量是指与正常流量有差别,但又无法直接归类为威胁流量的一类加密流量,深入分析这类流量,往往能够从中发现新型攻击行为,因此,加密异常流量检测方法是目前很多研究者重点关注的一个问题。
[0003]基于监督式机器学习的异常流量检测是近年来研究较多的一种检测方法,在很多应用场景中取得了很好的效果。这种方式的基本思路是,收集一批正常流量与恶意流量数据作为训练集,训练一个深度学习(深层次神经网络)或者传统的机器学习(随机森林、SVM等)模型,然后对实际流量开展识别,对于识别为恶意流量的数据,将其作为加密异常流量进行进一步人工分析,结合威胁情报或者主动探测等手段,综合判定其最终属性。其中,基于深度学习的异常流量检测方法是目前比较热门的研究方向,一种比较常见的方法是将流量数据转化为图像数据,利用深度学习模型优异的图像识别能力实现图像识别,间接实现异常流量识别的目的。图像转换方式既可以采用二进制灰度图方法,也可以采用提取了数据包长度序列的语义方法。
[0004]在实际应用过程中,恶意流量数据尤其是高隐蔽威胁流量数据往往是相对较少的,某些APT组织的实际攻击流量非常难以获得。监督式机器学习方法往往需要大量的训练数据,以支撑机器学习模型得以充分的学习其数据特征,才能有较好的泛化能力和识别效果。恶意流量数据的稀少与机器学习模型的数据需求形成一对现实矛盾,严重制约了基于监督式机器学习方法的应用范围。
[0005]传统的机器学习领域中,数据增强是解决训练数据缺少的一个有效方法。数据增强,是指基于有限的训练数据生成更多的训练数据,用于丰富训练数据统计分布,使通过训练集训练得到的机器学习模型的泛化能力更强。数据增强是机器学习尤其是深度学习领域常用的数据预处理工作之一。例如,在计算机视觉领域,如果训练集中的图像样本较少,可以使用旋转(Rotation)、反转(Flip)、缩放(Zoom)、平移(Shift)、加噪(Noise)、颜色变换(Color)等方式实现数据增强。在基于深度学习的异常流量检测方法中,流量图像都具有自身特有的语义特征,上述传统的数据增强方式往往会破坏其语义特征,造成增强后的新图
像数据难以反映恶意流量的真实特征,严重影响模型训练效果。

技术实现思路

[0006]基于上述现状,本专利技术的主要目的在于提供一种面向加密异常流量识别的数据处理方法、电子设备和计算机可读存储介质,充分考虑网络数据流量的语义特征,通过模拟实际网络通信过程中可能出现的丢包、乱序、重传等传输因素造成的差异以及同类别样本通信过程中产生的数据差异等实际情况,能够有效扩充用于机器学习模型的训练数据集,实现数据增强,为提高机器学习模型泛化能力提供有效的数据支撑。
[0007]为实现上述目的,本专利技术采用的技术方案如下:
[0008]本专利技术的第一方面提供了一种面向加密异常流量识别的数据处理方法,所述方法包括如下步骤:
[0009]S100,获取网络中的具有标签的加密流量数据,分别将不同标签的所述加密流量数据切分为多个会话单元,其中,每个会话单元包括若干数据包;
[0010]S200,根据每个会话单元所包括的数据包生成该会话单元相应的流量图像,每个流量图像包括若干与所述数据包一一对应的图像元素,并将所有会话单元的流量图像组成第一图像集;
[0011]S300,从所述第一图像集中随机选取至少一部分的流量图像,对其中每个流量图像的至少一部分图像元素进行图形处理,并得到第二图像集,以用于根据监督式机器学习方法进行加密异常流量识别。
[0012]进一步地,所述步骤S100中,所述加密流量数据的标签包括正常流量和恶意流量。
[0013]进一步地,所述步骤S100中,所述数据包具有四元组信息,所述四元组信息包括源IP地址、源端口号,目的IP地址和目的端口号,并根据所述四元组信息将所述加密流量数据切分为多个会话单元。
[0014]进一步地,所述方法还包括:根据所述四元组信息确定所述数据包的传输方向。
[0015]进一步地,所述步骤S200中,从每个会话单元中根据预设阈值选取在时序上的前N个数据包,并根据所述N个数据包生成所述流量图像,具体为:
[0016]基于每个数据包生成预设宽度的柱形条,并将所有数据包生成的柱形条根据时序沿时间轴依次排列;
[0017]每个柱形条相对于所述时间轴在垂直方向上的位置根据该柱形条所对应的数据包的传输方向确定;
[0018]每个柱形条的高度根据该柱形条所对应的数据包的大小确定;
[0019]相邻两个柱形条在时间轴上的间隙由该两个柱形条所对应的数据包的时间间隔确定。
[0020]进一步地,所述步骤S200中,
[0021]当某个数据包的传输方向为从客户端至服务端时,则将该数据包所对应的柱形条以所述时间轴为起始并向所述时间轴的一侧的延伸;
[0022]当某个数据包的传输方向为从服务端至客户端时,则将该数据包所对应的柱形条以所述时间轴为起始并向所述时间轴的另一侧延伸。
[0023]进一步地,所述步骤S300中,所述图形处理的方式包括:
[0024]根据第一抽样比例从所述流量图像中选取若干柱形条作为第一目标对象,沿所述时间轴在所述第一目标对象之后插入与所述第一目标对象相同的若干柱形条;或,
[0025]根据第二抽样比例从所述流量图像中选取若干柱形条作为第二目标对象,并将所述第二目标对象从所述时间轴上删除;或,
[0026]根据第三抽样比例从所述流量图像中选取若干柱形条作为第三目标对象,并按照预设幅值系数对所述第三目标对象所对应的柱形条的高度进行调整;或,
[0027]根据第四抽样比例从所述流量图像中选取若干对相邻的柱形条作为第四目标对象,并将每一对相邻的柱形条在所述时间轴上的位置互换。
[0028]进一步地,所述每个流量图像的至少一部分图像元素分别从所述图形处理的方式中随机选取至少两种或两种以上进行图形处理。
[0029]本专利技术的第二方面提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,能够实现如上述第一方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向加密异常流量识别的数据处理方法,其特征在于,所述方法包括如下步骤:S100,获取网络中的具有标签的加密流量数据,分别将不同标签的所述加密流量数据切分为多个会话单元,其中,每个会话单元包括若干数据包;S200,根据每个会话单元所包括的数据包生成该会话单元相应的流量图像,每个流量图像包括若干与所述数据包一一对应的图像元素,并将所有会话单元的流量图像组成第一图像集;S300,从所述第一图像集中随机选取至少一部分的流量图像,对其中每个流量图像的至少一部分图像元素进行图形处理,并得到第二图像集,以用于根据监督式机器学习方法进行加密异常流量识别。2.如权利要求1所述的数据处理方法,其特征在于,所述步骤S100中,所述加密流量数据的标签包括正常流量和恶意流量。3.如权利要求1所述的数据处理方法,其特征在于,所述步骤S100中,所述数据包具有四元组信息,所述四元组信息包括源IP地址、源端口号,目的IP地址和目的端口号,并根据所述四元组信息将所述加密流量数据切分为多个会话单元。4.如权利要求3所述的数据处理方法,其特征在于,所述方法还包括:根据所述四元组信息确定所述数据包的传输方向。5.如权利要求1所述的数据处理方法,其特征在于,所述步骤S200中,从每个会话单元中根据预设阈值选取在时序上的前N个数据包,并根据所述N个数据包生成所述流量图像,具体为:基于每个数据包生成预设宽度的柱形条,并将所有数据包生成的柱形条根据时序沿时间轴依次排列;每个柱形条相对于所述时间轴在垂直方向上的位置根据该柱形条所对应的数据包的传输方向确定;每个柱形条的高度根据该柱形条所对应的数据包的大小确定;相邻两个柱形条在时间轴上的间隙由该两个...

【专利技术属性】
技术研发人员:吕志泉楼书逸文静韩志辉严寒冰周昊饶毓贺铮严定宇刘玲秦佳伟刘燚祖小月
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1