面向加密异常流量识别的数据处理方法技术

技术编号：35508508 阅读：13 留言：0更新日期：2022-11-09 14:21

本发明专利技术公开了一种面向加密异常流量识别的数据处理方法，所述方法包括如下步骤：获取网络中的具有标签的加密流量数据，分别将不同标签的所述加密流量数据切分为多个会话单元，其中，每个会话单元包括若干数据包；根据每个会话单元所包括的数据包生成该会话单元相应的流量图像，每个流量图像包括若干与所述数据包一一对应的图像元素，并将所有会话单元的流量图像组成第一图像集；从所述第一图像集中随机选取至少一部分的流量图像，对其中每个流量图像的至少一部分图像元素进行图形处理，并得到第二图像集，以用于根据监督式机器学习方法进行加密异常流量识别。本发明专利技术能够有效扩充用于机器学习模型的训练数据集，实现数据增强。实现数据增强。实现数据增强。

全部详细技术资料下载

【技术实现步骤摘要】
面向加密异常流量识别的数据处理方法

[0001]本专利技术涉及计算机网络安全领域，具体涉及一种面向加密异常流量识别的数据处理方法。

技术介绍

[0002]随着互联网技术的飞速发展，网络逐渐成为人们生产和生活中必不可缺的一部分，极大地方便了人们的生产生活。与此同时，日趋复杂的网络环境也产生了纷繁多样的网络攻击，给社会带来巨大的经济损失，并对国家安全形成巨大挑战。针对网络中数据的流量开展威胁检测是应对上述挑战的有效方式之一。近年来，由于加密通信协议的广泛应用，传统的依靠明文特征的检测方法变的越来越不可行，如何对加密流量开展威胁检测是一个亟待解决的重要问题。目前，根据网络中的流量是否具有威胁，可以将其分为正常流量(白流量)、恶意流量(黑流量)、异常流量(灰流量)，而加密流量的广泛存在使得直接检测黑流量变得越来越困难。加密异常流量是指与正常流量有差别，但又无法直接归类为威胁流量的一类加密流量，深入分析这类流量，往往能够从中发现新型攻击行为，因此，加密异常流量检测方法是目前很多研究者重点关注的一个问题。
[0003]基于监督式机器学习的异常流量检测是近年来研究较多的一种检测方法，在很多应用场景中取得了很好的效果。这种方式的基本思路是，收集一批正常流量与恶意流量数据作为训练集，训练一个深度学习(深层次神经网络)或者传统的机器学习(随机森林、SVM等)模型，然后对实际流量开展识别，对于识别为恶意流量的数据，将其作为加密异常流量进行进一步人工分析，结合威胁情报或者主动探测等手段，综合判定其最终属性。其中，基于深度学习的异常流...

【技术保护点】

【技术特征摘要】
1.一种面向加密异常流量识别的数据处理方法，其特征在于，所述方法包括如下步骤：S100，获取网络中的具有标签的加密流量数据，分别将不同标签的所述加密流量数据切分为多个会话单元，其中，每个会话单元包括若干数据包；S200，根据每个会话单元所包括的数据包生成该会话单元相应的流量图像，每个流量图像包括若干与所述数据包一一对应的图像元素，并将所有会话单元的流量图像组成第一图像集；S300，从所述第一图像集中随机选取至少一部分的流量图像，对其中每个流量图像的至少一部分图像元素进行图形处理，并得到第二图像集，以用于根据监督式机器学习方法进行加密异常流量识别。2.如权利要求1所述的数据处理方法，其特征在于，所述步骤S100中，所述加密流量数据的标签包括正常流量和恶意流量。3.如权利要求1所述的数据处理方法，其特征在于，所述步骤S100中，所述数据包具有四元组信息，所述四元组信息包括源IP地址、源端口号，目的IP地址和目的端口号，并根据所述四元组信息将所述加密流量数据切分为多个会话单元。4.如权利要求3所述的数据处理方法，其特征在于，所述方法还包括：根据所述四元组信息确定所述数据包的传输方向。5.如权利要求1所述的数据处理方法，其特征在于，所述步骤S200中，从每个会话单元中根据预设阈值选取在时序上的前N个数据包，并根据所述N个数据包生成所述流量图像，具体为：基于每个数据包生成预设宽度的柱形条，并将所有数据包生成的柱形条根据时序沿时间轴依次排列；每个柱形条相对于所述时间轴在垂直方向上的位置根据该柱形条所对应的数据包的传输方向确定；每个柱形条的高度根据该柱形条所对应的数据包的大小确定；相邻两个柱形条在时间轴上的间隙由该两个...

【专利技术属性】
技术研发人员：吕志泉，楼书逸，文静，韩志辉，严寒冰，周昊，饶毓，贺铮，严定宇，刘玲，秦佳伟，刘燚，祖小月，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人