System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于网络流量存储领域,特别是涉及一种基于降采样和自编码器的网络流量存储方法。
技术介绍
1、随着互联网的普及和网络应用的增加,网络应用中产生的流量数据快速增多,网络流量存储是网络监管回放中至关重要的一环,有效的网络流量存储方法对于网络性能优化、故障排除以及安全威胁检测都至关重要。传统的网络流量存储模式通常采用全量存储,即将所有经过网络的数据都存储下来。
2、但是这种做法导致存储成本巨大,尤其在大规模网络环境中,需要大量的硬盘空间来存储庞大的数据流。并且由于传统方法没有对数据进行有效的压缩和整理,存储的数据可能存在大量冗余。这不仅浪费了存储空间,还使得存储、检索和分析这些数据变得更为困难,降低了数据的可用性和实用性,导致网络性能下降和实时性降低。
技术实现思路
1、本专利技术的目的是提供一种基于降采样和自编码器的网络流量存储方法,以解决上述现有技术存在的问题。
2、为实现上述目的,本专利技术提供了一种基于降采样和自编码器的网络流量存储方法,包括:
3、获取流量数据,对所述流量数据进行预处理,获得输入数据集;
4、构建自编码器,将所述输入数据集输入至所述自编码器中进行压缩还原,获得还原后的数据;
5、对所述还原后的数据和所述输入数据集的差异进行分析,获得每个差异阈值对应分类结果的真阳性率和假阳性率,基于所述真阳性率和假阳性率生成roc曲线,基于所述roc曲线对所述输入数据集进行过滤,获得过滤数据集;
6、
7、优选的,所述获取流量数据,对所述流量数据进行预处理,获得输入数据集的过程包括:
8、获取网络流量数据,基于标签编码方法对所述网络流量数据的类别型标签转换为整数形式,获得数字化数据集;
9、对所述数字化数据集进行min-max归一化,获得归一化数据集;
10、基于极度随机树算法对所述归一化数据集的特征进行筛选,获得所述输入数据集。
11、优选的,所述基于极度随机树算法对所述归一化数据集的特征进行筛选,获得所述输入数据集的过程还包括:通过相对方差减少量类定义评分机制;
12、所述通过相对方差减少量类定义评分机制的表达式为:
13、
14、其中,var{y|d}时原始样本集d中输出的y的方差,var{y|di}和var{y|dr}分别对应属性划分后,左右两个样本子集输出的y的方差。和分别代表左右样本子集在原始样本集d中所占的权重。
15、优选的,所述构建自编码器,将所述输入数据集输入至所述自编码器中进行压缩还原,获得还原后的数据的过程包括:
16、基于三层编码器和三层解码器构建所述自编码器,并通过训练集对所述自编码器进行训练,获得训练自编码器;
17、将所述输入数据集输入至所述自编码器中进行压缩还原,获得还原后的数据。
18、优选的,将所述输入数据集输入至所述自编码器中进行压缩还原的过程包括:
19、输入数据集首先通过编码器第一层的权重参数进行维度映射,随后再通过逐层减小特征维度,提取重要特征,形成内部表示,获得压缩数据;
20、基于解码器对所述压缩数据进行解码还原,获得所述还原后的数据。
21、优选的,对所述还原后的数据和所述输入数据集的差异进行分析,获得每个差异阈值对应分类结果的真阳性率和假阳性率的过程包括:
22、对所述还原后的数据和所述输入数据集进行计算,获得还原结果和输入数据之间的差异;
23、对所述还原结果和输入数据之间的差异设定阈值,基于所述阈值获取真正例、假正例、真负例和假负例;
24、基于所述真正例和假负例计算所述真阳性率;
25、基于所述真负例和假正例计算所述假阳性率。
26、对还原后差异性大于阈值的样本进行留存,视为潜在异常数据。
27、基于降采样方法,对还原后差异性小于阈值的样本进行过滤,减少计算机硬件的存储空间。
28、优选的,所述基于nearmiss1算法对所述过滤数据集中的冗余数据进行剔除的表达式为:
29、
30、其中,xnearest为x的邻近负样本。
31、本专利技术的技术效果为:本专利技术基于自编码器和降采样的网络流量存储算法,显著有益效果主要体现在其能够在节省存储空间和算例的同时保留数据的关键信息,并随时可将其进行还原,通过设计的轻量级自编码器模型能够有效减小模型复杂度,使其在计算资源有限的环境中运行更为高效。这一轻量级设计不仅有助于提升模型的训练和推理速度,同时也降低了系统对硬件资源的需求,进一步降低了部署和维护的成本,其次通过巧妙的降采样和平衡装袋技术的结合,本专利技术在保持轻量级的同时能够有效提高网络流量的存储效率,有效压缩数据,减少存储成本。降采样策略有助于减少训练数据中的噪声和冗余信息,提升模型对流量关键信息的敏感性。且有效解决了类别不平衡问题,确保在流量过滤存储中对正常流量和异常流量的处理更为均衡,提高了整体的存储效率。
32、基于自编码器和降采样的网络流量存储方法不仅能够捕捉正常流量的关键特征,还能够有效地存储具有潜在威胁的异常流量。这种双重的抽样存储策略有助于在有限的存储资源下更全面、有效地维护网络安全性,为网络流量管理提供一种更加智能、高效的解决方案。
本文档来自技高网...【技术保护点】
1.一种基于降采样和自编码器的网络流量存储方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于降采样和自编码器的网络流量存储方法,其特征在于,所述获取流量数据,对所述流量数据进行预处理,获得输入数据集的过程包括:
3.根据权利要求2所述的基于降采样和自编码器的网络流量存储方法,其特征在于,所述基于极度随机树算法对所述归一化数据集的特征进行筛选,获得所述输入数据集的过程还包括:通过相对方差减少量类定义评分机制;
4.根据权利要求1所述的基于降采样和自编码器的网络流量存储方法,其特征在于,所述构建自编码器,将所述输入数据集输入至所述自编码器中进行压缩还原,获得还原后的数据的过程包括:
5.根据权利要求4所述的基于降采样和自编码器的网络流量存储方法,其特征在于,将所述输入数据集输入至所述自编码器中进行压缩还原的过程包括:
6.根据权利要求1所述的基于降采样和自编码器的网络流量存储方法,其特征在于,对所述还原后的数据和所述输入数据集的差异进行分析,获得每个差异阈值对应分类结果的真阳性率和假阳性率的过程包括:
8.根据权利要求1所述的基于降采样和自编码器的网络流量存储方法,其特征在于,对所述还原后的数据和所述输入数据集的差异进行分析,获得每个差异阈值对应分类结果的真阳性率和假阳性率的过程还包括:
...【技术特征摘要】
1.一种基于降采样和自编码器的网络流量存储方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于降采样和自编码器的网络流量存储方法,其特征在于,所述获取流量数据,对所述流量数据进行预处理,获得输入数据集的过程包括:
3.根据权利要求2所述的基于降采样和自编码器的网络流量存储方法,其特征在于,所述基于极度随机树算法对所述归一化数据集的特征进行筛选,获得所述输入数据集的过程还包括:通过相对方差减少量类定义评分机制;
4.根据权利要求1所述的基于降采样和自编码器的网络流量存储方法,其特征在于,所述构建自编码器,将所述输入数据集输入至所述自编码器中进行压缩还原,获得还原后的数据的过程包括:
5.根据权利要求4所述的基于降...
【专利技术属性】
技术研发人员:游政贤,林坚超,茅剑,黄楷,涂江得,
申请(专利权)人:厦门吉快科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。