一种基于自动编码器的网络流量异常行为识别方法技术

技术编号:25314991 阅读:223 留言:0更新日期:2020-08-18 22:32
本发明专利技术提供一种基于自动编码器的网络流量异常行为识别方法,属于机器学习与信息安全结合的交叉技术领域,使用综合少数过采样方法来平衡流量数据中正常流量数据和异常流量数据的类别分布,并结合自动编码器,从而能够有效地从海量数据中提取非线性结构信息,识别出网络流量中的异常行为。

【技术实现步骤摘要】
一种基于自动编码器的网络流量异常行为识别方法
本专利技术提出了一种有效的网络流量异常行为识别方法。该方法结合了综合少数过采样方法和自动编码器分类算法,属于机器学习与信息安全结合的交叉

技术介绍
随着信息化时代的飞速发展,互联网已经成为人们生活中不可缺少的一部分。然而,网络中的攻击行为的频率和攻击事件规模也不断增加,这些攻击行为不仅会造成巨大的经济损失,对社会稳定和国家安全也造成了严重的威胁,维护网络空间的安全已成为亟待解决的问题。为了更好的维护网络空间安全,保证各项网络资源的可用性,防止各种攻击行为的发生,作为主动防御方法的入侵检测技术成为当前研究的热点问题。入侵检测系统是一种积极主动的安全防护技术,可以监控网络中数据的传输行为,发现可疑传输后发出警报或中断异常传输行为。入侵检测的概念最早是由JamesAnderson在1980年提出的,用于监控攻击行为。目前已经有大量的研究对网络入侵行为进行检测,这些工作可以分为基于误用的入侵检测系统(MIDS)和基于异常的入侵检测系统(AIDS)。MIDS又称基于签名的入侵检测系统,根据已有的知识来检测攻击行为。虽然MIDS具有较高的准确率和较低的误报率,但它无法检测不在签名数据库的未知攻击。不同于MIDS,AIDS可以通过比较正常行为和异常行为来检测未知的攻击。因此,AIDS正引起越来越多的关注,其中最重要的一种方法就是使用基于特征的传统机器学习方法,例如决策树、随机森林、朴素贝叶斯方法等。然而,基于传统机器学习方法的入侵检测通常强调特征工程,是较为浅层的学习方法。随着网络中海量高维数据的增加,网络带宽的提升,数据的复杂性和特征的多样性也在不断提升,浅层学习难以达到分析和预测的目的。近年来,深度神经网络技术在图像识别、自然语言处理、语音识别等领域取得了巨大的成功。深度神经网络是一种对数据进行表征学习的方法,能够学习到数据的内在规律,通过构建多个隐藏层组建的非线性网络结构,来适应高维度学习和预测的要求。目前基于深度学习的入侵检测方法也很有发展前景,包括自动编码器、深度信念网络、递归神经网络、卷积神经网络、门控递归单元等,并取得了一定的成功。然而,这些用于入侵检测的深度学习方法仍然存在一些问题。例如,由于存在类别不平衡问题,很多研究没有考虑流量数据的整体分布,决策函数偏向多数样本,低频攻击样本被视为噪声而忽略,导致模型难以捕获到有效的特征,难以检测到低频率的攻击。另一方面,一些研究在将符号数据转换为数值数据时,没有对高维数据进行处理,导致训练效率低、耗费存储空间、检测性能差。因此,对流量数据进行降维处理能够更好的提升入侵检测的效率和准确性。
技术实现思路
针对现有技术中存在的问题,本专利技术提出了一种新的深度神经网络入侵检测方法——基于自动编码器的网络流量异常行为识别方法,使用了综合少数过采样方法来平衡流量数据中正常流量数据和异常流量数据的类别分布,并结合自动编码器,从而能够有效地从海量数据中提取非线性结构信息。为达到目的,本专利技术采用具体技术方案是:一种基于自动编码器的网络流量异常行为识别方法,包括以下步骤:1)使用自动编码器来构建稀疏异常入侵检测模型SAIDS;2)对SAIDS模型进行训练,步骤包括:SAIDS模型对原始训练数据进行预处理,对预处理后的训练数据采用综合少数过采样方法(SMOTE)来平衡流量数据中正常流量和异常流量的类别分布,得到平衡数据;根据平衡数据来进行正常流量和异常流量的分类,计算损失值,找出最小损失值对应的模型参数,得到训练好的SAIDS模型;3)利用训练好的SAIDS模型检测待识别的网络流量,步骤包括:SAIDS模型对待识别的网络流量进行预处理,对预处理后的网络流量进行正常流量和异常流量的分类,识别出异常行为。进一步地,原始训练数据带有正常流量和异常流量的类别标签。进一步地,通过预处理得到标准化数据,预处理包括将符号数据使用one-hot编码转换为数值型数据,并对数值型数据进行归一化处理。进一步地,归一化处理是指采用Min-Max归一化方法将数值型数据缩小到[0,1]范围内。进一步地,综合少数过采样方法采用线性插值,通过少数类别中的数据样本与随机选取的一最近邻居样本之差乘以一0到1之间的随机数,再与该少数类别中的数据样本之和,生成新的数据。进一步地,SAIDS模型除了包括负责对原始数据进行预处理并采用SMOTE方法得到平衡数据的网络结构以外,更主要包括丢弃层和自动编码器;丢弃层对平衡数据进行预处理,防止过拟合;自动编码器包括输入层、编码层和解码层,输入层接收预处理后的平衡数据,编码层将平衡数据映射为低维特征,解码层将低维特征重新构建成输入数据,并进行正常流量和异常流量的分类。进一步地,丢弃层是将输入的平衡数据与概率服从伯努利分布的向量进行元素乘积处理。进一步地,SAIDS模型训练时选择Relu激活函数和Adam优化器,并使用均方误差来计算损失值。本专利技术选择综合少数过采样方法用于平衡流量数据的类别分布的原因是在于它具有以下优点:(1)欠采样方法通过删除多数类别的数据来得到平衡数据集,可能会丢失重要数据信息,因此,过采样方法通常比欠采样的处理效果更好,使用频率更高。(2)综合少数过采样方法采用线性插值的理论,有效的减少了过拟合现象,并且减少了采样过程中的局限性。由于数据的维数过高可能导致训练效率较低,降低数据的维度能够减少所需要的存储空间,加快计算速度,去除冗余特征,更好地表达数据。传统的主成分分析法等线性降维方法难以捕获数据中的非线性信息,基于核函数的主成分分析法等非线性降维方法计算复杂度较高,难以应用于大规模数据集中。而自动编码器作为深度学习中的降维方法,能够有效地从海量数据集中提取出非线性结构信息,获取更高级的特征。因此,本专利技术采用了自动编码器算法来构建入侵检测系统,从而提升对海量高维数据的检测能力。与现有技术相比,本专利技术的积极效果为:本专利技术在若干个真实的网络流量数据集上进行了实验,使用整体准确率、精准率、召回率和F1值对模型的性能进行评价。综合性的实验结果表明本专利技术提出的模型在性能方面优于决策树、随机森林、门控神经网络等现有的基线识别方法。附图说明图1是本实施例的一种网络流量异常行为识别方法整体流程图。图2A-2B是本实施例所使用的NSL-KDD数据集的分布图;其中图2A是原始训练数据集,图2B是经过了SMOTE方法处理的数据集。图3A-3B是本实施例所使用的UNSW-NB15数据集的分布图,其中图3A是原始训练数据集,图3B是经过了SMOTE方法处理的数据集。图4A-4B是深度学习方法的性能比较立方图,其中图4A是对于NSL-KDD数据集的评估情况,图4B是对于UNSW-NB15数据集的评估情况。具体实施方式为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术的目的、特征和优点能够更加明显易懂,下面结本文档来自技高网
...

【技术保护点】
1.一种基于自动编码器的网络流量异常行为识别方法,包括以下步骤:/n1)使用自动编码器来构建稀疏异常入侵检测模型SAIDS;/n2)对SAIDS模型进行训练,步骤包括:/nSAIDS模型对原始训练数据进行预处理,对预处理后的训练数据采用综合少数过采样方法来平衡流量数据中正常流量和异常流量的类别分布,得到平衡数据;/n根据平衡数据来进行正常流量和异常流量的分类,计算损失值,找出最小损失值对应的模型参数,得到训练好的SAIDS模型;/n3)利用训练好的SAIDS模型检测待识别的网络流量,步骤包括:/nSAIDS模型对待识别的网络流量进行预处理,对预处理后的网络流量进行正常流量和异常流量的分类,识别出异常行为。/n

【技术特征摘要】
1.一种基于自动编码器的网络流量异常行为识别方法,包括以下步骤:
1)使用自动编码器来构建稀疏异常入侵检测模型SAIDS;
2)对SAIDS模型进行训练,步骤包括:
SAIDS模型对原始训练数据进行预处理,对预处理后的训练数据采用综合少数过采样方法来平衡流量数据中正常流量和异常流量的类别分布,得到平衡数据;
根据平衡数据来进行正常流量和异常流量的分类,计算损失值,找出最小损失值对应的模型参数,得到训练好的SAIDS模型;
3)利用训练好的SAIDS模型检测待识别的网络流量,步骤包括:
SAIDS模型对待识别的网络流量进行预处理,对预处理后的网络流量进行正常流量和异常流量的分类,识别出异常行为。


2.如权利要求1所述的方法,其特征在于,原始训练数据包括NSL-KDD数据集和UNSW-NB15数据集。


3.如权利要求1所述的方法,其特征在于,原始训练数据带有正常流量和异常流量的类别标签。


4.如权利要求1所述的方法,其特征在于,通过预处理得到标准化数据,预处理包括将符号数据使用one-hot编码转换为数值型数据,并对数值型数据进行归一化...

【专利技术属性】
技术研发人员:蹇诗婕姜波卢志刚刘玉岭杜丹刘宝旭
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1