一种网络入侵检测方法技术

技术编号:28322005 阅读:20 留言:0更新日期:2021-05-04 13:02
本发明专利技术公开了一种网络入侵检测方法,对KDD cup99数据集中的数据实施数值化处理,并进行数值标准化;划分数据集为训练集和测试集;选取测试集数据,计算其与训练集中各数据的欧式距离;选取距离最小的K条训练集数据,统计所述K条训练数据集数据所在的类别出现的频率;将出现频率最高的类别作为被选取测试集数据的预测分类;采用ROC曲线计算正确分类与错误分类的比例,选取准确度最高的K值。本发明专利技术基于KDD Cup 99数据集训练得到正常数据和入侵数据的模型,不仅可以根据模型检测识别已知类型的网络攻击,还可以通过实时数据流与训练模型的差异,对可能存在的未知的网络攻击加以区分,有助于及时发现并采取相应的防护措施。

【技术实现步骤摘要】
一种网络入侵检测方法
本专利技术属于网络安全
,具体地说,是涉及一种网络攻击检测方法。
技术介绍
近年来,随着网络入侵检测技术的发展,以及得益于人工智能的快速发展,基于新型机器学习算法的入侵检测也逐渐成为人们研究的热点。KDDCup99数据集自从诞生以来,就被当做评估各种入侵检测算法在性能和漏检误检率方面优劣的标准。然而,目前对于KDDCup99数据集的应用与研究,由于数据集中每条网络连接的41个特征属性的一部分存在提取难度较大的问题,使得研究还仅限于对分类器效能的评估与离线入侵检测,对于在实际网络环境中的应用还没有具体方法。
技术实现思路
本专利技术的目的在于提供一种网络攻击检测方法,解决实际网络环境中特征提取困难的问题,为在真实网络环境中运用KDDCup99数据集实现在线入侵检测奠定基础。本专利技术采用以下技术方案予以实现:提出一种网络入侵检测方法,包括:对KDDcup99数据集中的数据实施数值化处理,并进行数值标准化;划分数据集为训练集和测试集;选取测试集数据,计算其与训练集中各数据的欧式距离;选取距离最小的K条训练集数据,统计所述K条训练数据集数据所在的类别出现的频率;将出现频率最高的类别作为被选取测试集数据的预测分类;采用ROC曲线计算正确分类与错误分类的比例,选取准确度最高的K值。进一步的,对KDDCup99数据集中的样本实施数值化处理包括:将字符特征转换为数值;以数据为行,特征数值为列建立数据矩阵。进一步的,进行数值标准化,包括:采用计算各特征的平均值;其中,xik表示第i条数据的第k个特征;采用计算各特征的平均绝对误差;采用对每条数据的每个特征进行标准化度量;采用将标准化后的每个数据归一化到[0,1]区间,其中,max为数据特征的最大值,min为数据特征的最小值。与现有技术相比,本专利技术的优点和积极效果是:本专利技术提出的网络入侵检测方法,基于KDDCup99数据集训练得到正常数据和入侵数据的模型,不仅可以根据模型检测识别已知类型的网络攻击,还可以通过实时数据流与训练模型的差异,对可能存在的未知的网络攻击加以区分,有助于及时发现并采取相应的防护措施,并且可以将使用场景中的网络历史数据作为训练集,对模型进行迭代训练,以便更好的适应当前场景。结合附图阅读本专利技术实施方式的详细描述后,本专利技术的其他特点和优点将变得更加清楚。附图说明图1为本专利技术提出的网络入侵检测方法的流程图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步详细的说明。如图1所示,本专利技术提出的网络入侵检测方法,包括:步骤S11:对KDDcup99数据集中的数据实施数值化处理,并进行数值标准化。1、将KDDCup99数据集中,协议类型、网络服务类型、网络连接状态、供给类型等特征的字符串格式转换为数值类型。2、以数据为行,特征数值为列建立数据矩阵。以数据的行数为n,建立一个n行41列的矩阵,将数据文件中的数据读取到矩阵中。3、采用计算各特征的平均值;其中,xik表示第i条数据的第k个特征。4、采用计算各特征的平均绝对误差。5、采用对每条数据的每个特征进行标准化度量;6、采用将标准化后的每个数据归一化到[0,1]区间,其中,max为数据特征的最大值,min为数据特征的最小值。将数据转换为均值为0,方差为1的正态分布。步骤S12:划分数据集为训练集和测试集。将数据按照“60%用于训练,40%用于测试”为比例分成两个集合。步骤S13:选取测试集数据,计算其与训练集中各数据的欧式距离。针对测试集中每个数据i,均计算其与训练集中各数据j的欧式距离Dij。步骤S14:选取距离最小的K条训练集数据。针对每个测试集中的数据i,将与训练集中各数据的欧式距离按照递增次序排序,选取距离最小的前K条训练集数据。步骤S15:统计K条训练数据集数据所在的类别出现的频率。每条数据中的每个特征均具备攻击类别,本步骤中统计K条临近的训练数据所在的类别出现的概率,例如类别1出现概率为10%,类别2出现概率为20%,类别3出现概率为70%等。步骤S16:将出现频率最高的类别作为被选取测试集数据的预测分类。按照上述的实施例,将类别3作为被选取测试数据的预测分类。步骤S17:采用ROC曲线评估,选取准确度最高的K值。采用ROC(ReceiverOperatingCharacteristic,受试者工作特征曲线)计算正确分类与错误分类的比例,调整训练参数K,用以改进模型。通过上述手段建立的模型,不仅可以根据模型检测识别已知类型的网络攻击,还可以通过实时数据流与模型的差异,对可能存在的未知的网络攻击加以区分,有助于及时发现并采取相应的防护措施,并且可以将使用场景中的网络历史数据作为训练集,对模型进行迭代训练,以便更好的适应当前场景。应该指出的是,上述说明并非是对本专利技术的限制,本专利技术也并不仅限于上述举例,本
的普通技术人员在本专利技术的实质范围内所做出的变化、改型、添加或替换,也应属于本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
1.一种网络入侵检测方法,其特征在于,包括:/n对KDD cup 99数据集中的数据实施数值化处理,并进行数值标准化;/n划分数据集为训练集和测试集;/n选取测试集数据,计算其与训练集中各数据的欧式距离;/n选取距离最小的K条训练集数据,统计所述K条训练数据集数据所在的类别出现的频率;/n将出现频率最高的类别作为被选取测试集数据的预测分类;/n采用ROC曲线计算正确分类与错误分类的比例,选取准确度最高的K值。/n

【技术特征摘要】
1.一种网络入侵检测方法,其特征在于,包括:
对KDDcup99数据集中的数据实施数值化处理,并进行数值标准化;
划分数据集为训练集和测试集;
选取测试集数据,计算其与训练集中各数据的欧式距离;
选取距离最小的K条训练集数据,统计所述K条训练数据集数据所在的类别出现的频率;
将出现频率最高的类别作为被选取测试集数据的预测分类;
采用ROC曲线计算正确分类与错误分类的比例,选取准确度最高的K值。


2.根据权利要求1所述的网络入侵检测方法,其特征...

【专利技术属性】
技术研发人员:邓海刚王正徐本锡章森
申请(专利权)人:天博电子信息科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1