一种基于改进密度峰值聚类算法的网络入侵检测方法技术

技术编号：40231507 阅读：10 留言：0更新日期：2024-02-02 22:33

本发明专利技术涉及一种基于改进密度峰值聚类算法的网络入侵检测方法，属于机器学习与计算机网络安全技术领域。该方法包括对网络入侵数据集中的字符型特征编码为数字特征并进行标准化处理，利用主成分分析法对网络入侵数据集进行特征提取，去除冗余数据并降维；对网络入侵数据计算近邻，利用自然邻搜索算法计算达到稳定状态时的k近邻；计算每一个点的密度从而根据密度获取其局部代表点；计算局部代表点之间的距离，并对其应用密度峰值聚类算法获得簇类结果；对每一个聚类簇计算基于簇的离群因子，并将检测出的离群簇作为异常攻击数据。本发明专利技术解决了现有方法常忽略簇状异常点的问题，并克服当前基于聚类的入侵检测方法不能较好的识别流形簇等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习与计算机网络安全，涉及一种基于改进密度峰值聚类算法的网络入侵检测方法。

技术介绍

1、随着大数据和人工智能技术的飞速发展，网络规模不断扩大，这引入了更多的网络安全问题。其中离群点检测在网络入侵检测领域中有重要作用。离群点是指由于不同的机制或不寻常的过程而明显偏离数据集中其他数据点的数据点。网络数据集中的离群点往往由异常的网络攻击产生。基于聚类的网络入侵检测往往应用在离线环境下，在数据规模较小时，基于聚类的入侵检测方法能够很容易的检测出异常点，使用这类方法可以有效的识别突发攻击和孤立攻击。常见的基于聚类的入侵检测技术通常基于k-means、dbscan、密度峰值等聚类方法，这些常规的基于聚类的入侵检测方法应用在带有流行簇的网络入侵数据集时，通常存在不能很好的识别流形簇的问题，从而导致离群点检测结果代表性降低。

2、因此，亟需一种新的网络入侵检测方法来解决以上问题。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种基于改进密度峰值聚类算法的网络入侵检测方法，利用改进密度峰值聚类算法得到的准确聚类结果来提高局部离群因子的代表性，从而提高离群点检测结果的代表性。本专利技术通过对聚类后的簇进行离群程度评估，将一个小簇类作为一个整体来进行评估，与其他针对单点离群值的离群点检测算法相比，本专利技术对检测基于群集的离群值有更好效果。

2、为达到上述目的，本专利技术提供如下技术方案：

3、一种基于改进密度峰值聚类算法的网络入侵检测方法

4、该方法具体包括以下步骤：

5、s1：对一个历史网络入侵数据集进行预处理，包括对数据集中的字符型特征或者标签统一编码为数值型，以及对数值化后数据进行标准化处理；并对标准化处理后的数据应进行数据降维；

6、s2：创建球树基于欧氏距离计算得到数据集r中每一个点pi的有限个最近邻，对球树进行遍历组成一个有序k近邻矩阵和有序距离矩阵；

7、s3：根据步骤s2得到的k近邻矩阵和距离矩阵，利用自然邻搜索算法自适应得到迭代数k；

8、s4：根据密度计算公式对每一个点pi计算其密度rho(pi)，并对其进行排序，获取降序的密度值矩阵以及其索引值矩阵；

9、s5：选取每一个点pi的k近邻中密度最大的点作为点pi的局部代表点core；

10、s6：将具有同一个局部代表点的点pi划分为一个初始模糊子簇；

11、s7：根据公式计算局部代表点core之间的距离，从而获得局部代表点core之间的最短路径；

12、s8：对局部代表点core应用密度峰值聚类算法，构建二维决策图，选取决策中心，将非局部代表点分配到其代表点对应的簇中，以此获得最终聚类簇c1,c2,…,ck；

13、s9：根据要选出的离群点比例a，利用公式计算最后要选取的离群点上限u；

14、s10：根据公式计算簇c1,c2,…,ck的离群因子，对计算结果进行排序，选择最低的n个簇作为最终离群点检测结果，并将其所属簇类认定为异常攻击类型。

15、进一步，步骤s1中，应用主成分分析法对标准化处理后的数据进行数据降维。

16、进一步，步骤s4中，所述密度计算公式为：

17、

18、其中，rho(pi)表示点pi的密度，nk(pi)表示点pi的k个近邻的集合，eu(pi,o)表示点o到点pi之间的欧式距离。

19、进一步，步骤s7中，计算局部代表点core之间的距离的公式为：

20、

21、其中，inset(i,j)表示代表点i的模糊簇与代表点j的模糊簇之间的交集。

22、进一步，步骤s7中，采用floyd算法获取最短路径。

23、进一步，步骤s9中，离群点上限的计算公式为：

24、{|c1|+|c2|+…+|ci-1|≥|r|×a}∩{|c1|+|c2|+…+|ci-2|＜|r|×a}

25、则i对应的簇ci中的点的数量即为离群点上限，其中|c|表示簇中点的个数。

26、进一步，步骤s10中，簇的离群因子的计算公式为：

27、

28、其中，cbof(ci)表示ci簇的离群因子，cj簇是ci簇旁边的假定正常簇；d(ci,cj)的计算公式为：

29、d(ci,cj)＝min{eu(p,q)|p∈ci,q∈cj}

30、其中，d(ci,cj)表示ci簇与cj簇之间的最短距离。

31、本专利技术的有益效果在于：

32、1)本专利技术从历史网络入侵数据集经高维空间映射到低维后得到的流形数据集的特点出发，即降维后的网络入侵数据集中含有复杂流形簇，现有的基于聚类的异常点检测方法难以对其准确识别，改进密度峰值聚类算法引入使得本专利技术在处理网络入侵数据集时有更高的准确度。

33、2)网络入侵数据集存在带有标签的样本数据量不多的问题，现有的基于机器学习的入侵检测模型往往需要大量的带有标签的训练集，这会导致其实用性低；而本专利技术使用的是基于无监督学习的入侵检测模型，在进行入侵检测时，不需要带有标签的样本，这使得本专利技术在应用于网络入侵数据集时有更高的实用性。

34、3)许多单点的异常值与偶发的琐碎事件有关，而簇状的异常值则与一些重要的持久异常事件有关，如一段时间内的异常攻击引起的网络异常事件。本专利技术与基于局部离群点的方法相比，不需要计算每一个点的离群程度，只计算每一个簇的离群程度，降低了时间成本。

35、本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。

本文档来自技高网...

【技术保护点】

1.一种基于改进密度峰值聚类算法的网络入侵检测方法，其特征在于，该方法具体包括以下步骤：

2.根据权利要求1所述的基于改进密度峰值聚类算法的网络入侵检测方法，其特征在于，步骤S1中，应用主成分分析法对标准化处理后的数据进行数据降维。

3.根据权利要求1所述的基于改进密度峰值聚类算法的网络入侵检测方法，其特征在于，步骤S4中，所述密度计算公式为：

4.根据权利要求3所述的基于改进密度峰值聚类算法的网络入侵检测方法，其特征在于，步骤S7中，计算局部代表点core之间的距离的公式为：

5.根据权利要求1所述的基于改进密度峰值聚类算法的网络入侵检测方法，其特征在于，步骤S7中，采用Floyd算法获取最短路径。

6.根据权利要求4所述的基于改进密度峰值聚类算法的网络入侵检测方法，其特征在于，步骤S9中，离群点上限的计算公式为：

7.根据权利要求6所述的基于改进密度峰值聚类算法的网络入侵检测方法，其特征在于，步骤S10中，簇的离群因子的计算公式为：

【技术特征摘要】

1.一种基于改进密度峰值聚类算法的网络入侵检测方法，其特征在于，该方法具体包括以下步骤：

2.根据权利要求1所述的基于改进密度峰值聚类算法的网络入侵检测方法，其特征在于，步骤s1中，应用主成分分析法对标准化处理后的数据进行数据降维。

3.根据权利要求1所述的基于改进密度峰值聚类算法的网络入侵检测方法，其特征在于，步骤s4中，所述密度计算公式为：

4.根据权利要求3所述的基于改进密度峰值聚类算法的网络入侵检测方法，其特征在...

【专利技术属性】
技术研发人员：黄鑫，杨帆，李嫄源，朱智勤，周志浩，安翼尧，陈诗尧，李家兴，龚康，刘秋卓，文斌，刘阳，周嘉靖，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人