【技术实现步骤摘要】
本专利技术涉及DBSCAN聚类算法
,特别是一种流数据的多分区聚类预处理方法。
技术介绍
随着大数据时代的到来,数据逐渐已数据流的形式传递。流数据具有以下四个特点:1)数据实时到达;2)数据到达次序独立,不受应用系统所控制;3)数据规模宏大且不能预知其最大值;4)数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵。流数据的以上特点,也随之带来安全审计数据的膨胀。数据挖掘本身是一项通用的知识发现技术,其目的是要从海量数据中提取出我们所感兴趣的数据信息(知识),因此将数据挖掘技术应用于对审计数据的分析可以从包含了大量冗余信息的数据中提取出尽可能多的隐藏的安全信息。数据挖掘技术中包括统计、分类、聚类、关联、序列分析、群集分析等方法。其中,数据挖掘中的关联规则算法、序列模式算法和分类算法已经用在了日志分析和入侵检测中,但是这些方法在正确分区上仍然存在着很多不足之处。采用聚类分析日志是解决数据量大,信息匮乏,发现新入侵模式的一种可取的数据预处理方法。改进了传统的生成包分析,SVM等小样本取样的数据挖掘的不足。大规模数据库的聚类时,数据分区可以带来聚类结果的优化,因此,要提高聚类效率,合理的进行数据分区是关键。改进数据分区是聚类算法的一个重要子课题,具有广阔的应用前景,较高的学术价值和理论研究意义。在通用的基于密度的聚类算法DBSCAN算法中,存在着两个弱点:一是在对数据聚类过程中要将整个数据库装入内存,当数据量很大时,算法的效率会急剧下降。二是当空间聚类的密度不均匀时,聚类间距离相差很大,聚类质量较差。在改进的基于网格和基于密度的聚 ...
【技术保护点】
一种流数据的多分区聚类预处理方法,其特征在于,包括以下步骤:步骤1,确定流数据态势因子的范围,并根据态势因子与网络安全态势的关联度,对流数据态势因子进行筛选;步骤2,根据筛选得到的态势因子,将流数据库划分为多个分区;步骤3,对每个分区,分别使用DBSCAN算法进行局部聚类;步骤4,合并各局部聚类,得到流数据的多分区聚类预处理结果。
【技术特征摘要】
1.一种流数据的多分区聚类预处理方法,其特征在于,包括以下步骤:步骤1,确定流数据态势因子的范围,并根据态势因子与网络安全态势的关联度,对流数据态势因子进行筛选;步骤2,根据筛选得到的态势因子,将流数据库划分为多个分区;步骤3,对每个分区,分别使用DBSCAN算法进行局部聚类;步骤4,合并各局部聚类,得到流数据的多分区聚类预处理结果。2.根据权利要求1所述的流数据的多分区聚类预处理方法,其特征在于:步骤1所述确定流数据态势因子的范围,并根据态势因子与网络安全态势的关联度,对流数据态势因子进行筛选,具体如下:(1)确定流数据态势因子的范围;(2)用随时刻K变化的态势数列和态势因子数列分别作为参考数列和比较数列;(3)对所述参考数列和比较数列进行无量纲化处理;(4)确定K时刻所述参考数列与比较数列的灰色关联系数εi(K),公式如下:ϵi(K)=minimink|X0(0)(K)-Xi(0)(K)|+ρmaximaxk|X0(0)(K)-Xi(0)(K)||X0(0)(K)-Xi(0)(K)|+ρmaximaxk|X0(0)(K)-Xi(0)(K)|]]>式中,ρ是分辨系数,ρ∈[0,∞);K=1,2,…,L表示L个时刻中第K个时刻;i=1,2,...m表示第i个因子;(5)计算态势因子与网络安全态势的关联度ρ0,i,公式如下:ρ0,i=1LΣK=1Lϵi(K)]]>(6)对流数据态势因子进行筛选,当所述关联度ρ0,i大于阈值的时候,选用该流数据态势因子,否则剔除。3.根据权利要求1所述的流数据的多分区聚类预处理方法,其特征在于,步骤2所述根据筛选得到的态势因子,将流数据库划分为多个分区,具体为:(1)高维数据分区;对于高维数据,对筛选出的态势因子进行单因子方差分析;经过统计分析,若因子A不显著,则标记为高关联度因子,若A显著,则标记为低关联度因子;其中,对高关联度因子采用...
【专利技术属性】
技术研发人员:王烁,李千目,戚湧,王印海,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。