一种流数据的多分区聚类预处理方法技术

技术编号:15188385 阅读:90 留言:0更新日期:2017-04-19 13:41
本发明专利技术公开了一种流数据的多分区聚类预处理方法,步骤包括:对流数据的态势因子进行筛选并计算关联度:对流数据进行统计分析,对高维数据库中高关联度因子采用低维数据库分区方法,低关联度因子采用等距三角分区;对低维数据库采用基于分布的分区方法;在每一规则分区内采用基于密度的聚类算法DBSCAN算法进行聚类;将各局部聚类进行合并。本发明专利技术对流数据的聚类预处理进行了多分区的改进,使数据分布更均匀,聚类结果更精确,实现了对数据的分布式并行处理,缓解了面对顺序、大量、快速、连续到达的数据序列时数据预处理效率不高的压力。

【技术实现步骤摘要】

本专利技术涉及DBSCAN聚类算法
,特别是一种流数据的多分区聚类预处理方法。
技术介绍
随着大数据时代的到来,数据逐渐已数据流的形式传递。流数据具有以下四个特点:1)数据实时到达;2)数据到达次序独立,不受应用系统所控制;3)数据规模宏大且不能预知其最大值;4)数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵。流数据的以上特点,也随之带来安全审计数据的膨胀。数据挖掘本身是一项通用的知识发现技术,其目的是要从海量数据中提取出我们所感兴趣的数据信息(知识),因此将数据挖掘技术应用于对审计数据的分析可以从包含了大量冗余信息的数据中提取出尽可能多的隐藏的安全信息。数据挖掘技术中包括统计、分类、聚类、关联、序列分析、群集分析等方法。其中,数据挖掘中的关联规则算法、序列模式算法和分类算法已经用在了日志分析和入侵检测中,但是这些方法在正确分区上仍然存在着很多不足之处。采用聚类分析日志是解决数据量大,信息匮乏,发现新入侵模式的一种可取的数据预处理方法。改进了传统的生成包分析,SVM等小样本取样的数据挖掘的不足。大规模数据库的聚类时,数据分区可以带来聚类结果的优化,因此,要提高聚类效率,合理的进行数据分区是关键。改进数据分区是聚类算法的一个重要子课题,具有广阔的应用前景,较高的学术价值和理论研究意义。在通用的基于密度的聚类算法DBSCAN算法中,存在着两个弱点:一是在对数据聚类过程中要将整个数据库装入内存,当数据量很大时,算法的效率会急剧下降。二是当空间聚类的密度不均匀时,聚类间距离相差很大,聚类质量较差。在改进的基于网格和基于密度的聚类算法中,也仍然存在处理的数据量范围庞大,导致聚类效率不高的问题
技术实现思路
本专利技术的目的在于提供一种使数据分布更均匀、聚类结果更精确的流数据的多分区聚类预处理方法,从而实现对数据的分布式并行处理。实现本专利技术目的的技术解决方案为:一种流数据的多分区聚类预处理方法,包括以下步骤:步骤1,确定流数据态势因子的范围,并根据态势因子与网络安全态势的关联度,对流数据态势因子进行筛选;步骤2,根据筛选得到的态势因子,将流数据库划分为多个分区;步骤3,对每个分区,分别使用DBSCAN算法进行局部聚类;步骤4,合并各局部聚类,得到流数据的多分区聚类预处理结果。进一步地,步骤1所述确定流数据态势因子的范围,并根据态势因子与网络安全态势的关联度,对流数据态势因子进行筛选,具体如下:(1)确定流数据态势因子的范围;(2)用随时刻K变化的态势数列和态势因子数列分别作为参考数列和比较数列;(3)对所述参考数列和比较数列进行无量纲化处理;(4)确定K时刻所述参考数列与比较数列的灰色关联系数εi(K),公式如下:式中,ρ是分辨系数,ρ∈[0,∞);K=1,2,…,L表示L个时刻中第K个时刻;i=1,2,...m表示第i个因子;(5)计算态势因子与网络安全态势的关联度ρ0,i,公式如下:(6)对流数据态势因子进行筛选,当所述关联度ρ0,i大于阈值的时候,选用该流数据态势因子,否则剔除。进一步地,步骤2所述根据筛选得到的态势因子,将流数据库划分为多个分区,具体为:(1)高维数据分区;对于高维数据,对筛选出的态势因子进行单因子方差分析;经过统计分析,若因子A不显著,则标记为高关联度因子,若A显著,则标记为低关联度因子;其中,对高关联度因子采用基于分布的分区方式,对低关联度因子采取等距的三角分区方式;(2)低维数据分区对于低维数据采用随机取样算法对整个数据库进行取样,采用直方图方法统计分析采样点投影在X轴和Y轴上的数据分布特性,确定在哪一维上进行分区、分区的数量以及分区的边界。进一步地,步骤3所述对每个分区,分别使用DBSCAN算法进行局部聚类,具体过程如下:(1)构建分区自身的R*树;(2)建立k-dist图;(3)选取局部扫描半径Eps值,使用DBSCAN算法进行局部聚类。进一步地,步骤4所述合并各局部聚类,具体过程如下:(1)两个类A和B的合并;(2)归并噪声点;(3)由噪声点产生新类。进一步地,所述对低关联度因子采取等距的三角分区方式,具体步骤如下:(a)给定一个d维的数据集D=(D1,D2,……Dd),设第e维上的属性值分布在区间[we,he)中,其中e=1,2,……,d,则S=[w1,h1)×[w2,h2)×...[wd,hd)表示该e维数据空间;(b)将数据空间的每一维划分成长度相等的t段,这样来自于每一维的一个段相交形成一个矩形,称为网格单元;网格单元Ce表示为Ce1,Ce2,...Ced,Cej=[wej,hej)是一个左闭右开的区间,表示Dj(j=1,2,……,d)上的一个段;(c)再取每个矩形的与X轴正方向成锐角的对角线,对矩形进行分割,形成三角单元Te(Te1,Te2,...Ted)。进一步地,所述两个类A和B合并,必须满足当且仅当:(a)A、B分别处于相邻的两个分区PA、PB中;(b)设Eps(PA),Eps(PB)分别是PA,PB的Eps邻域半径值,Eps(PA,PB)=min{Eps(PA),Eps(PB)本文档来自技高网
...
一种流数据的多分区聚类预处理方法

【技术保护点】
一种流数据的多分区聚类预处理方法,其特征在于,包括以下步骤:步骤1,确定流数据态势因子的范围,并根据态势因子与网络安全态势的关联度,对流数据态势因子进行筛选;步骤2,根据筛选得到的态势因子,将流数据库划分为多个分区;步骤3,对每个分区,分别使用DBSCAN算法进行局部聚类;步骤4,合并各局部聚类,得到流数据的多分区聚类预处理结果。

【技术特征摘要】
1.一种流数据的多分区聚类预处理方法,其特征在于,包括以下步骤:步骤1,确定流数据态势因子的范围,并根据态势因子与网络安全态势的关联度,对流数据态势因子进行筛选;步骤2,根据筛选得到的态势因子,将流数据库划分为多个分区;步骤3,对每个分区,分别使用DBSCAN算法进行局部聚类;步骤4,合并各局部聚类,得到流数据的多分区聚类预处理结果。2.根据权利要求1所述的流数据的多分区聚类预处理方法,其特征在于:步骤1所述确定流数据态势因子的范围,并根据态势因子与网络安全态势的关联度,对流数据态势因子进行筛选,具体如下:(1)确定流数据态势因子的范围;(2)用随时刻K变化的态势数列和态势因子数列分别作为参考数列和比较数列;(3)对所述参考数列和比较数列进行无量纲化处理;(4)确定K时刻所述参考数列与比较数列的灰色关联系数εi(K),公式如下:ϵi(K)=minimink|X0(0)(K)-Xi(0)(K)|+ρmaximaxk|X0(0)(K)-Xi(0)(K)||X0(0)(K)-Xi(0)(K)|+ρmaximaxk|X0(0)(K)-Xi(0)(K)|]]>式中,ρ是分辨系数,ρ∈[0,∞);K=1,2,…,L表示L个时刻中第K个时刻;i=1,2,...m表示第i个因子;(5)计算态势因子与网络安全态势的关联度ρ0,i,公式如下:ρ0,i=1LΣK=1Lϵi(K)]]>(6)对流数据态势因子进行筛选,当所述关联度ρ0,i大于阈值的时候,选用该流数据态势因子,否则剔除。3.根据权利要求1所述的流数据的多分区聚类预处理方法,其特征在于,步骤2所述根据筛选得到的态势因子,将流数据库划分为多个分区,具体为:(1)高维数据分区;对于高维数据,对筛选出的态势因子进行单因子方差分析;经过统计分析,若因子A不显著,则标记为高关联度因子,若A显著,则标记为低关联度因子;其中,对高关联度因子采用...

【专利技术属性】
技术研发人员:王烁李千目戚湧王印海
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1