一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法技术

技术编号:12573823 阅读:64 留言:0更新日期:2015-12-23 14:34
一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法,包括如下步骤:1)网格预处理过程:将数据对象所在d维的数据空间进化划分,由于混合属性包含数值型属性和分类型属性,将每一维数值型数据按照网格粒度的大小划分为P个等分的区间,再将每一维分类型数据按其域内可能取值数量进行划分,将数据空间划分为若干互不相交的超方体,每一个矩形网格单元描述为S1,j1×S2,j2×...×Sd,jd,其中属性Si,i<d为数据空间S上的一个属性,下标ji表示在Si该维上所取得的区间;2)在线网格维护过程;3)离线聚类过程。本发明专利技术提供了一种聚类质量较高、处理边缘网络能力较强的基于网格的加强聚簇边缘检测的混合属性数据流聚类方法。

【技术实现步骤摘要】

本专利技术属于涉及混合数据流的聚类方法,针对混合属性数据流聚类目前存在的问 题,提出了,其中既包含了 数值属性数据和分类属性数据,实现了对任意形状、包含离群点和簇个数自动确定的数据 流聚类方法。
技术介绍
随着通信技术和硬件设备的不断发展,数据流挖掘技术在实时监控系统、气象卫 星遥感、网络通信量监测等方面有着巨大应用前景,针对数据流快速连续到达、持续增长、 动态变化的特点,传统聚类算法无法适用于数据流对象,数据流对聚类算法提出了如下新 的要求:1.对自然簇个数无须假设;2.能够发现任意形状的簇;3.具有处理离群点的能 力。而且面对现实中的大部分数据流都是混合属性数据流,其中既包含了数值属性数据和 分类属性数据,如何有效的从这种混合属性的数据流中挖掘出具有价值的信息已显得尤为 重要。 基于网格的聚类算法也是一种重要的聚类方法,此类方法的共同点是先对数据集 进行网格化处理,即将每个属性维的取值区间划分成相邻的多个小区间,于是不同属性的 小区间交织成了网格单元,所有的数据点都落入相应的网格单元。基于网格的方法需要统 计网格单元的相关信息,常见的是统计落入网格内的数据对象的数目,即一般定义的网格 密度,然后把相邻的密度较大的网格不断合并,组成一个聚簇。由于扫描一遍数据就可以确 定网格单元密度,而且只需要考虑非空网格,因此这类方法能有效提高聚类效率。 近年来数据聚类研究工作广泛展开,研究者们提出了较多新颖的基于网格的数据 流聚类算法。Cao等提出了一种单次扫描数据流聚类算法DUCstream算法,该算法将数据空 间划分为多个单元,并保留密度较高的单元,提高了算法的效率,但一定程度上牺牲了算法 精度。Chen和Tu等人提出了 D-Stream算法,将输入的数据映射到相应的网格,算法引入 了带衰减因子的密度计算法,能够实时调整数据流的进化特征,实现高效网格密度聚类,但 网格方法丢失了空间位置信息,处理边缘能力较差,聚类效果受网格粒度影响较大;也有研 究在D-Stream框架上引入网格之间的吸引力的概念,有效解决了空间位置信息丢失问题, 同时算法复杂度大大增加,使得算法运行效率急剧下降。Wan等提出了一种多尺度的基于网 格密度的数据流聚类算法MR-Stream,该算法能够对单元网格进行细分,并采用一种树结构 对网格进行维护,提高了聚类的性能。有研究提出了一种基于网格密度的高维数据流聚类 算法PKS-Stream,算法根据高维数据网格空间稀疏的性质,利用PKS树结构来记录非空网 格及网格关系。算法能够有效处理高维数据,然而,PKS-Stream对树结构并不采用任何修 剪操作,无法区分历史数据和新数据的重要性,同时算法对于K层选择较为敏感。有研究提 出了一张基于网格密度的不确定数据流聚类算法DCUStream,该算法提高了对不确定数据 流的聚类性能,对在算法执行过程中,对核密度网格和其相邻网格的搜索增加了算法的计 算复杂度。有研究提出了一种完全聚类的混合属性数据流聚类算法EXCC,该算法能够根据 数据流流速自动调整对数据的衰减速度,并采用等待和观察策略来检测离群点噪声。算法 具有较好的鲁棒性,能够有效处理混合属性数据流数据,然而,算法采用的队形策略对内存 与时间消耗有更大的需求。周晓云等提出了一种基于子空间的高维数据流聚类及演化分析 算法CAStream,该算法对数据空间进行网格化,采用近似的方法记录网格单元的统计信息, 并将潜在密集网格单元快照以改进的金字塔时间结构进行存储,最后采用深度优先搜索方 法进行聚类及其演化分析。
技术实现思路
为了克服已有混合属性聚类方法的聚类质量较低、处理边缘网格能力较差的不 足,本专利技术提供了一种聚类质量较高、处理边缘网络能力较强的基于网格的加强聚簇边缘 检测的混合属性数据流聚类方法。 本专利技术解决其技术问题所采用的技术方案是: -种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法,所述聚类方法包 括如下步骤: 1)网格预处理过程:将数据对象所在d维的数据空间进化划分,由于混合属性包 含数值型属性和分类型属性,将每一维数值型数据按照网格粒度的大小划分为P个等分的 区间,再将每一维分类型数据按其域内可能取值数量进行划分,将数据空间划分为若干互 不相交的超方体,每一个矩形网格单元描述为Sli η X S2i j2X... X S4 jd,其中属性S1, i <(!为 数据空间S上的一个属性,下标J1表示在S ^亥维上所取得的区间; 2)在线网格维护过程 2. 1当新数据点到达时,按照新数据点每一维上对应的数据,将其映射到相应的网 格中,假设数据对象X = (Xi,x2, . . .,Xd)被映射到单元网格g (X) = (·?ι,i,. . .,jd),则对于 X的任意一维必然满足·e 5; A,若在现有的网格中匹配不到对象网格,则新建一个网格,将 数据对象X映射到其中,在所有现存的非空网格中,搜索新建网格的直接相邻网格,若找到 新建网格的直接相邻网格,则分别将新建网格和其直接相邻网格加入到对方的直接相邻网 格集合内; 2. 2当新数据对象X被映射到相应网格g(x)中时,则对网格g(x)的特征向量进行 更新,更新操作如下: 其中为数据对象数值属性的线性和,H为一个向量,代表分类 属性中每一个属性的频度,T1记录网格最后一次更新的时间,D(g,T)为网格在T时刻更新 的密度值,r和q分别代表数值属性和分类属性; 若对应的网格g(x)是稀疏网格,则在新加入一个数据对象,并更新其网格密度 后,对网格g(x)的网格密度进行判断,若D(g,t) 将网格g(x)标记为密集网格, 设置其 Dlabel = Dense ; 2. 3将一个密集网格衰减为稀疏网格的最小时间作为检测的时间间隔,设置其检 测时间TimeGap如下: 其中Dthred是密度阈值,λ是衰减因子; 每隔TimeGap时间,对所有网格进行检测,若密集网格的密度不断衰减,而使得其 密度值小于权值,即D (g,TJ < Dthrad,则意味着该密集网格已经退化为离群点噪声,将其删 除释放空间来存储新的网格; 3)离线聚类过程: 3. 1从数据空间中寻找到一个密集网格g,以网格g为本次聚类的起始点开始聚类 过程; 3. 2按照广度优先搜索原则,寻找到密集网格g直接相邻的网格gl,然后对每个gl网格单元继续进行广度优化搜索,直到所有到网格g相邻可达的网格单元到被搜索为止; 3. 3当检测到边缘网格时,需要进行进一步的处理,检测该边缘网格是否是争议网 格,若为争议网格,则计算争议网格内数据对象到吸引其的直接近邻网格中心的平均距离, 将其划分到距离其最近的直接相邻网格内; 3. 4当一次聚类过程结束时,从剩余的未聚类网格中找出新的密集网格,则重复 3. 1-3. 3步骤继续聚类。若不存在任何未被聚类密集网格,则跳到步骤3. 5 ; 3. 5输出离线聚类的最终结果,输出结果并结束。 进一步,所述步骤2. 3中,对稀疏网格的密度检测策略为:陈旧的网格表明该聚类 代表的模式已经过时,不能描述当前数据,即如果T-I\> Θ 时,其中T。表 示当前时间,T。表示网格创建时间,T 1表示网格最后一次更新的时间,那么该网格本文档来自技高网
...

【技术保护点】
一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法,其特征在于:所述聚类方法包括如下步骤:1)网格预处理过程:将数据对象所在d维的数据空间进化划分,由于混合属性包含数值型属性和分类型属性,将每一维数值型数据按照网格粒度的大小划分为P个等分的区间,再将每一维分类型数据按其域内可能取值数量进行划分,将数据空间划分为若干互不相交的超方体,每一个矩形网格单元描述为S1,j1×S2,j2×...×Sd,jd,其中属性Si,i<d为数据空间S上的一个属性,下标ji表示在Si该维上所取得的区间;2)在线网格维护过程2.1当新数据点到达时,按照新数据点每一维上对应的数据,将其映射到相应的网格中。假设数据对象x=(x1,x2,...,xd)被映射到单元网格g(x)=(j1,j2,...,jd),则对于x的任意一维必然满足若在现有的网格中匹配不到对象网格,则新建一个网格,将数据对象x映射到其中,在所有现存的非空网格中,搜索新建网格的直接相邻网格,若找到新建网格的直接相邻网格,则分别将新建网格和其直接相邻网格加入到对方的直接相邻网格集合内;2.2当新数据对象x被映射到相应网格g(x)中时,则对网格g(x)的特征向量进行更新,更新操作如下:g.CF1=g.CF1+X.r,g.H=g.H+X.q,g.Tl=T,D(g,T)=2-λ(T-t1)D(g,t1)+1.---(1)]]>其中为数据对象数值属性的线性和,H为一个向量,代表分类属性中每一个属性的频度,Tl记录网格最后一次更新的时间,D(g,T)为网格在T时刻更新的密度值,r和q分别代表数值属性和分类属性;若对应的网格g(x)是稀疏网格,则在新加入一个数据对象,并更新其网格密度后,对网格g(x)的网格密度进行判断,若D(g,t)>Dthred则将网格g(x)标记为密集网格,设置其Dlabel=Dense;2.3将一个密集网格衰减为稀疏网格的最小时间作为检测的时间间隔,设置其检测时间TimeGap如下:TimeGap=1λlog(DthredDthred-1)---(2)]]>其中Dthred是密度阈值,λ是衰减因子;每隔TimeGap时间,对所有网格进行检测,若密集网格的密度不断衰减,而使得其密度值小于权值,即D(g,Tc)<Dthred,则意味着该密集网格已经退化为离群点噪声,将其删除释放空间来存储新的网格;3)离线聚类过程:3.1从数据空间中寻找到一个密集网格g,以网格g为本次聚类的起始点开始聚类过程;3.2按照广度优先搜索原则,寻找到密集网格g直接相邻的网格gi,然后对每个gi网格单元继续进行广度优化搜索,直到所有到网格g相邻可达的网格单元到被搜索为止;3.3当检测到边缘网格时,需要进行进一步的处理,检测该边缘网格是否是争议网格,若为争议网格,则计算争议网格内数据对象到吸引其的直接近邻网格中心的平均距离,将其划分到距离其最近的直接相邻网格内;3.4当一次聚类过程结束时,从剩余的未聚类网格中找出新的密集网格,则重复3.1‑3.3步骤继续聚类,若不存在任何未被聚类密集网格,则跳到步骤3.5;3.5输出离线聚类的最终结果,输出结果并结束。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈晋音何辉豪陈军敢杨东勇
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1