一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法技术

技术编号：12573823 阅读：64 留言：0更新日期：2015-12-23 14:34

一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法，包括如下步骤：1)网格预处理过程：将数据对象所在d维的数据空间进化划分，由于混合属性包含数值型属性和分类型属性，将每一维数值型数据按照网格粒度的大小划分为P个等分的区间，再将每一维分类型数据按其域内可能取值数量进行划分，将数据空间划分为若干互不相交的超方体，每一个矩形网格单元描述为S1,j1×S2,j2×...×Sd,jd，其中属性Si,i＜d为数据空间S上的一个属性，下标ji表示在Si该维上所取得的区间；2)在线网格维护过程；3)离线聚类过程。本发明专利技术提供了一种聚类质量较高、处理边缘网络能力较强的基于网格的加强聚簇边缘检测的混合属性数据流聚类方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于涉及混合数据流的聚类方法，针对混合属性数据流聚类目前存在的问题，提出了，其中既包含了数值属性数据和分类属性数据，实现了对任意形状、包含离群点和簇个数自动确定的数据流聚类方法。
技术介绍
随着通信技术和硬件设备的不断发展，数据流挖掘技术在实时监控系统、气象卫星遥感、网络通信量监测等方面有着巨大应用前景，针对数据流快速连续到达、持续增长、动态变化的特点，传统聚类算法无法适用于数据流对象，数据流对聚类算法提出了如下新的要求:1.对自然簇个数无须假设；2.能够发现任意形状的簇；3.具有处理离群点的能力。而且面对现实中的大部分数据流都是混合属性数据流，其中既包含了数值属性数据和分类属性数据，如何有效的从这种混合属性的数据流中挖掘出具有价值的信息已显得尤为重要。基于网格的聚类算法也是一种重要的聚类方法，此类方法的共同点是先对数据集进行网格化处理，即将每个属性维的取值区间划分成相邻的多个小区间，于是不同属性的小区间交织成了网格单元，所有的数据点都落入相应的网格单元。基于网格的方法需要统计网格单元的相关信息，常见的是统计落入网格内的数据对象的数目，即一般定义的网格密度，然后把相邻的密度较大的网格不断合并，组成一个聚簇。由于扫描一遍数据就可以确定网格单元密度，而且只需要考虑非空网格，因此这类方法能有效提高聚类效率。近年来数据聚类研究工作广泛展开，研究者们提出了较多新颖的基于网格的数据流聚类算法。Cao等提出了一种单次扫描数据流聚类算法DUCstream算法，该算法将数据空间划分为多个单元，并保留密度较高的单元，...

【技术保护点】
一种基于网格的加强聚簇边缘检测的混合属性数据流聚类方法，其特征在于：所述聚类方法包括如下步骤：1)网格预处理过程：将数据对象所在d维的数据空间进化划分，由于混合属性包含数值型属性和分类型属性，将每一维数值型数据按照网格粒度的大小划分为P个等分的区间，再将每一维分类型数据按其域内可能取值数量进行划分，将数据空间划分为若干互不相交的超方体，每一个矩形网格单元描述为S1,j1×S2,j2×...×Sd,jd，其中属性Si,i＜d为数据空间S上的一个属性，下标ji表示在Si该维上所取得的区间；2)在线网格维护过程2.1当新数据点到达时，按照新数据点每一维上对应的数据，将其映射到相应的网格中。假设数据对象x＝(x1,x2,...,xd)被映射到单元网格g(x)＝(j1,j2,...,jd)，则对于x的任意一维必然满足若在现有的网格中匹配不到对象网格，则新建一个网格，将数据对象x映射到其中，在所有现存的非空网格中，搜索新建网格的直接相邻网格，若找到新建网格的直接相邻网格，则分别将新建网格和其直接相邻网格加入到对方的直接相邻网格集合内；2.2当新数据对象x被映射到相应网格g(x)中时，则对网格g(x...

【技术特征摘要】

【专利技术属性】
技术研发人员：陈晋音，何辉豪，陈军敢，杨东勇，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人