【技术实现步骤摘要】
本专利技术涉及数据挖掘、聚类分析、高维数据聚类等
,具体涉及一种基于集合特征向量的快速聚类方法和装置。
技术介绍
聚类是数据挖掘领域最为常见的任务之一,用于发现在数据集中未知的对象类。对高维数据的处理能力是聚类研究的一个重要内容。许多聚类算法在维数比较低的情况下能够生成质量比较高的聚类结果,却难以应用于高维数据的情况,有时甚至可能会产生错误的聚类结果。在提出本专利技术之前,我们已经在高维数据挖掘领域,特别是高维稀疏数据挖掘领域,提出了一个有效的算法——CAB0SFV聚类算法。CAB0SFV算法从集合的角度定义了一种新的差异度计算方法,称为“稀疏特征差异度(Sparse Feature Distance, SFD)”以此反映一个集合内部对象间的相似程度,并通过新定义的一个概念“稀疏特征向量(Sparse Feature Vector, SFV)”来概括一个对象集合所包含的全部聚类相关信息,可以方便地计算集合内对象的相似程度。稀疏特征向量能够对数据进行有效压缩,使得数据处理量大大减少,并且只需进行一次数据扫描就可以生成聚类结果。CAB0SFV聚类算法中差异度的计算是基于集合给出的,其定义如下:集合的稀疏差异度:假设有η个对象,描述每个对象的属性有m个,Y为其中的一个对象子集,其中的对象个数 可以用|γ|表示,在该子集中所有对象稀疏特征取值皆为I的属性个数为a(0 < a < m),稀 疏特征取值不全相同的属性个数为e (O < e < m),则集合Y的稀疏差异度SFD(Y)定义为:
【技术保护点】
一种基于集合特征向量的快速聚类方法,其特征在于,包括以下步骤:(1)数据属性转换步骤:将输入的混合属性数据转化为二值属性;(2)数据排序步骤:按照对象稀疏性指数或不干涉序列指数对数据进行排序;(3)初次聚类步骤:该步骤包括两个子步骤:首先,令排序后的第一个对象单独成类,得到其集合特征向量,然后,顺序扫描其余待聚类对象,如果将当前扫描到的对象并入任何一个已经创建的类中,都会使得并入后的集合差异度大于集合差异度上限b1,则创建一个新类,该新类仅包含当前扫描到的对象;否则,将当前对象并入使得并入后集合差异度最小的类中,并更新该类的集合特征向量;(4)二次聚类步骤:将初次聚类步骤得到的初次聚类结果作为输入进行二次聚类。然后去除聚类结果中的孤立点,得到最终聚类结果。
【技术特征摘要】
1.一种基于集合特征向量的快速聚类方法,其特征在于,包括以下步骤: (1)数据属性转换步骤:将输入的混合属性数据转化为二值属性; (2)数据排序步骤:按照对象稀疏性指数或不干涉序列指数对数据进行排序; (3)初次聚类步骤:该步骤包括两个子步骤: 首先,令排序后的第一个对象单独成类,得到其集合特征向量, 然后,顺序扫描其余待聚类对象,如果将当前扫描到的对象并入任何一个已经创建的类中,都会使得并入后的集合差异度大于集合差异度上限h,则创建一个新类,该新类仅包含当前扫描到的对象;否则,将当前对象并入使得并入后集合差异度最小的类中,并更新该类的集合特征向量; (4)二次聚类步骤:将初次聚类步骤得到的初次聚类结果作为输入进行二次聚类。然后去除聚类结果中的孤立点,得到最终聚类结果。2.根据权利要求1所述的方法,其特征在于,所述步骤2)中的对象稀疏性指数是指对象属性中取值为I的个数;所述不干涉序列指数是指不干涉序列与对象的属性的内积,其计算方法如下:设一个二值属性数据集X有η个对象,每个对象共有m个属性。X为数据集X中的一个对象,其属性值分别为(I1(X), d2(x),…,dm(x), ((Ii(X)=O或I, i=l, 2,..., m),则对象 X 的不干涉序列指数为:Q(X7M)=Cl1 (X) MJd2 (X) M2+...+(!_ (X) Mm 其中(M1, M2,…,Mm)为某选定的不干涉序列M= (M1, M2, M3,…,Mi,…)的前m项。3.根据权利要求1所述的方法,其特征在于,所述步骤3)中的集合特征向量是指集合内所有对象参与聚类所需的相关信息的特征表示向量,其定义如下:设一个二值属性数据集有η个对象,描述每个对象的 属性有m个,Y为其中的一个对象子集,其中的对象个数可以用IyI表示,在该子集中所有对象取值皆为I的属性个数为a(0<a<m),对应的属性序号为j2,...,ja,取值不全相同的属性个数为e (O彡e彡m),对应的属性序号为kp K2,…,ke,则向量SFV⑴=(I Y|,S(Y),NS(Y),SD(Y))称为对象集合Y的集合特征向量。其中S(Y)为Y中所有对象取值都为I的属性序号集合,NS (Y)为取值不全相同的属性序号集合,SD (Y)为集合差异度;所述集合差异度是指集合内对象间的差异程度,其计算方法如下:设一个二值属性数据集有η个对象,描述每个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。