一种基于相对最离散维分割的K‑means聚类初始中心选取方法技术

技术编号:17304861 阅读:54 留言:0更新日期:2018-02-18 23:18
本发明专利技术公开了一种基于相对最离散维分割的K‑means聚类初始中心点选取的方法。该方法思路为:给定一个D维的数据集,s1.对数据集进行降维处理;s2.评估降维后的数据集每个维度的离散程度;s3.选择相对最离散维进行分割,依照该维均值点将所有数据分为两类;s4.选取进行分割后的类别中数据点最多的一类,按照s2和s3选取相对最离散维,将其继续按照最离散维均值点处进行分割,依照上述步骤直到分割为所需的类别数为止;s5.对每个分割好的类别中数据求均值;s6.将每个类别的均值进行升维操作,并作为K‑means聚类的初始中心点。本发明专利技术的有益效果是:降维后的数据能减少运算量,加快运算速度,使得K‑means聚类能够以更少的迭代次数达到更高的聚类准确率。

A method of selecting K means clustering center is relatively the most discrete segmentation based on dimension

The invention discloses a method for K means clustering initial center point is relatively the most discrete dimension segmentation based on the selection of the. The method is: given a D dimensional data set, s1. set of data dimensionality reduction; s2. to assess the degree of discrete high-dimensional data sets for each dimension; s3. to choose the most discrete dimension segmentation, according to the average dimension of all data will be divided into two categories; s4. selection in segmentation the category of data points up to a class, according to the S2 and S3 relative to most discrete selection, will continue its segmentation according to the discrete mean point, in accordance with the above steps until the required number is divided into categories; s5. for each data category segmentation mean value; s6. will mean for each category the dimension raising operation, and as the initial center point K means clustering. The invention has the advantages that the low dimensional data can reduce the computation and accelerate the speed of operation, the K means clustering with fewer iterations can achieve higher clustering accuracy.

【技术实现步骤摘要】
一种基于相对最离散维分割的K-means聚类初始中心选取方法
本专利技术涉及数据挖掘
,尤其涉及一种基于相对最离散维分割的K-means聚类初始中心选取方法。
技术介绍
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。聚类就是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间距离尽可能小,而不同类别个体间的距离尽可能大。每个类别称为簇,簇内对象的相似性较高,而簇间对象的相似性较低。根据这种特点,聚类可分为基于划分,密度,层次和网格的聚类算法等。K-means是一种基于划分的经典聚类算法,因其简单有效的特点被广泛应用于数据挖掘,机器学习,模式识别等任务上。K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。K-means基本原理如下:设待聚类的数据集合:X={xi|x本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201710844898.html" title="一种基于相对最离散维分割的K‑means聚类初始中心选取方法原文来自X技术">基于相对最离散维分割的K‑means聚类初始中心选取方法</a>

【技术保护点】
一种K‑means聚类中心点初始化方法,其特征在于,该方法包括:对任意给定的D维含N个数据的数据集,将该数据集变换为一组各维之间线性无关的表示,可用于提取该数据集的主要特征分量,即对该数据集进行降维。然后对于该数据集选取相对最离散维根据均值点进行分割,分割后得到所需的聚类类别数后,再对每个分割出的类别求均值,并进行升维操作后的数据点作为K‑means聚类的初始中心点。

【技术特征摘要】
1.一种K-means聚类中心点初始化方法,其特征在于,该方法包括:对任意给定的D维含N个数据的数据集,将该数据集变换为一组各维之间线性无关的表示,可用于提取该数据集的主要特征分量,即对该数据集进行降维。然后对于该数据集选取相对最离散维根据均值点进行分割,分割后得到所需的聚类类别数后,再对每个分割出的类别求均值,并进行升维操作后的数据点作为K-means聚类的初始中心点。2.根据权利要求1的K-means聚类中心点初始化方法,其特征在于,所述的根据相对最离散维分割的方法包括:对每一维数据的离散程度进行评估,对于相对最离散的那个维度,以该维的均值作为阈值点,数据集依据该维被分割为两个类,这两个类的数据点分别被放入两个box,再在这两个box中选取拥有更多的数据点的box作为下一个准备操作的数据集,记为box_m...

【专利技术属性】
技术研发人员:吴造林胡长俊
申请(专利权)人:安徽理工大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1