一种极大中心间隔的核可能性C均值聚类方法技术

技术编号：15090377 阅读：114 留言：0更新日期：2017-04-07 19:03

本发明专利技术揭露了一种极大中心间隔的核可能性C均值聚类方法，旨在解决高维空间中的边界模糊数据的划分问题。本发明专利技术是在核可能性C均值聚类KPCM算法的基础上引入了高维空间的类间极大惩罚项，提出了一种新的称为极大中心间隔的核可能性C均值聚类(MKPCM)方法。该方法考虑到了现实中大部分特征向量是高维的，通过核函数的映射实现了特征向量的较好划分；同时考虑了类与类之间的关心，通过参数的调控，实现了对边界模糊数据集的最佳划分，同时该方法还保留了KPCM对噪声点具有较好鲁棒性的优点。

A method of kernel C clustering with maximum center interval

The invention discloses a method for clustering C with the maximum center interval, which aims at solving the problem of dividing the boundary fuzzy data in high dimensional space. In this paper, we introduce a class of maximal penalty term in high dimensional space on the basis of kernel C clustering algorithm of KPCM, and propose a new method called kernel maximum likelihood C (MKPCM). This method takes into account the most feature vector in reality is of high dimension, through the mapping of kernel function to achieve a better classification feature vector; considering between type and parameters concerned, by regulation, to achieve the best classification of fuzzy boundary data sets, this method retains the advantages of KPCM has better robustness to noise point.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘与模式识别
，涉及数据集的聚类分析和图像分割。
技术介绍
聚类分析是一种无监督模式识别中的重要方法，已广泛应用于数据挖掘、图像处理、计算机视觉、生物信息和文本分析领域中。聚类算法能将分布未知的数据进行分类，寻找出隐藏在数据中的结构，并按照某种相似程度的度量，使具有相同性质的数据尽可能归于同一类。RuspiniEH.首先提出了模糊划分的概念，并把模糊集理论引入聚类分析之中。随着模糊理论的引入，鉴于分类本质的模糊性，人们逐步接受了模糊聚类分析。模糊c均值(FCM)聚类算法是最常用的模糊聚类算法之一。在FCM中，同一个样本属于所有类的隶属度之和为1，这种约束强化了噪声点和野值点的隶属度，使FCM对噪声点和野值点较为敏感。针对这个问题，Krishnapuram和Keller放松了隶属度的约束条件，提出了可能性c均值(PCM)聚类算法。PCM较好的解决了FCM对噪声点和野值点的敏感性问题，但是PCM对初始参数敏感，运行效率低，且在边界模糊度较高的数据集中进行聚类分析时，因忽略类中心间的距离关系，容易产生聚类中心重合的现象。针对上述问题，很多相关的改进算法一一被提出，如基于粒子群算法(PSO)和模拟退火算法(SA)的PCM算法和将数据压缩技术引入到PCM中。这些算法虽然解决了PCM对初始参数敏感和运行效率低的缺点，但是对非超球体结构数据的聚类效果不是很令人满意。支持向量机(SVM)的成功，使核函数...

【技术保护点】
一种极大中心间隔的核可能性C均值聚类(MKPCM)方法，其特征是：对数据集根据位置信息设定分类标签，对像素点根据灰度值设定分类标签；将MKPCM方法用于给定的数据集和像素点，得到聚类后的标签；使用公认的评价指标对聚类后得到的标签和原始的标签进行性能比较。

【技术特征摘要】
1.一种极大中心间隔的核可能性C均值聚类(MKPCM)方法，其特征是：对数据集根据位
置信息设定分类标签，对像素点根据灰度值设定分类标签；将MKPCM方法用于给定的数据集
和像素点，得到聚类后的标签；使用公认的评价指标对聚类后得到的标签和原始的标签进
行性能比较。
2.根据权利要求1所述的极大中心间隔的核可能性C均值聚类方法，对给定的数据集和
像素点设定分类标签，相关的标签设定如下：
(1)针对数据集：根据数据集中样本的物理位置来设定标签，在模拟数据集和真实数据
集中都有标有相关的标签数。
(2)针对像素点：根据像素点的灰度值将聚类个数c设置为4，其中设置规则为：灰度值0
到63之间的像素点标签为第1类；灰度值64到127之间的像素点标签为第2类；灰度值128到
191之间的像素点标签为第3类；灰度值192到255之间的像素点标签为第4类。
将MKPCM用于设定好标签的数据和像素点组成的数据集中，以得到聚类分析后的隶属
度矩阵U和聚类中心V。
3.根据权利要求2所述的将MKPCM用于相关的数据集中，关于MKPCM的相关描述如下：
在基于核的可能性C均值聚类KFCM方法中引入引入高维空间的类间极大惩罚项后，目
标函数变为：
JMKPCM(U,V)=Σi=1cΣj=1nuijm||Φ(xj)-Φ(vi)||F2+Σi=1cηiΣj=1n(1-uij)m-λΣj=1nΣi=1cΣk=1,k≠icuijm||Φ(vi)-Φ(vk)||F2]]>因为高斯核函数可以把原始空间的数据映射到无限维的特征空间中，使在原始特征空
间线性不可划分的数据在该特征空间中是线性可划分的。因此这里采用了高斯核函数作为
映射核函数：
K(x,y)=exp(-||x-y||2σ2)]]>因次有K(x，x)＝1，目标函数可以表示为：
采用拉格朗日数乘法，分别对上式中的uij和vi求偏导，可以得到如下公式：
∂J∂uij=2muijm-1(1-K(xj,vi))-mηi(1-uij)m-1-2mλΣk=1,k&NotEqu...

【专利技术属性】
技术研发人员：狄岚，于晓瞳，
申请(专利权)人：江南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人