当前位置: 首页 > 专利查询>江南大学专利>正文

一种极大中心间隔的核可能性C均值聚类方法技术

技术编号:15090377 阅读:114 留言:0更新日期:2017-04-07 19:03
本发明专利技术揭露了一种极大中心间隔的核可能性C均值聚类方法,旨在解决高维空间中的边界模糊数据的划分问题。本发明专利技术是在核可能性C均值聚类KPCM算法的基础上引入了高维空间的类间极大惩罚项,提出了一种新的称为极大中心间隔的核可能性C均值聚类(MKPCM)方法。该方法考虑到了现实中大部分特征向量是高维的,通过核函数的映射实现了特征向量的较好划分;同时考虑了类与类之间的关心,通过参数的调控,实现了对边界模糊数据集的最佳划分,同时该方法还保留了KPCM对噪声点具有较好鲁棒性的优点。

A method of kernel C clustering with maximum center interval

The invention discloses a method for clustering C with the maximum center interval, which aims at solving the problem of dividing the boundary fuzzy data in high dimensional space. In this paper, we introduce a class of maximal penalty term in high dimensional space on the basis of kernel C clustering algorithm of KPCM, and propose a new method called kernel maximum likelihood C (MKPCM). This method takes into account the most feature vector in reality is of high dimension, through the mapping of kernel function to achieve a better classification feature vector; considering between type and parameters concerned, by regulation, to achieve the best classification of fuzzy boundary data sets, this method retains the advantages of KPCM has better robustness to noise point.

【技术实现步骤摘要】

本专利技术涉及数据挖掘与模式识别
,涉及数据集的聚类分析和图像分割。
技术介绍
聚类分析是一种无监督模式识别中的重要方法,已广泛应用于数据挖掘、图像处理、计算机视觉、生物信息和文本分析领域中。聚类算法能将分布未知的数据进行分类,寻找出隐藏在数据中的结构,并按照某种相似程度的度量,使具有相同性质的数据尽可能归于同一类。RuspiniEH.首先提出了模糊划分的概念,并把模糊集理论引入聚类分析之中。随着模糊理论的引入,鉴于分类本质的模糊性,人们逐步接受了模糊聚类分析。模糊c均值(FCM)聚类算法是最常用的模糊聚类算法之一。在FCM中,同一个样本属于所有类的隶属度之和为1,这种约束强化了噪声点和野值点的隶属度,使FCM对噪声点和野值点较为敏感。针对这个问题,Krishnapuram和Keller放松了隶属度的约束条件,提出了可能性c均值(PCM)聚类算法。PCM较好的解决了FCM对噪声点和野值点的敏感性问题,但是PCM对初始参数敏感,运行效率低,且在边界模糊度较高的数据集中进行聚类分析时,因忽略类中心间的距离关系,容易产生聚类中心重合的现象。针对上述问题,很多相关的改进算法一一被提出,如基于粒子群算法(PSO)和模拟退火算法(SA)的PCM算法和将数据压缩技术引入到PCM中。这些算法虽然解决了PCM对初始参数敏感和运行效率低的缺点,但是对非超球体结构数据的聚类效果不是很令人满意。支持向量机(SVM)的成功,使核函数的应用得到重视并广泛的应用到机器学习的其他领域,如核主成分分析、核Fisher鉴别分析以及基于核的聚类分析等。基于核的聚类分析就是通过运用核函数将原始空间中的数据映射到高维的特征空间中,在高维的特征空间中进行聚类分析,从而得到原始空间的聚类划分。基于核函数的聚类算法(如基于核的模糊c均值(KFCM)聚类算法和基于核的可能性c均值(KPCM)聚类算法)的出现,在一定程度上克服了FCM、PCM以及相关改进算法不适合非超球体等多种数据结构的缺陷,然而它们依然遗留了原始算法存在的缺陷,即忽略了类中心间的距离关系,当对边界处模糊度较高或边界处存在噪声点和野值点的数据集进行聚类分析时,易产生聚类中心位置重合或偏移的现象,以至于造成边界处数据的误分问题。
技术实现思路
本专利技术的目的为了使KPCM能够对边界模糊的数据和像素值相近像素点进行较好的划分。为了达到本专利技术的目的,本专利技术引入了高维空间的类间极大惩罚项,充分考虑了类之间的信息,将高维空间中的聚类中心之间的距离与隶属度矩阵之间的乘积求和,充分考虑了类间的相似性,同时引入了调控参数λ,通过调控参数对类间距离进行有效的调节,从而实现聚类中心之间的距离极大化,以达到边界点正确划分的目的。给定样本空间X={x1,x2,...,xn本文档来自技高网
...

【技术保护点】
一种极大中心间隔的核可能性C均值聚类(MKPCM)方法,其特征是:对数据集根据位置信息设定分类标签,对像素点根据灰度值设定分类标签;将MKPCM方法用于给定的数据集和像素点,得到聚类后的标签;使用公认的评价指标对聚类后得到的标签和原始的标签进行性能比较。

【技术特征摘要】
1.一种极大中心间隔的核可能性C均值聚类(MKPCM)方法,其特征是:对数据集根据位
置信息设定分类标签,对像素点根据灰度值设定分类标签;将MKPCM方法用于给定的数据集
和像素点,得到聚类后的标签;使用公认的评价指标对聚类后得到的标签和原始的标签进
行性能比较。
2.根据权利要求1所述的极大中心间隔的核可能性C均值聚类方法,对给定的数据集和
像素点设定分类标签,相关的标签设定如下:
(1)针对数据集:根据数据集中样本的物理位置来设定标签,在模拟数据集和真实数据
集中都有标有相关的标签数。
(2)针对像素点:根据像素点的灰度值将聚类个数c设置为4,其中设置规则为:灰度值0
到63之间的像素点标签为第1类;灰度值64到127之间的像素点标签为第2类;灰度值128到
191之间的像素点标签为第3类;灰度值192到255之间的像素点标签为第4类。
将MKPCM用于设定好标签的数据和像素点组成的数据集中,以得到聚类分析后的隶属
度矩阵U和聚类中心V。
3.根据权利要求2所述的将MKPCM用于相关的数据集中,关于MKPCM的相关描述如下:
在基于核的可能性C均值聚类KFCM方法中引入引入高维空间的类间极大惩罚项后,目
标函数变为:
JMKPCM(U,V)=Σi=1cΣj=1nuijm||Φ(xj)-Φ(vi)||F2+Σi=1cηiΣj=1n(1-uij)m-λΣj=1nΣi=1cΣk=1,k≠icuijm||Φ(vi)-Φ(vk)||F2]]>因为高斯核函数可以把原始空间的数据映射到无限维的特征空间中,使在原始特征空
间线性不可划分的数据在该特征空间中是线性可划分的。因此这里采用了高斯核函数作为
映射核函数:
K(x,y)=exp(-||x-y||2σ2)]]>因次有K(x,x)=1,目标函数可以表示为:
采用拉格朗日数乘法,分别对上式中的uij和vi求偏导,可以得到如下公式:
∂J∂uij=2muijm-1(1-K(xj,vi))-mηi(1-uij)m-1-2mλΣk=1,k&NotEqu...

【专利技术属性】
技术研发人员:狄岚于晓瞳
申请(专利权)人:江南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1