当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于高斯核混合人工蜂群算法的归一化可能性模糊熵聚类方法技术

技术编号:13942588 阅读:138 留言:0更新日期:2016-10-29 19:55
本发明专利技术涉及一种基于高斯核混合人工蜂群算法的归一化可能性模糊熵聚类方法,包括:(1)归一化预处理,得到新样本集X_New;(2)参数初始化:(3)计算到初始聚类中心的距离,计算隶属矩阵U和可能性矩阵T,得到初始适应度值fitness(i);(4)进入采蜜蜂阶段:(5)进入跟随蜂阶段:(6)进入侦察蜂阶段:(7)得到最终最优聚类中心Vbest,并由Vbest得到对应的隶属矩阵U,并按照ci=argmax(uij)得到最终聚类。本发明专利技术提出的方法具有较好的噪声鲁棒性,在一定程度上较少参数的人为依赖性,引入人工蜂群算法后,算法的全局特性得到提高,避免了参数初始值敏感问题。本发明专利技术的可行性和有效性都得提高。

【技术实现步骤摘要】

本专利技术涉及一种基于高斯核混合人工蜂群算法的归一化可能性模糊熵聚类方法,属于大数据挖掘、机器学习

技术介绍
模糊聚类分析作为无监督分析数据、理解数据、认知事物的重要手段,由于引入模糊集合和模糊数学的思想,通过隶属度函数建立了样本数据与类别之间的不确定性描述,有效地解决了现实中不精确、没有明显边界“亦此亦彼”的聚类问题。模糊聚类拥有较好的数据表达能力与聚类效果,现已成功应用于海量数据实时聚类分析、模式分类、风险趋势预测、决策分析中,为人们深入理解数据、深层利用数据、挖掘数据中潜在价值信息做出重要共献。现阶段理论研究和实际应用中比较广泛的是基于目标函数的模糊聚类,包括模糊C均值聚类(Fuzzy C-means Clustering,FCM)、可能性C均值聚类(Possibilistic C-means Clustering,PCM)、可能性模糊C均值聚类(Possibilistic Fuzzy C-means CLustering,PFCM)。FCM算法对初始聚比较敏感,并且容易陷入局部最优解而得不到最佳的聚类划分;PCM克服了FCM对噪声敏感的问题,对噪声鲁棒性有所提高,但容易引起一致性聚类问题;PFCM兼具FCM与PCM的优点,具有较好的噪声鲁棒性,又不会产生重合的聚类,但PFCM涉及的参数较多,通常这些参数都需要人为指定而缺乏理论依据,这无形中增加了聚类的计算复杂度,同时算法的稳定性也受到影响。此外,这些基于目标函数的模糊聚类算法适合处理线性可分的、低维、凸型结构数据,然而在聚类算法在处理高维、非线性可分、非凸结构数据时聚类算法的性能很不稳定。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于高斯核混合人工蜂群算法的归一化可能性模糊熵聚类方法(Hybrid Methods for Possibilistic Fuzzy Entropy Clustering Based on Artificial Bee Colony Algorithm and kernel function,ABC_KPFECM);本专利技术通过对原始样本数据归一化处理,解决了量纲不统一对聚类结果产生的影响;此外,本专利技术引入高斯核函数,将原样本空间的数据映射到高维特征空间,解决了高维、非凸、非线性可分结构数据聚类不稳定的问题;最后,本专利技术还引入具有独特全局寻优能力的人工蜂群算法,优化提高了算法的全局寻优特性。该方法具有较好的噪声鲁棒性,不会产生一致性聚类问题,也避免了参数的人为依赖性,同时具有较好的全局特性,算法的整体性能得到提高。本专利技术的数学模型为:其中公式中为数据空间X到高维特征空间H的映射,即与之对应的核函数为为映射到高维特征空间的样本,为映射到高维特征空间的聚类中心;参数满足m>1,λ>0,在满足约束条件以及0≤uij,tij≤1,令目标函数J(U,V,T)取极小值时必须满足: u i j = 1 Σ k = 1 c ( D i j D k j ) m - 1 , ∀ i , j ]]> t i j = exp ( - m 2 c ( D i j + λ ) σ 2 + m 2 c λ ) , ∀ i , j ]]> v i = Σ j = 1 N ( u i j m + t i j ) k ( x j , v i ) x j 本文档来自技高网
...

【技术保护点】
一种基于高斯核混合人工蜂群算法的归一化可能性模糊熵聚类方法,其特征在于,包括以下步骤:(1)对样本集X进行归一化预处理,得到新样本集X_New;(2)参数初始化:人工蜂群算法种群数NP,采蜜蜂的数量SN,局部最优限制次数limit,最大迭代次数maxcycle;初始聚类中心V,模糊加权指数m,聚类数c,阈值ε,协方差矩阵σ2,熵系数λ,高斯核函数的宽度参数δ;(3)计算新样本集X_New中的样本到初始聚类中心的距离,并计算对应的隶属矩阵U和可能性矩阵T,得到每只采蜜蜂的初始适应度值fitness(i);(4)进入采蜜蜂阶段:采蜜蜂进行邻域搜索,产生每只采蜜蜂的适应度值新解fitness(sol),并更新隶属矩阵U和可能性矩阵T;(5)比较fitness(i)和fitness(sol),如果fitness(i)<fitness(sol),则fitness(i)=fitness(sol),否则,fitness(i)不变;(6)进入跟随蜂阶段:跟随蜂按概率pi选择跟踪采蜜蜂,并对采蜜蜂进行邻域搜索,产生每个采蜜蜂的适应度值新解fitness(sol1),并更新隶属矩阵U和可能性矩阵T,比较fitness(i)和fitness(sol1),如果fitness(i)<fitness(sol1),则fitness(i)=fitness(sol1),否则,fitness(i)不变;(7)进入侦察蜂阶段:判断采蜜蜂转侦察蜂的条件是否满足,如果采蜜蜂的适应度值fitness(i)在limit次迭代中均未发生变化,则认为该采蜜蜂的适应度值fitness(i)为局部最优解,放弃局部最优解,同时该采蜜蜂转变为侦查蜂,按照Vi=rand(c,s).*(max(X_New)‑min(X_New))+min(X_New)在解空间进行新的搜索;否则,该采蜜蜂不转变;s为新样本集X_New中每个样本元素的维数,max(X_New)为行向量,由新样本集X_New中每列的最大值组成,min(X_New)也为行向量,由新样本集X_New中每列最小值组成,rand(c,s)为由[0,1]构成的c*s矩阵,*表示矩阵之间对应元素相乘;(8)重复步骤(3)至(7),直到最大迭代次数maxcycle或者满足||Vbest(iter+1)‑Vbest(iter)||<ε;||Vbest(iter+1)‑Vbest(iter)||表示第iter+1次迭代得到最优聚类中心和第iter次迭代得到最优聚类中心的欧式距离;(9)得到最终最优聚类中心Vbest,并由Vbest得到对应的隶属矩阵U,并按照ci=argmax(uij)得到最终聚类。...

【技术特征摘要】
1.一种基于高斯核混合人工蜂群算法的归一化可能性模糊熵聚类方法,其特征在于,包括以下步骤:(1)对样本集X进行归一化预处理,得到新样本集X_New;(2)参数初始化:人工蜂群算法种群数NP,采蜜蜂的数量SN,局部最优限制次数limit,最大迭代次数maxcycle;初始聚类中心V,模糊加权指数m,聚类数c,阈值ε,协方差矩阵σ2,熵系数λ,高斯核函数的宽度参数δ;(3)计算新样本集X_New中的样本到初始聚类中心的距离,并计算对应的隶属矩阵U和可能性矩阵T,得到每只采蜜蜂的初始适应度值fitness(i);(4)进入采蜜蜂阶段:采蜜蜂进行邻域搜索,产生每只采蜜蜂的适应度值新解fitness(sol),并更新隶属矩阵U和可能性矩阵T;(5)比较fitness(i)和fitness(sol),如果fitness(i)<fitness(sol),则fitness(i)=fitness(sol),否则,fitness(i)不变;(6)进入跟随蜂阶段:跟随蜂按概率pi选择跟踪采蜜蜂,并对采蜜蜂进行邻域搜索,产生每个采蜜蜂的适应度值新解fitness(sol1),并更新隶属矩阵U和可能性矩阵T,比较fitness(i)和fitness(sol1),如果fitness(i)<fitness(sol1),则fitness(i)=fitness(sol1),否则,fitness(i)不变;(7)...

【专利技术属性】
技术研发人员:江铭炎郭宝峰孙舒琬陈蓓蓓
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1