基于自适应元胞遗传与优选模糊C‑均值的混合聚类算法制造技术

技术编号:15502264 阅读:119 留言:0更新日期:2017-06-03 23:14
本发明专利技术公开了一种基于自适应元胞遗传与优选模糊C‑均值的混合聚类算法,利用Arnold Cat映射产生初始种群,依据模糊C‑均值的聚类准则构造适应度函数;解码种群内的个体得到对应的聚类中心,并分配隶属度、计算适应度值及种群的熵;对每个个体进行状态的演化,并进行选择、动态的交叉和基于熵的组合变异操作;自动确定模糊C‑均值的融合时机,并利用实施准则进行模糊C‑均值迭代操作;判断是否达到终止条件,若满足终止条件,输出最终的聚类结果。本发明专利技术进一步利用自适应元胞遗传算法的全局搜索能力强与模糊C‑均值算法的局部搜索能力强的特点。相比现有技术,本发明专利技术可以获得更高的聚类效率和精度。

A hybrid clustering algorithm of adaptive cellular genetic optimization and fuzzy C based on average

The present invention discloses a kind of fuzzy C mean adaptive cellular genetic optimization based on hybrid clustering algorithm, the initial population is generated by using Arnold Cat mapping, according to the clustering criterion to construct fuzzy C mean fitness function; decoding within individual stocks corresponding to the cluster center, and the distribution of membership, calculating the degree of adaptation value and population entropy; state the evolution of each individual, and cross selection, dynamic and mutation operation based on the combination of entropy; automatic determination of fusion fuzzy C mean time, criteria for the implementation of the fuzzy C mean iterative operation and utilization; judging whether the termination condition is reached, if the termination condition, the output of clustering the final results. The present invention further use of global adaptive cellular genetic algorithm has strong searching ability and fuzzy C means algorithm the characteristics of strong local search ability. Compared with the prior art, the invention can obtain higher clustering efficiency and accuracy.

【技术实现步骤摘要】
基于自适应元胞遗传与优选模糊C-均值的混合聚类算法
本专利技术涉及一种模糊聚类方法,尤其涉及一种基于自适应元胞遗传与优选模糊C-均值的混合聚类算法。
技术介绍
随着计算机和存贮技术的迅速发展,人们可获取的数据量正以指数级的速度增长。面对海量的数据,如何利用计算机自动把数据按照某些主题分类到不同类别,提取有用的、相关性强的知识已变得日益重要。因此聚类技术就在数据挖掘、机器识别、图像分割、故障诊断和模式识别等许多领域得到广泛应用。聚类分析作为一种寻求数据自然聚集结构的重要方法,主要分为硬聚类和模糊聚类。硬聚类算法简单、耗时少,但不适合处理现实世界的聚类问题,而模糊聚类算法通过引入隶属度函数表征每个数据属于各个类别的程度,克服了硬聚类的局限性。模糊C-均值(fuzzyc-means,FCM)算法是应用最广泛的模糊聚类算法。传统的模糊C-均值算法通过最小化目标函数得到每个数据点对所有类中心的隶属度,从而决定数据点的类属。但是由于这种聚类方法是基于单点梯度下降的原理,因此存在聚类结果较大程度地依赖于初始聚类中心,易陷入局部极值等问题。例如,文献【肖满生,文志诚,张居武,汪新凡.一种改进隶属度函数的FCM聚类算法[J].控制与决策.2015,30(12):2270-2274.】中所提出的方法。模糊C-均值算法要求一个样本对于各个聚类的隶属度之和满足归一化条件,从而导致算法对具有噪声、孤立点、非均衡分布的样本聚类有效性较低。上述方法主要依据隶属度的修正,没有较好地克服算法对聚类中心初始值的敏感性。近年来出现了运用遗传算法、粒子群优化、模拟退火、蚁群算法等进化算法提高模糊C-均值性能的聚类方法,例如,Nanda等[1]系统阐述新出现的基于现代启发式搜索算法的划分聚类方法,并指出这些启发式划分聚类算法在现实生活领域具有很大的实际应用价值。而遗传算法具有操作简单、较强的全局收敛能力和广泛适用性的特点,已成为许多领域使用最广泛的搜索和优化工具,因此出现了一些基于遗传算法的模糊聚类算法。根据结合的方式不同,聚类方法分为采用遗传算法单独聚类的方式和遗传算法与模糊C-均值组合的聚类方式。而早期的聚类方法是采用遗传算法单独进行聚类的方式,例如,Hall等[2]利用遗传算法优化模糊C-均值的聚类目标函数。近年来,模糊聚类方法主要采用组合的方式,例如,Ding等[3]采用遗传算法优化初始聚类中心,并利用核模糊C-均值指导分类,以改善模糊C-均值的聚类性能;Ye等[4]通过动态调整量子旋转角和实施染色体变异等方式对量子遗传算法进行改进,并在此基础上研究分析基于改进量子遗传算法的模糊聚类算法性能。上述聚类方法的聚类准确性都高于传统的模糊C-均值。但是由于评价函数所需时间较长,导致计算复杂性高,从而限制了它们的实际应用,同时处理高度复杂的数据集时,由于过早丢失种群多样性而导致收敛到局部最优值。元胞遗传算法(Cellulargeneticalgorithm,CGA)是一种将元胞自动机与遗传算法有机结合的算法,它将遗传操作限制在相邻个体之间进行,降低高适应度个体的基因信息的传播速度,在保持种群多样性上具有明显优势,改善遗传算法全局收敛性能。但是由于元胞遗传算法限定个体之间的位置关系,个体之间信息交流也被限制在其邻域范围内,降低寻优搜索效率,所以优化速度一般较慢。而模糊C-均值收敛迅速,但容易陷入局部极值。显然如果充分利用元胞遗传算法的全局搜索能力和模糊C-均值算法的局部搜索能力,使两种算法有效地结合,可以设计聚类性能更优的模糊聚类算法。
技术实现思路
本专利技术所要解决的技术问题在于克服现有技术的不足,提供一种基于自适应元胞遗传与优选模糊C-均值的混合聚类算法,能够获得更精确的聚类结果和更高的聚类效率。本专利技术具体采用以下技术方案解决上述技术问题。一种基于自适应元胞遗传与优选模糊C-均值的混合聚类算法,其特征在于,该方法包括以下步骤:步骤一、采用基于聚类中心的实值编码方式表达染色体,并利用ArnoldCat映射产生初始种群,依据模糊C-均值的聚类准则构造适应度函数;步骤二、对于种群内的每个个体,分别解码得到各组聚类中心,分配隶属度、计算适应度值及种群的熵;步骤三、加入改进的演化规则进行元胞状态的演化,并对每个个体进行选择、动态的交叉和基于熵的组合变异操作,得到新种群;步骤四、判断模糊C-均值的融合时机,当达到条件则采用优选策略对该新种群内的个体进行选择,利用实施准则进行模糊C-均值迭代操作;步骤五、判断是否达到终止条件,若不满足终止条件,则跳转至步骤三;若满足终止条件,输出最终的聚类结果。优选地,所述采用基于聚类中心的实值编码方式表达染色体,具体按照以下方法:设元胞种群为Q={x1,x2...,xi...,xP},(1≤i≤P),每个个体代表一组聚类中心,即数据样本的一种划分模式;则每条染色体xi由编码长度为l=c×d的实数表示,即:xi=[xi,1xi,2…xi,dxi,d+1xi,d+2…xi,2d…xi,c×(d-1)+1xi,c×(d-1)+2…xi,c×d](1)式中:c为聚类中心的个数,d为每个聚类中心的维度。优选地,所述利用ArnoldCat映射产生初始种群,是指利用ArnoldCat序列替代随机初始聚类中心,优化种群的初始分布;具体方法如下:设αn为ArnoldCat映射迭代n步产生的混沌变量,为第j维变量的取值范围,则染色体xi的第j维变量为:其中和xjmax分别为给定数据集的每维度属性对应的最小值和最大值;重复上述过程,直到产生P条初始染色体。优选地,所述步骤一中适应度函数为模糊C-均值聚类目标函数的倒数。优选地,所述动态的交叉和基于熵的组合变异操作,是指自适应地改变每个个体的交叉、变异概率以及变异步长;具体包括以下步骤:1)利用种群的平均、最大适应度值和S型函数设计自适应调整策略A,动态改变每个个体的交叉概率;具体定义如下:设favg为第t代种群的平均适应度值;fmax为第t代种群的最大适应度值,f1(xi)为待交叉的两个个体中较大的适应度值,f2(xi)为待变异个体xi的适应度值;则待交叉个体的交叉概率为:其中:φMax为最大交叉概率;μ1为调节系数,控制着个体交叉概率衰减的幅度;当favg=fmax,f1(xi)=fmax时,则2)利用步骤1)计算所得到的交叉概率,对个体进行算术交叉操作,从而得到新染色体;3)根据种群的熵DE(t)的变化给出变异操作的判定准则,具体如下:设DEmax为种群的熵的最大值,为最小的检测阈值,且k1为预设的扰动因子,γ为预设的大于4的整数,则当实施普通变异操作;当则实施大变异操作;即:4)利用种群的平均、最大适应度值和S型函数设计自适应调整策略B,动态改变每个个体的变异概率;Pm(i)具体定义如下:设favg为第t代种群的平均适应度值;fmax为第t代种群的最大适应度值,f2(xi)为待变异个体xi的适应度值,则待变异个体的变异概率为:其中:为最大变异概率;μ2为调节系数,控制着个体变异概率Pm(i)衰减的幅度;当favg=fmax,f1(xi)=fmax时,则5)利用步骤4)计算所得到的变异概率,对个体进行改进的变异操作,具体定义如下:设N(0,1)为正态分布随机数,α(t)为自适应调节的本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201611059068.html" title="基于自适应元胞遗传与优选模糊C‑均值的混合聚类算法原文来自X技术">基于自适应元胞遗传与优选模糊C‑均值的混合聚类算法</a>

【技术保护点】
一种基于自适应元胞遗传与优选模糊C‑均值的混合聚类算法,其特征在于,该方法包括以下步骤:步骤一、采用基于聚类中心的实值编码方式表达染色体,并利用Arnold Cat映射产生初始种群,依据模糊C‑均值的聚类准则构造适应度函数;步骤二、对于种群内的每个个体,分别解码得到各组聚类中心,分配隶属度、计算适应度值及种群的熵;步骤三、加入改进的演化规则进行元胞状态的演化,并对每个个体进行选择、动态的交叉和基于熵的组合变异操作,得到新种群;步骤四、判断模糊C‑均值的融合时机,当达到条件则采用优选策略对该新种群内的个体进行选择,利用实施准则进行模糊C‑均值迭代操作;步骤五、判断是否达到终止条件,若不满足终止条件,则跳转至步骤三;若满足终止条件,输出最终的聚类结果。

【技术特征摘要】
1.一种基于自适应元胞遗传与优选模糊C-均值的混合聚类算法,其特征在于,该方法包括以下步骤:步骤一、采用基于聚类中心的实值编码方式表达染色体,并利用ArnoldCat映射产生初始种群,依据模糊C-均值的聚类准则构造适应度函数;步骤二、对于种群内的每个个体,分别解码得到各组聚类中心,分配隶属度、计算适应度值及种群的熵;步骤三、加入改进的演化规则进行元胞状态的演化,并对每个个体进行选择、动态的交叉和基于熵的组合变异操作,得到新种群;步骤四、判断模糊C-均值的融合时机,当达到条件则采用优选策略对该新种群内的个体进行选择,利用实施准则进行模糊C-均值迭代操作;步骤五、判断是否达到终止条件,若不满足终止条件,则跳转至步骤三;若满足终止条件,输出最终的聚类结果。2.如权利要求1所述的基于自适应元胞遗传与优选模糊C-均值的混合聚类算法,其特征在于,所述采用基于聚类中心的实值编码方式表达染色体,具体按照以下方法:设元胞种群为Q={x1,x2...,xi...,xP},(1≤i≤P),每个个体代表一组聚类中心,即数据样本的一种划分模式;则每条染色体xi由编码长度为l=c×d的实数表示,即:xi=[xi,1xi,2…xi,dxi,d+1xi,d+2…xi,2d…xi,c×(d-1)+1xi,c×(d-1)+2…xi,c×d](1)式中:c为聚类中心的个数,d为每个聚类中心的维度。3.如权利要求1所述的基于自适应元胞遗传与优选模糊C-均值的混合聚类算法,其特征在于,所述利用ArnoldCat映射产生初始种群,是指利用ArnoldCat序列替代随机初始聚类中心,优化种群的初始分布;具体方法如下:设αn为ArnoldCat映射迭代n步产生的混沌变量,[xjmin,xjmax]为第j维变量的取值范围,则染色体xi的第j维变量为:xij=xjmin+αn(xjmax-xjmin)(2)其中xjmin和xjmax分别为给定数据集的每维度属性对应的最小值和最大值;重复上述过程,直到产生P条初始染色体。4.如权利要求1所述的基于自适应元胞遗传与优选模糊C-均值的混合聚类算法,其特征在于,所述步骤一中适应度函数为模糊C-均值聚类目标函数的倒数。5.如权利要求1所述的基于自适应元胞遗传与优选模糊C-均值的混合聚类算法,其特征在于,所述动态的交叉和基于熵的组合变异操作,是指自适应地改变每个个体的交叉、变异概率以及变异步长;具体包括以下步骤:1)利用种群的平均、最大适应度值和S型函数设计自适应调整策略A,动态改变每个个体的交叉概率;具体定义如下:设favg为第t代种群的平均适应度值;fmax为第t代种群的最大适应度值,f1(xi)为待交叉的两个个体中较大的适应度值,f2(xi)为待变异个体xi的适应度值;则待交叉个体的交叉概率为:其中:φMax为最大交叉概率;μ1为调节系数,控制着个体交叉概率衰减的幅度;当favg=fmax,f1(xi)=fmax时,则2)利用步骤1)计算所得到的交叉概率,对个体进行算术交叉操作,从而得到新染色体;3)根据种群的熵DE(t)的变化给出变异操作的判定准则,具体如下:设DEmax...

【专利技术属性】
技术研发人员:揭丽琳刘卫东
申请(专利权)人:南昌航空大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1