一种基于带有多样化半径技术的小生境遗传算法的聚类方法技术

技术编号:10815086 阅读:103 留言:0更新日期:2014-12-24 19:22
一种基于带有多样化半径技术的小生境遗传算法的聚类方法,所述聚类方法包括以下步骤:1)染色体编码和种群初始化;2)计算个体适应度;3)采用动态识别方法识别群体中的小生境位置、内容和数目;4)执行多样化半径机制调整各个小生境的半径信息;5)应用适应度共享函数重新计算个体的新适应度;6)执行选择、交叉和变异操作;7)执行精英策略替换群体中最差的个体;8)若满足终止条件,则终止运行;否则,跳转至步骤5)。本发明专利技术提供一种具有很好的聚类效果、稳定性良好的基于带有多样化半径技术的小生境遗传算法的聚类方法。

【技术实现步骤摘要】
【专利摘要】,所述聚类方法包括以下步骤:1)染色体编码和种群初始化;2)计算个体适应度;3)采用动态识别方法识别群体中的小生境位置、内容和数目;4)执行多样化半径机制调整各个小生境的半径信息;5)应用适应度共享函数重新计算个体的新适应度;6)执行选择、交叉和变异操作;7)执行精英策略替换群体中最差的个体;8)若满足终止条件,则终止运行;否则,跳转至步骤5)。本专利技术提供一种具有很好的聚类效果、稳定性良好的基于带有多样化半径技术的小生境遗传算法的聚类方法。【专利说明】一种基于带有多样化半径技术的小生境遗传算法的聚类方 法
本专利技术涉及数据挖掘技术,尤其是一种聚类方法。
技术介绍
数据挖掘是从海量的、模糊的、有噪声的、随机的、不完全的数据中,发掘隐含的、 尚未发现的、却又是可能有用的信息和知识的过程。聚类分析是数据挖掘的一个重要内容 和基本形式之一,数据聚类是指根据数据的内在特征,通过某种度量方式将数据分成若干 聚合类,使每一个聚合类内的数据具有相似的特性,不同聚合类之间的数据的特性具有尽 可能大的差异性。 对于实际要解决的数据集,在进行聚类分析时,具体应该选择哪种或哪类聚类算 法,主要考虑数据的类型特征、算法的特点以及聚类的目标几个因素。有时,也需要同时采 用多种聚类方法,以从不同的角度分析数据的特征,从而找出真正想要的结果。总体上,主 要的聚类算法可以分为如下几类: 1)基于划分方法 对于含有η个数据的数据集,基于划分的方法需要用户预先给定最终划分的数目 k,然后根据目标函数的最小化组合,将数据划分为k组。此时,划分为k组的数据应满足一 下两个要求:1)每个组至少包含一个数据;2)每个数据至少属于且唯一属于一个组。基于 划分的方法,算法首先要建立一个初始划分,即随机选取k个数据点作为初始划分中心点, 然后采用迭代重定位技术,并通过不断移动数据在组间的划分找到最优划分。划分过程中 采用的唯一准则就是:基于某种相似性度量方式,使同一个组内的数据尽可能的相似,不同 组内数据的差异性尽可能的大 。基于划分方法的聚类方法主要有:k-means、k-中心点、 PAM、CLARA、CLARANS等。 2)基于层次方法 基于层次的方法按照对象的分层建立簇,同时形成一颗以簇为节点的树。根据层 次分解形成的过程不同,基于层次的方法可以分成分裂的或凝聚的方法。凝聚法,也叫自底 向上的方法,它首先将每个数据作为一个单独的组,然后不断的把相近的组或数据组合成 一个组,直到所有的数据都被放在一个组里或者满足某个终止条件为止。分裂法,也叫自 顶向下的方法,它首先把所有的数据都看成同一个簇,然后进行不断的迭代分裂,每次迭代 的目的都是为了把上一个簇分成更小的簇,直到每个对象各自成为一个簇或者满足某个终 止条件。这种方法的缺陷在于,合并或分裂簇的操作都是不可逆,这给聚类的结果带来了不 准确性。目前有一些技术试图克服这一缺陷。有人试图通过移动树的分支以改善全局目标 函数。也有人使用划分聚类的技术来创建许多小簇,然后从这些小簇出发进行层次聚类。基 于层次方法的聚类算法主要有:BIRCH,CURE,ROCK,COBWEB算法等。 3)基于密度的方法 目前很多算法都是根据数据之间的距离来确定对象间的相似性的,前面提到的基 于划分和基于层次的方法就是基于这种相似性来进行聚类。然而这类方法的缺陷在于,它 们只能找到球形簇,而对于其他形状的簇则可能无法很好的辨别,甚至无法正确的进行聚 类。因此产生了基于密度的方法。这种聚类方法的主要思想就是:根据数据点的密集程度 来确定是否需要继续聚类 。该种方法可以发现任意形状的簇,而且能够有效的去除噪声 数据。典型的基于密度的聚类方法包括DBSCAN和OPTICS。 4)基于网格的方法 基于网格方法的基本思想就是把对象空间量化为一定数目的单元,这些单元组成 一个网格结构,然后在这个结构上进行聚类操作。该方法主要的优点是:有着非常快的处理 速度,它的处理时间与数据对象的数量是无关的,只与量化空间的每一维的单元数有关系 。比较典型的基于网格的算法有:CLIQUE算法、OptiGird算法、STING算法等。 5)基于模型的方法 基于模型的聚类方法将不同的簇假定不同的模型,然后不断的寻找一定的数据 集,使这个数据集能够与给定到的模型形成最佳的拟合。该方法的主要目的是试图将给定 的数据和假定模型之间找出一个最优的组合。这种方法主要分成两类:一种是统计学方法, 主要代表算法有COBWEB算法、CLASSIT算法、和AutoClass算法;另一种是神经网络方法, 主要算法有竞争学习法和自组织特征映射法。 采用遗传算法解决数据聚类的问题,是一种新的聚类分析方法,对于数值属性和 符号属性的数据进行聚类,具有较好的效果。近年来也有很多学者对基于遗传算法的聚 类分析做了深入研究。现有的聚类方法存在的缺陷是:聚类效果相对较差、稳定性较差。
技术实现思路
为了克服已有基于遗传算法的聚类方法的聚类效果较差、稳定性较差的不足,本 专利技术提供一种具有很好的聚类效果、稳定性良好的基于带有多样化半径技术的小生境遗传 算法的聚类方法。 本专利技术解决其技术问题所采用的技术方案是: ,所述聚类方法包括 以下步骤: 1)染色体编码和种群初始化 一个染色体被编码成一个聚类中心,每个染色体由V个实数组成,染色体表示为C =,这里V代表特征空间的维数; 随机选取N个数据点,N为群体规模,每个数据点是由V维实数组成,每个数据点 表示一个染色体且没有重复的数据点; 2)计算个体适应度 令X= (X1,X2,…,xn}是N维向量空间的一个子集,K是聚类数目,S(Xj,Ci)表示 数据点&和第i个聚类中心Ci的相似性度量函数,聚类目标是找出Ci使总相似度J(C)最 大,J(C)表示为: 【权利要求】1. ,其特征在于:所述聚 类方法包括以下步骤: 1) 染色体编码和种群初始化 一个染色体被编码成一个聚类中心,每个染色体由V个实数组成,染色体表示为C= ,这里V代表特征空间的维数; 随机选取N个数据点,N为群体规模,每个数据点是由V维实数组成,每个数据点表示 一个染色体且没有重复的数据点; 2) 计算个体适应度 令X=Ix1,X2,…,xj是N维向量空间的一个子集,K是聚类数目,S(Xj,Ci)表示数据 点&和第i个聚类中心Ci的相似性度量函数,聚类目标是找出Ci使总相似度J(C)最大, J(C)表示为: =(1) /-Iy-1 P C= (c"c2,…,Ck),β定义为: XTXi ~X β=^:1J- (2) η 其中,入&, η, 令Js(Xk)表示数据点Xk到其他所有点的总相似度,且Js(Xk)的计算方式如下: n - JMk)=X(exp(- 7〇ky=ι,2,·..,《· (3) j-i P 该函数近似的看成是数据点Xk的领域密度函数; Y的值用CCA算法来估计,在得到γ的估计值之后,函数Js(Xk)则成为了一个多模函 数,函数峰的数量等于聚类中心的数量,峰值点的位置也与聚类本文档来自技高网
...

【技术保护点】
一种基于带有多样化半径技术的小生境遗传算法的聚类方法,其特征在于:所述聚类方法包括以下步骤:1)染色体编码和种群初始化一个染色体被编码成一个聚类中心,每个染色体由v个实数组成,染色体表示为c=[c1,c2,…,cv],这里v代表特征空间的维数;随机选取N个数据点,N为群体规模,每个数据点是由v维实数组成,每个数据点表示一个染色体且没有重复的数据点;2)计算个体适应度令X={x1,x2,…,xn}是N维向量空间的一个子集,K是聚类数目,S(xj,ci)表示数据点Xj和第i个聚类中心ci的相似性度量函数,聚类目标是找出ci使总相似度J(c)最大,J(c)表示为:J(c)=Σi=1KΣj=1n(exp(-||xj-ci||2β))γ---(1)]]>c=(c1,c2,…,ck),β定义为:β=Σj=1n||xj-x‾||2n---(2)]]>其中,x‾=Σj=1nxjn,;]]>令Js(xk)表示数据点xk到其他所有点的总相似度,且Js(xk)的计算方式如下:Js(xk)=Σj=1n(exp(-||xj-kk||2β)γ,k=1,2,...,n.---(3)]]>该函数近似的看成是数据点xk的领域密度函数;γ的值用CCA算法来估计,在得到γ的估计值之后,函数Js(xk)则成为了一个多模函数,函数峰的数量等于聚类中心的数量,峰值点的位置也与聚类中心的位置相同;3)采用动态识别方法识别群体中的小生境位置、内容和数目,过程如下:3.1)将群体中的个体按照适应度的大小进行从大到小排序;3.2)设定算法进化过程中的控制参数:令t代的候选小生境数v(t)=0;t代的实际小生境数u(t)=0;当前动态物种集CDSS=0;3.3)从第一个个体顺序执行下列步骤到最后一个个体:(3.3.1)若个体未被标记,则标记该个体为新的小生境中心,且该个体为该小生境的优胜者;(3.3.2)将群体中与该个体的距离小于该小生境半径,同时尚未被标记的个体分配给这个小生境;(3.3.3)计算小生境中个体的数目,若个体数目大于1,则令候选小生境数加1;4)执行多样化半径机制调整各个小生境的半径信息;基于相邻小生境的位置关系来判断两个小生境是否需要合并,若合并,新产生的小生境的半径则要重新计算;再者,提出了一个小生境个体剔除的操作,这个操作的目的是把不属于该小生境的个体剔除。5)应用适应度共享函数重新计算个体的新适应度;设dij表示个体i和个体j之间的密切程度的度量,sh为共享函数,mi表示个体i在群体中的共享度,则有计算出所有个体的共享度后,个体适应度f(i)依据下式调整为fsh(i):fs(i)=f(i)/mi;6)执行选择、交叉和变异操作;7)执行精英策略替换群体中最差的个体;8)若满足终止条件,则终止运行;否则,跳转至步骤5)。...

【技术特征摘要】

【专利技术属性】
技术研发人员:盛伟国范东成汪晓妍李军伟何俊丽陈胜勇
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1