一种基于最大‑最小信息素的k‑means数据处理方法技术

技术编号:14048229 阅读:54 留言:0更新日期:2016-11-23 23:46
本发明专利技术公开了一种基于最大‑最小信息素的k‑means数据处理方法,包括以下步骤:S1、获取待处理的原始数据集,在原始数据集中标记随机分配的聚类中心;S2、根据蚁群信息素计算原始数据集中未标记的数据到聚类中心的蚂蚁转移概率,根据计算结果对所有未标记的数据进行重新聚类,并计算各个数据到新的聚类中心的偏离误差,选取偏离误差最小的解作为精英蚂蚁最优解;S3、更新全局的信息素,将信息素的大小限制在最大信息素和最小信息素的范围内,并根据更新后的信息素进行聚类;S4、若满足结束条件或达到最大迭代次数,输出最优聚类结果;否则转入步骤S2继续执行。本发明专利技术的算法在聚类总偏离误差上优于现有算法,在时间消耗上少于现有算法。

【技术实现步骤摘要】

本专利技术涉及数据挖掘及模式识别
,尤其涉及一种基于最大-最小信息素的k-means数据处理方法。
技术介绍
k-means算法是基于划分的经典聚类算法,最早由MacQueen提出,其优点是简单、易懂,算法思路清晰,数据收敛快速。处理密集型数据时,具有相对可伸缩性和高效性,聚类效果好。但是它的缺点也很明显,算法对初始中心点的选择和k值的确定以及孤立点比较敏感,并且容易陷入局部最优解。蚁群聚类算法是一种全局搜索仿生优化算法,最早由Deneubourg提出,根据聚类中心的信息素量把周围数据聚集到一起,从而实现聚类。其优点是不需要提前划分原始数据样本,采用随机搜索,算法灵活,可以避免局部最优。但仍存在一些缺点,算法收敛性差,运行时间较长。Sara Saatchi等人结合蚁群算法和k-means算法,提出一种基于信息素的k-means聚类算法,通过蚁群的全局搜索降低k-means算法陷入局部最优的可能性。但该算法采取传统蚁群算法的信息素更新策略,收敛速度相对较慢。针对上述缺点,研究人员引入了精英适值保留机制提高了蚁群聚类算法的聚类效果;引入变异算子消除孤立点样本的影响;并且通过MMAS(最大最小蚂蚁系统)更改路径信息素量,大大提高了全局搜索能力,有效地避免了过早收敛。但是在数据集比较大,维数比较高的时候,算法的时间消耗很大。基于信息素的k-means聚类算法进行几次全局更新后,某些路径(i,j)信息素τij可能快速趋于0,降低了蚂蚁的搜索能力。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中运算时间消耗大,且容易陷入局部最优解的缺陷,提供一种改善了收敛速度和总偏离误差的基于最大-最小信息素的k-means数据处理方法。本专利技术解决其技术问题所采用的技术方案是:本专利技术提供一种基于最大-最小信息素的k-means数据处理方法,包括以下步骤:S1、获取待处理的原始数据集,初始化蚁群参数,在原始数据集中标记随机分配的聚类中心;S2、根据蚁群信息素计算原始数据集中未标记的数据到聚类中心的蚂蚁转移概率,根据计算结果对所有未标记的数据进行重新聚类,并计算各个数据到新的聚类中心的偏离误差,选取偏离误差最小的解作为精英蚂蚁最优解;S3、设置最大信息素和最小信息素,根据精英蚂蚁最优解更新全局的信息素,将信息素的大小限制在最大信息素和最小信息素的范围内,并根据更新后的信息素进行聚类;S4、若满足结束条件或达到最大迭代次数,输出最优聚类结果;否则转入步骤S2继续执行。进一步地,本专利技术的步骤S3中设置最大和最小信息素的方法具体为:最大信息素τmax为: τ m a x = 1 1 - ρ · 1 l k ]]>最小信息素τmin为: τ min = τ max ( 1 - P b e s t n ) ( a v g - 1 ) P b e s t n ]]>其中,ρ为信息素挥发系数,k为聚类数目,l为蚂蚁k获取的路径长度,n为蚂蚁的数量,Pbest为发现最优解的概率,avg为可选路径数。检验各路径信息素,若大于τmax,则令其等于τmax;若小于最小值τmin,则令其等于τmin。进一步地,本专利技术的步骤S2中计算蚂蚁转移概率的方法具体为:蚂蚁经过路径(i,j)释放信息素,求出未经标识数据对象Xi到的欧式距离dij并计算蚂蚁转移概率Pij,其中:t时刻,蚂蚁经过路径(i,j)释放信息素的量τij(t)为: τ i j ( t ) = 1 d i j ≤ R 0 d i j > R ]]>蚂蚁转移概率Pij为: P i j = τ i j Σ j = 1 k τ i j ]]>其中,R为聚类半径初始值,dij为Xi到的欧式距离,待本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610472867.html" title="一种基于最大‑最小信息素的k‑means数据处理方法原文来自X技术">基于最大‑最小信息素的k‑means数据处理方法</a>

【技术保护点】
一种基于最大‑最小信息素的k‑means数据处理方法,其特征在于,包括以下步骤:S1、获取待处理的原始数据集,初始化蚁群参数,在原始数据集中标记随机分配的聚类中心;S2、根据蚁群信息素计算原始数据集中未标记的数据到聚类中心的蚂蚁转移概率,根据计算结果对所有未标记的数据进行重新聚类,并计算各个数据到新的聚类中心的偏离误差,选取偏离误差最小的解作为精英蚂蚁最优解;S3、设置最大信息素和最小信息素,根据精英蚂蚁最优解更新全局的信息素,将信息素的大小限制在最大信息素和最小信息素的范围内,并根据更新后的信息素进行聚类;S4、若满足结束条件或达到最大迭代次数,输出最优聚类结果;否则转入步骤S2继续执行。

【技术特征摘要】
1.一种基于最大-最小信息素的k-means数据处理方法,其特征在于,包括以下步骤:S1、获取待处理的原始数据集,初始化蚁群参数,在原始数据集中标记随机分配的聚类中心;S2、根据蚁群信息素计算原始数据集中未标记的数据到聚类中心的蚂蚁转移概率,根据计算结果对所有未标记的数据进行重新聚类,并计算各个数据到新的聚类中心的偏离误差,选取偏离误差最小的解作为精英蚂蚁最优解;S3、设置最大信息素和最小信息素,根据精英蚂蚁最优解更新全局的信息素,将信息素的大小限制在最大信息素和最小信息素的范围内,并根据更新后的信息素进行聚类;S4、若满足结束条件或达到最大迭代次数,输出最优聚类结果;否则转入步骤S2继续执行。2.根据权利要求1所述的基于最大-最小信息素的k-means数据处理方法,其特征在于,步骤S3中设置最大和最小信息素的方法具体为:最大信息素τmax为: τ m a x = 1 1 - ρ · 1 l k ]]>最小信息素τmin为: τ min = τ max ( 1 - P b e s t n ) ( a v g - 1 ) P b e s t n ]]>其中,ρ为信息素挥发系数,k为聚类数目,l为蚂蚁k获取的路径长度,n为蚂蚁的数量,Pbest为发现最优解的概率,avg为可选路径...

【专利技术属性】
技术研发人员:刘小珠刘乾乾陈洋胡运杰易超人焦旭东邓燕妮赵东明
申请(专利权)人:武汉理工大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1