群体智能算法中的自适应调整聚类中心标号方法技术

技术编号:22330181 阅读:46 留言:0更新日期:2019-10-19 12:17
本发明专利技术公开了一种基于两组聚类中心相似度矩阵的自适应调整聚类中心标号的方法,用于解决群体智能进化算法在采用基于划分的形式进行聚类时,构造的种群中个体间各聚类中心随机排列导致的聚类中心标号不一致,即属于不同簇集的聚类中心却排列在同一维度的问题而导致算法种群个体更新效率低下和搜索盲目性的问题。所提出方法采用一种双向选择的竞争淘汰策略,将个体间相似度最大,距离最接近的聚类中心尽量排列在同一维度,保证聚类中心标号一致性的最大化。

Adaptive cluster center labeling method in swarm intelligence algorithm

【技术实现步骤摘要】
群体智能算法中的自适应调整聚类中心标号方法
本专利技术涉及聚类算法和群体智能进化算法领域,更具体地,涉及一种群体智能算法中的自适应调整聚类中心标号的方法。
技术介绍
文本聚类在文本挖掘领域起着至关重要的作用,对互联网和实际生产环境中的海量文本数据进行有效组织和划分,从中发掘隐藏的有价值信息一直是企业或者政府机构常见的需求之一。文本是保存信息最自然的方式,它是一种特殊的非结构化数据,具有维度高、特征稀疏和数据关联性低的特点。目前常用的聚类算法,例如K-means,K-means++等对初始聚类中心的选取具有很高的敏感性,并且调整聚类中心的方式也使得算法容易陷入局部最优解。群体智能进化算法是一类适应性和全局搜索能力更强的最优化算法,这种类型的算法一般需要通过构建一定数目的种群,种群中的个体一般表示待解决问题的一种解决方案。然后种群基于一定规则进行经验交流来更新种群,产生适应度更好的后代种群。迄今为止,许多群体智能进化算法及其改进算法被提出来用于解决文本聚类问题,例如粒子群优化算法(PSO),量子粒子群优化算法(QPSO),差分进化算法(DE)和遗传算法(GA)等,当采用基于聚类中心进行样本划分的编码方式进行聚类时,这些算法构建的种群中的个体被抽象成用来划分样本的一组聚类中心。传统的研究者将这些应用到文本聚类问题时,极少考虑种群个体间各维度上聚类中心向量的随机排列问题,即各维度上特征属性不一致对种群更新效率的影响。这些算法在迭代更新过程中,种群个体各聚类中心的位置是随机排列的,当涉及到个体间的交叉更新操作时,如果处于同一维度上却属于不同簇集上的聚类中心向量之间进行加减操作时,势必影响种群的更新效率而产生适应度更差的个体,甚至误导种群朝着脱离最优解的方向搜索,比如有两个个体分别表示为xi={b1,c1,a1}和xj={a2,b2,c2},其中字母相同表示聚类中心向量相同或非常接近。可以看出这两个个体聚类中心相似度较大但标号错开,这种情形下粒子间聚类中心向量进行交叉更新操作时,所产生的差分向量xj-xi则不起引导作用,甚至误导个体的搜索行为。因此聚类中心向量排列的随机性,即标号不一致的现象会严重影响进化算法的更新效率和朝最优解优化的方向。
技术实现思路
针对群体智能进化算法在求解聚类问题最优聚类中心过程中,种群个体各聚类中心标号不一致而引起的算法更新效率不理想的问题,本专利技术提供一种群体智能算法中的自适应调整聚类中心标号的方法,来改善群体智能进化算法在文本聚类过程中的更新效率和全局搜索能力。为解决上述技术问题,本专利技术的技术方案如下:一种群体智能算法中的自适应调整聚类中心标号的方法,用于改善群体智能进化算法在进行文本聚类时的更新效率和全局搜索能力,包括以下步骤:S1:设定一个以其聚类中心标号为基准的个体xj,另一个待调整聚类中心标号的个体为xi,计算个体xj与个体xi中各聚类中心的相似度矩阵M;S2:根据相似度最大的原则,统计相似度矩阵M各行最大值的索引列表和各列最大值的索引列表,分别表示个体xi期望与个体xj的聚类中心期望形成对应关系的列表Lij、个体xj期望与个体xi的聚类中心形成对应关系的列表Lji;S3:判断Lij是否存在重复值,即判断个体xi是否存在两个及以上的聚类中心都对应与个体xj中同一个聚类中心;若不存在,则进入步骤S7,若存在,进入步骤S4;S4:Lij存在重复值,将第一个重复值设为t,查看Lji中第t个值s,表示xj中第t个聚类中心xj(t)选择与xi中的第s个聚类中心xi(s)组成对应关系,对应关系组合为(xi(s),xj(t));S5:将xj中的第t个聚类中心xj(t)与x中除第s个聚类中心xi(s)以外其他未选择的聚类中心的相似度置为最小值,同样将xi(s)与xj中除xj(t)以外的聚类中心的相似度也置为最小值;S6:返回步骤S3;S7:按照Lij调整xi中各聚类中心标号。优选地,步骤S1中采用向量夹角余弦值计算相似度矩阵M。优选地,当步骤S1中采用向量的欧几里得距离计算相似度矩阵M时,步骤S5中最小的相似度对应最大的欧几里得距离。优选地,假设样本待划分的类别数为k,则每个个体包含k个聚类中心。对于任意两个进行交叉操作的两个个体xi与xj,其中聚类中心标号待调整个体xi={xi(1),xi(2),…,xi(k)},基准个体xj={xj(1),xj(2),…,xj(k)}。优选地,步骤S5中将xj中的第t个聚类中心xj(t)与x中除第s个聚类中心xi(s)以外的其他聚类中心的相似度置为最小值具体为将相似度矩阵M中第t列除s行外的其他值都重置为最小值,步骤S5中将与xi中除xi(s)以外的其他未被选择的聚类中心与xj(t)的相似度也置为最小值具体为将相似度矩阵M中第s行中除t列外的值都重置为最小值。上述方法包括三种机制:组成对应关系的选择权,双向选择的反复进行,聚类中心标号一致性的最大化;组成对应关系的选择权,即对应关系的确定方式:在本方法中,待调整个体的聚类中心在构造与基准个体聚类中心的对应关系时,首先根据相似度大小的原则,选择基准个体中最接近的聚类中心形成对应关系。如果存在对应关系冲突,即两个及以上的聚类中心期望对应于基准个体同一个聚类中心时,基准个体的聚类中心同样根据相似度大小原则选择待调整个体中与自身最接近的聚类中心形成对应关系。这种双向性的贪心选择策略能保证彼此相似度最大两个聚类中心形成对应关系,排列在同一维度。该过程需从待调整个体开始产生对应关系组合列表,然后基准个体再从待调整个体的关系选择中确定对应关系,基准个体拥有对应关系选择的决定权;双向选择的反复进行:在本方法中,待调整个体的某个聚类中心一旦被基准个体的一个聚类中心选中,则需要将两个个体除组成对应关系以外的聚类中心与对应组中另一个聚类中心的相似度置为最小值,防止他们继续参与应对关系的竞争或继续被选中。表现在相似度矩阵上为除保留组成对应关系的那个相似度值外,其所在行和列的其他相似度值需要重置为最小值。该过程能减少对应关系冲突的产生,需重复进行,直到对应关系不存在冲突;聚类中心标号一致性的最大化:在本方法中,待调整个体与基准个体形成对应关系的两个聚类中心并不能保证全部是相似度最大或相互最接近的,这是由于双向选择的竞争淘汰机制所决定的。因为优先从相似度最大的两个聚类中心组成对应关系,两个个体其余的聚类中心则需在已形成对应关系的聚类中心为前提,然后按照相似度大小原则进行组合配对。这种策略能最大程度上保证两个个体中越接近的聚类中心组成对应关系,确保两者聚类中心标号整体一致性的最大化。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术基于个体间聚类中心相似度矩阵的双向选择策略自适应调整聚类中心标号,通过将相似度最大,距离最接近的聚类中心向量排列在同一维度来解决算法更新过程种群个体间属于不同簇集却处于同一维度的聚类中心向量的标号排列不对应问题,从而提高群体智能进化算法在进行聚类时的种群更新效率和全局搜索能力。经过本专利技术方法调整粒子的聚类中心标号后,能保证相似度越大,距离越接近的聚类中心排列在同一维度,从而能提高群体智能进化算法解决聚类问题时的种群更新效率和收敛速度。附图说明图1为群体智能算法中的自适应调整聚类中心标号的方法流程图;图本文档来自技高网
...

【技术保护点】
1.一种群体智能算法中的自适应调整聚类中心标号方法,其特征在于,基于个体间聚类中心相似度矩阵的双向选择策略来整聚类中心的标号,从而使相似度最大的聚类中心尽量排列在同一维度,该方法包括以下步骤:S1:设定一个以其聚类中心标号为基准的个体xj,另一个待调整聚类中心标号的个体为xi,计算个体xj与个体xi中各聚类中心的相似度矩阵M;S2:根据相似度最大的原则,统计相似度矩阵M中各行最大值的索引列表和各列最大值的索引列表,分别表示个体xi期望与个体xj的聚类中心期望形成的对应关系的列表Lij、个体xj期望与个体xi的聚类中心形成对应关系的列表Lji;S3:判断Lij是否存在重复值,即判断个体xi是否存在两个及以上的聚类中心都对应与个体xj中同一个聚类中心;若不存在,则进入步骤S7,若存在,进入步骤S4;S4:Lij存在重复值,将第一个重复值设为t,查看Lji中第t个值s,表示xj中第t个聚类中心xj(t)选择与xi中的第s个聚类中心xi(s)组成对应关系,对应关系组合为(xi(s),xj(t));S5:将xj中的第t个聚类中心xj(t)与x中除第s个聚类中心xi(s)以外其它未选择的聚类中心的相似度置为最小值,同样将xi(s)与xj中除xj(t)以外的聚类中心的相似度也置为最小值;S6:返回步骤S3;S7:按照Lij调整xi中各聚类中心标号。...

【技术特征摘要】
1.一种群体智能算法中的自适应调整聚类中心标号方法,其特征在于,基于个体间聚类中心相似度矩阵的双向选择策略来整聚类中心的标号,从而使相似度最大的聚类中心尽量排列在同一维度,该方法包括以下步骤:S1:设定一个以其聚类中心标号为基准的个体xj,另一个待调整聚类中心标号的个体为xi,计算个体xj与个体xi中各聚类中心的相似度矩阵M;S2:根据相似度最大的原则,统计相似度矩阵M中各行最大值的索引列表和各列最大值的索引列表,分别表示个体xi期望与个体xj的聚类中心期望形成的对应关系的列表Lij、个体xj期望与个体xi的聚类中心形成对应关系的列表Lji;S3:判断Lij是否存在重复值,即判断个体xi是否存在两个及以上的聚类中心都对应与个体xj中同一个聚类中心;若不存在,则进入步骤S7,若存在,进入步骤S4;S4:Lij存在重复值,将第一个重复值设为t,查看Lji中第t个值s,表示xj中第t个聚类中心xj(t)选择与xi中的第s个聚类中心xi(s)组成对应关系,对应关系组合为(xi(s),xj(t));S5:将xj中的第t个聚类中心xj(t)与x中除第s个聚类中心xi(s)以外其它未选择的聚类中心的相似度置为最小值,同样将xi(s)与xj中除xj(t)以外的聚类中心的相似度也置为最小值...

【专利技术属性】
技术研发人员:胡晓敏王明丰李瑞珠李敏罗玉
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1