群体智能算法中的自适应调整聚类中心标号方法技术

技术编号：22330181 阅读：46 留言：0更新日期：2019-10-19 12:17

本发明专利技术公开了一种基于两组聚类中心相似度矩阵的自适应调整聚类中心标号的方法，用于解决群体智能进化算法在采用基于划分的形式进行聚类时，构造的种群中个体间各聚类中心随机排列导致的聚类中心标号不一致，即属于不同簇集的聚类中心却排列在同一维度的问题而导致算法种群个体更新效率低下和搜索盲目性的问题。所提出方法采用一种双向选择的竞争淘汰策略，将个体间相似度最大，距离最接近的聚类中心尽量排列在同一维度，保证聚类中心标号一致性的最大化。

Adaptive cluster center labeling method in swarm intelligence algorithm

全部详细技术资料下载

【技术实现步骤摘要】
群体智能算法中的自适应调整聚类中心标号方法
本专利技术涉及聚类算法和群体智能进化算法领域，更具体地，涉及一种群体智能算法中的自适应调整聚类中心标号的方法。
技术介绍
文本聚类在文本挖掘领域起着至关重要的作用，对互联网和实际生产环境中的海量文本数据进行有效组织和划分，从中发掘隐藏的有价值信息一直是企业或者政府机构常见的需求之一。文本是保存信息最自然的方式，它是一种特殊的非结构化数据，具有维度高、特征稀疏和数据关联性低的特点。目前常用的聚类算法，例如K-means，K-means++等对初始聚类中心的选取具有很高的敏感性，并且调整聚类中心的方式也使得算法容易陷入局部最优解。群体智能进化算法是一类适应性和全局搜索能力更强的最优化算法，这种类型的算法一般需要通过构建一定数目的种群，种群中的个体一般表示待解决问题的一种解决方案。然后种群基于一定规则进行经验交流来更新种群，产生适应度更好的后代种群。迄今为止，许多群体智能进化算法及其改进算法被提出来用于解决文本聚类问题，例如粒子群优化算法(PSO)，量子粒子群优化算法(QPSO)，差分进化算法(DE)和遗传算法(GA)等，当采用基于聚类中心进行样本划分的编码方式进行聚类时，这些算法构建的种群中的个体被抽象成用来划分样本的一组聚类中心。传统的研究者将这些应用到文本聚类问题时，极少考虑种群个体间各维度上聚类中心向量的随机排列问题，即各维度上特征属性不一致对种群更新效率的影响。这些算法在迭代更新过程中，种群个体各聚类中心的位置是随机排列的，当涉及到个体间的交叉更新操作时，如果处于同一维度上却属于不同簇集上的聚类中心向量之间进...

【技术保护点】
1.一种群体智能算法中的自适应调整聚类中心标号方法，其特征在于，基于个体间聚类中心相似度矩阵的双向选择策略来整聚类中心的标号，从而使相似度最大的聚类中心尽量排列在同一维度，该方法包括以下步骤：S1：设定一个以其聚类中心标号为基准的个体xj，另一个待调整聚类中心标号的个体为xi，计算个体xj与个体xi中各聚类中心的相似度矩阵M；S2：根据相似度最大的原则，统计相似度矩阵M中各行最大值的索引列表和各列最大值的索引列表，分别表示个体xi期望与个体xj的聚类中心期望形成的对应关系的列表Lij、个体xj期望与个体xi的聚类中心形成对应关系的列表Lji；S3：判断Lij是否存在重复值，即判断个体xi是否存在两个及以上的聚类中心都对应与个体xj中同一个聚类中心；若不存在，则进入步骤S7，若存在，进入步骤S4；S4：Lij存在重复值，将第一个重复值设为t，查看Lji中第t个值s，表示xj中第t个聚类中心xj(t)选择与xi中的第s个聚类中心xi(s)组成对应关系，对应关系组合为(xi(s)，xj(t))；S5：将xj中的第t个聚类中心xj(t)与x中除第s个聚类中心xi(s)以外其它未选择的聚类中心的...

【技术特征摘要】
1.一种群体智能算法中的自适应调整聚类中心标号方法，其特征在于，基于个体间聚类中心相似度矩阵的双向选择策略来整聚类中心的标号，从而使相似度最大的聚类中心尽量排列在同一维度，该方法包括以下步骤：S1：设定一个以其聚类中心标号为基准的个体xj，另一个待调整聚类中心标号的个体为xi，计算个体xj与个体xi中各聚类中心的相似度矩阵M；S2：根据相似度最大的原则，统计相似度矩阵M中各行最大值的索引列表和各列最大值的索引列表，分别表示个体xi期望与个体xj的聚类中心期望形成的对应关系的列表Lij、个体xj期望与个体xi的聚类中心形成对应关系的列表Lji；S3：判断Lij是否存在重复值，即判断个体xi是否存在两个及以上的聚类中心都对应与个体xj中同一个聚类中心；若不存在，则进入步骤S7，若存在，进入步骤S4；S4：Lij存在重复值，将第一个重复值设为t，查看Lji中第t个值s，表示xj中第t个聚类中心xj(t)选择与xi中的第s个聚类中心xi(s)组成对应关系，对应关系组合为(xi(s)，xj(t))；S5：将xj中的第t个聚类中心xj(t)与x中除第s个聚类中心xi(s)以外其它未选择的聚类中心的相似度置为最小值，同样将xi(s)与xj中除xj(t)以外的聚类中心的相似度也置为最小值...

【专利技术属性】
技术研发人员：胡晓敏，王明丰，李瑞珠，李敏，罗玉，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人