当前位置: 首页 > 专利查询>大连大学专利>正文

一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法技术

技术编号:24756467 阅读:33 留言:0更新日期:2020-07-04 09:14
本发明专利技术公开了一种基于粒子群位置更新思想灰狼优化算法的K‑Means文本分类方法,属于数据挖掘领域,该方法包括以下步骤:对文本数据进行预处理,采用余弦角度为相似性度量,分别计算预处理后文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点间的距离,计算下一个灰狼个体的数据分配结果,直到灰狼种群中所有的灰狼个体都计算完毕,得到N种初步文本聚类结果;断粒子群位置更新思想改进的灰狼优化算法的K‑Means聚类算法是否达到最大迭代次数,根据X

A k-means text classification method based on particle swarm optimization and gray wolf optimization algorithm

【技术实现步骤摘要】
一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法
本专利技术涉及数据挖掘领域,尤其涉及一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法。
技术介绍
本语言相较于数学语言或者计算机语言,更加频繁地出现在人们的视野中,在人们的日常生活中占有非常重要的位置,是众多信息知识的载体,如网页、电子商务、电子书刊等极大地丰富人们生活的同时也传达着某种信息。而且文本语言形式多样,语义复杂,多以无结构或半结构化的形式出现,相较于传统的研究对象,其复杂程度更高,尤其面对如今“互联网+”等大数据爆炸的状况下,文本数据挖掘吸引了更多学者关注,成为数据挖掘领域中非常有前景的研究方向之一。计算机水平的不断发展,使人们无时无刻置身于海量的信息中,而这些信息多以文本为载体,因此文本聚类成为无监督聚类的一个分支。文本聚类从宏观上讲,可以看成是完成文本聚类的全过程所需的技术手段,从微观看,仅仅指文本聚类全过程中的聚类阶段。由于文本数据与一般数据不同,是一种特殊的数据对象,有着自身的特点,如:语义丰富模糊、表现形式多样、多呈现为半本文档来自技高网...

【技术保护点】
1.一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法,其特征在于:包括以下步骤:/nS1:对文本数据进行预处理,得到预处理后文本数据;/nS2:采用余弦角度为相似性度量,分别计算预处理后文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点间的距离,并按相似度最接近的原则,分别将预处理文本数据中的数据对象分配到对应的K个类簇中,直到所有的数据对象分配完毕,形成K个类簇;再计算下一个灰狼个体的数据分配结果,直到灰狼种群中所有的灰狼个体都计算完毕,得到N种初步文本聚类结果;/nS3:分别计算每一个灰狼个体到数据中心点间的距离之和,分别得到了N个灰狼个体的适应度评估函数...

【技术特征摘要】
1.一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法,其特征在于:包括以下步骤:
S1:对文本数据进行预处理,得到预处理后文本数据;
S2:采用余弦角度为相似性度量,分别计算预处理后文本数据向量中的每一个数据对象到每一个初始灰狼个体的初始聚类中心点间的距离,并按相似度最接近的原则,分别将预处理文本数据中的数据对象分配到对应的K个类簇中,直到所有的数据对象分配完毕,形成K个类簇;再计算下一个灰狼个体的数据分配结果,直到灰狼种群中所有的灰狼个体都计算完毕,得到N种初步文本聚类结果;
S3:分别计算每一个灰狼个体到数据中心点间的距离之和,分别得到了N个灰狼个体的适应度评估函数值;
S4:对N个适应度评估函数值进行按序排列,选出适应度评估函数值最小的前三只狼作为α狼,β狼,δ狼;并根据α狼,β狼,δ狼三只狼的位置,计算灰狼种群中其他灰狼个体到这三只狼的距离,并计算其余灰狼个体位置更新的中间变量的值;S5:将带有粒子群位置更新思想的所有灰狼个体进行位置更新;
S6:判断粒子群位置更新思想改进的灰狼优化算法的K-Means聚类算法是否达到最大迭代次数,如果否,则执行步骤2;如果是,输出α狼的适应度值及其位置Xα,根据Xα聚类中心得到的最终文本数据分配结果。


2.根据权利要求1所述的一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法,其特征还在于:所述文本数据进行预处理步骤如下:
S1...

【专利技术属性】
技术研发人员:邱少明张斌杜秀丽刘庆利
申请(专利权)人:大连大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1