【技术实现步骤摘要】
基于并行改进的K-means算法的大数据文本聚类方法及系统
本专利技术属于文本聚类
,尤其涉及基于并行改进的K-means算法的大数据文本聚类方法及系统。
技术介绍
近年来,随着互联网信息量的迅猛增加,产生了海量的网络文本数据,文本数据是一种非结构化数据,具有高维、数据量大、价值密度低等特点,如何对海量网络文本信息进行有效处理及价值挖掘已成为当今中文信息处理的研究热点之一,对大批量的文本进行分类更是其中一个重要的研究领域,当前,在互联网大规模文本信息挖掘处理中,聚类可应用于预处理阶段、文本语义分析、文档相似性分析、语料分类分析及主题分析等多个领域,文本聚类通过将文本划分到有意义的几个类别中,使同一个类别中文本之间的相似度高于不同类别间文本之间的相似度,从而实现对文本信息的有效组织和管理,有效的文本聚类可以帮助人们更好地理解和导航信息检索工具的检索结果,在这些聚类方法中,应用最广泛的是以划分为基础的K-means算法,K-means算法在聚类时,首先需要指定簇的个数k和随机选取k个初始中心点,但往往我们无法预先确定簇的个 ...
【技术保护点】
1.基于并行改进的K-means算法的大数据文本聚类方法,其特征在于,包括:/n将文本存储系统中的大数据文本进行非结构化文本数据预处理;/n将预处理后的大数据文本通过训练词向量方法word2Vec特征词权重算法计算文本特征词权重;/n通过Canopy中心点选取算法和K-means基于距离的聚类算法相结合的SWCK-means文本聚类算法处理将低维度的大数据文本数据进行聚类。/n
【技术特征摘要】
1.基于并行改进的K-means算法的大数据文本聚类方法,其特征在于,包括:
将文本存储系统中的大数据文本进行非结构化文本数据预处理;
将预处理后的大数据文本通过训练词向量方法word2Vec特征词权重算法计算文本特征词权重;
通过Canopy中心点选取算法和K-means基于距离的聚类算法相结合的SWCK-means文本聚类算法处理将低维度的大数据文本数据进行聚类。
2.根据权利要求1所述的基于并行改进的K-means算法的大数据文本聚类方法,其特征在于,所述通过Canopy中心点选取算法和K-means基于距离的聚类算法相结合的SWCK-means文本聚类算法处理包括:
将具有文本特征词权重的大数据文本数据并行Canopy聚类得到聚类中心点,以聚类中心点作为K-means聚类的初始聚类中心点并并行K-means算法进行聚类。
3.根据权利要求2所述的基于并行改进的K-means算法的大数据文本聚类方法,其特征在于,所述大数据文本聚类方法还包括:
将基于Hadoop分布式处理的软件框架的HDFS分布式文件系统中读出文本数据对象集生成初始分布式弹性数据集RDD;
将RDD数据进行预处理,将预处理的文本数据向量化,将向量化的文本数据加入Cache中进行持久化形成持久化文本向量;
将持久化文本向量并行训练word2Vec模型;
将持久化文本向量并行化Canopy算法,并对数据RDD进行切分,分发到集群中各个并行节点;
在集群中各个并行节点处执行Map操作计算各自分片的文本数据对象与Canopy中心点的距离以确定局部Canopy中心点;
将局部Canopy中心点通过Reduce操作合并成全局Canopy中心点;
将集群中各个并行节点依据全局Canopy中心点通过Map操作将数据对象全集划分到不同的Canopy并执行Cache操作将其数据持久化形成Canopy持久化文本向量;
将Canopy持久化文本向量剔除较少的Canopy类别后,将其余Canopy中心点列表赋值给K-means中初始聚类中心点列表;
在集群中各个并行节点处运行K-means局部聚类操作,所述K-means局部聚类操作为在经过Cache之后的RDD进行Map操作执行K-means局部聚类;
在集群中主控节点中运行主控局部聚类操作,所述主控局部聚类操作包括通过Reduce操作将各个并行节点产生的局部聚类结果归并为全局聚类结果,并更新各个类的中心点;
判断是否满足迭代退出条件,若满足,则输出结果,若不满足,则重复执行K-means局部聚类操作和主控局部聚类操作。
4.根据权利要求3所述的基于并行改进的K-means算法的大数据文本聚类方法,其特征在于,所述词向量模型word2Vec特征词权重算法包括:
将每个词语均映射成...
【专利技术属性】
技术研发人员:李雷孝,周成栋,王慧,马志强,王永生,
申请(专利权)人:内蒙古工业大学,
类型:发明
国别省市:内蒙;15
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。