一种云计算环境下基于MapReduce的分布式并行文本聚类方法技术

技术编号:15864129 阅读:71 留言:0更新日期:2017-07-23 08:54
本发明专利技术涉及一种云计算环境下基于MapReduce的分布式并行文本聚类方法,首先利用向量空间模型提出一种文本相似度计算方法;其次,基于“互为最小相似度文本对”搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K‑means聚类算法;最后,基于MapReduce框架面向云计算应用的大规模文本设计出并行聚类方法。本发明专利技术方法在Hadoop平台上运用真实文本数据的实验表明,并行聚类模型在获得相当聚类效果的同时,具有明显效率优势,在不同数据规模和计算节点数目上具有良好的扩展性。

【技术实现步骤摘要】
一种云计算环境下基于MapReduce的分布式并行文本聚类方法
本专利技术涉及云计算
,尤其涉及一种云计算环境下基于MapReduce的分布式并行文本聚类方法。
技术介绍
文本挖掘是数据挖掘在文本类型数据上扩展的研究,是以文本数据作为研究对象,利用数据挖掘相关方法,从中寻找文本信息的结构、模型、模式等隐含的具有潜在价值的知识的过程,结合了数据挖掘、机器学习、自然语言处理、信息检索和知识管理等不同领域的研究成果。以互联网应用为载体的文本数据的快速增长和商业分析的迫切需求,使得文本挖掘的重要性和紧迫性也日益增强,其中在不需要训练集和预定义类别的情况下,从给定的文本集合中找到合理的文本簇划分的文本聚类研究是文本挖掘领域的一个重要研究方向。随着互联网各种应用(微博、电子商务和搜索引擎)的大规模发展,如何快速有效地挖掘应用产生的大规模文本已成为数据挖掘研究和应用领域所面临的一个巨大挑战。分布式并行计算在面对大规模数据时计算能力强大且实现简单方便,因此将分布式并行计算引入文本挖掘领域所产生的分布式文本挖掘技术是近年来的研究热点。云计算的兴起为分布式并行计算提供了更多的框架,其中Google本文档来自技高网...
一种云计算环境下基于MapReduce的分布式并行文本聚类方法

【技术保护点】
一种云计算环境下基于MapReduce的分布式并行文本聚类方法,其特征在于,包括如下步骤:(1)利用向量空间模型表示文本特征,结合文本相似度计算方法得到文本相似度计算模型;(2)利用基于“互为最小相似度文本对”搜索的文本聚类算法选择确定初始二分簇中心,通过一次划分实现簇质心寻优的二分K‑means聚类完成聚类,形成文本簇划分;(3)基于MapReduce框架,采用三个MapReduce任务进行分布式并行计算,分别负责搜索“互为最小相似度文本对”、分配文本到两个簇、最终的K‑means文本聚类,直到簇划分不再变化并输出聚类结果。

【技术特征摘要】
1.一种云计算环境下基于MapReduce的分布式并行文本聚类方法,其特征在于,包括如下步骤:(1)利用向量空间模型表示文本特征,结合文本相似度计算方法得到文本相似度计算模型;(2)利用基于“互为最小相似度文本对”搜索的文本聚类算法选择确定初始二分簇中心,通过一次划分实现簇质心寻优的二分K-means聚类完成聚类,形成文本簇划分;(3)基于MapReduce框架,采用三个MapReduce任务进行分布式并行计算,分别负责搜索“互为最小相似度文本对”、分配文本到两个簇、最终的K-means文本聚类,直到簇划分不再变化并输出聚类结果。2.根据权利要求1所述的一种云计算环境下基于MapReduce的分布式并行文本聚类方法,其特征在于:所述的文本相似度计算方法如下:给定文本di,dj,TA(di,dj)={ta1,ta2,...,tat,...,tah}表示di,dj所含特征词的并集,h为并集中特征词的数目;TS(di,dj)={ts1,ts2,...,tsk,...,tsl}表示di,dj所含特征词的交集,l为交集中特征词的数目;则文本di,dj在TS中的每个特征词tsk上的相似度sim(di,dj,tsk)定义为文本di,dj的相似度SIM(di,dj)定义为3.根据权利要求1所述的一种云计算环境下基于MapReduce的分布式并行文本聚类方法,其特征在于:所述利用向量空间模型表示文本特征的方法为:给定文本集合D={d1,d2,…,di,…,dN},di代表每个文本向量,采用向量空间模型可表示为di=(<t1,wi1>,<t2,wi2>,…,<tj,wij>,…,<tm,wim>)其中,T={t1,t2,…,tj,…,tm}表示文本集中所有文本包含的所有特征词的集合;Wi={wi1,wi2,…,wij,…,wim}表示文本di在所有特征词上对应的权重向量,采用TF-IDF计算方法得到,公式如下:其中,tfij指特征词tj在文本di中出现的频率,nij为文本di中特征词tj出现的次数,ni为文本di含有的所有特征词出现的总数;idfj指特征词tj在整个文本集中的逆向文档频率,用来衡量特征词的出现范围;N为文本集合中总文本数量,Nj表示含有特征词tj的不同文本数量。4.根据权利要求2所述的一种云计算环境下基于MapReduce的分布式并行文本聚类方法,其特征在于:所述的“互为最小相似度文本对”的定义为:若文本簇则“互为最小相似度文本对”定义为簇C中满足如下条件的两个文本di,dj:

【专利技术属性】
技术研发人员:沈晔周天和李思剑任培荣
申请(专利权)人:杭州杨帆科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1