The present invention provides a sample distributed clustering method based on the platform of public opinion, and includes the following steps: first, to get the clustering data, and data partition clustering data from a number of parts; two, the use of Map MapReduce function in data sampling on each slice; three, sampling data the summary and summary of clustering for sampling data in the Reduce process MapReduce framework; four, repeat steps two and three of the total R round of data sampling, cluster sampling data of each round results denoted based clustering, and pi = {PI 1, PI 2,... Vector, r}, PI, R is greater than or equal to 2 positive integers, I based clustering for the PI I round, I = 1 ~ r, which is a positive integer; five, again using the MapReduce framework will be set based clustering the final clustering result. The sampling distributed clustering method based on public opinion platform can effectively improve the clustering efficiency of massive data and improve data diversity while reducing data size.
【技术实现步骤摘要】
一种基于舆情平台的抽样分布式聚类方法
本专利技术属于数据挖掘和机器学习领域,具体地涉及一种基于舆情平台的抽样分布式聚类方法。
技术介绍
数据聚类问题,是通过数据样本点之间的相似性来对之进行操作,让相似度高的数据样本点在同一类簇中,而相似度较低的样本点彼此远离。聚类一直以来都是数据挖掘和机器学习中的重要方法之一,但随着互联网的发展特别是Web2.0带来的用户原创内容的爆发式增长,数据量已成为传统聚类方法的瓶颈,尤其是新闻推荐、机器翻译、文献检索、情报分析、舆情监控等应用领域的文本数据,具有高维稀疏的特性。如何提高聚类算法特别是高维稀疏数据的聚类方法的效率,已成为互联网大数据数据挖掘亟待解决的重要问题。因此,有必要提供一种可以提高高维稀疏数据的聚类方法的效率的基于舆情平台的抽样分布式聚类方法。
技术实现思路
本专利技术的目的在于提供一种可以提高高维稀疏数据的聚类方法的效率的基于舆情平台的抽样分布式聚类方法。本专利技术的技术方案如下:一种基于舆情平台的抽样分布式聚类方法包括如下步骤:一、获取待聚类数据,并对所述待聚类数据进行分片处理,得到多个分片;二、利用MapReduce中的Map函数对每一所述分片进行数据抽样;三、将得到的抽样数据汇总,并在MapReduce框架的Reduce过程中对汇总的所述抽样数据进行聚类;四、依次重复步骤二和步骤三合计进行r轮数据抽样,将每一轮的抽样数据的聚类结果记作基聚类,并得到Π={π1,π2,…,πr}的向量,其中,r为大于等于2的正整数,πi为第i轮的基聚类,1≤i≤r,且为正整数;五、再次使用MapReduce框架将所述基聚类集成 ...
【技术保护点】
一种基于舆情平台的抽样分布式聚类方法,其特征在于:包括如下步骤:一、获取待聚类数据,并对所述待聚类数据进行分片处理,得到多个分片;二、利用MapReduce中的Map函数对每一所述分片进行数据抽样;三、将得到的抽样数据汇总,并在MapReduce框架的Reduce过程中对汇总的所述抽样数据进行聚类;四、依次重复步骤二和步骤三合计进行r轮数据抽样,将每一轮的抽样数据的聚类结果记作基聚类,并得到Π={π1,π2,…,πr}的向量,其中,r为大于等于2的正整数,πi为第i轮的基聚类,1≤i≤r,且为正整数;五、再次使用MapReduce框架将所述基聚类集成为最终的聚类结果。
【技术特征摘要】
1.一种基于舆情平台的抽样分布式聚类方法,其特征在于:包括如下步骤:一、获取待聚类数据,并对所述待聚类数据进行分片处理,得到多个分片;二、利用MapReduce中的Map函数对每一所述分片进行数据抽样;三、将得到的抽样数据汇总,并在MapReduce框架的Reduce过程中对汇总的所述抽样数据进行聚类;四、依次重复步骤二和步骤三合计进行r轮数据抽样,将每一轮的抽样数据的聚类结果记作基聚类,并得到Π={π1,π2,…,πr}的向量,其中,r为大于等于2的正整数,πi为第i轮的基聚类,1≤i≤r,且为正整数;五、再次使用MapReduce框架将所述基聚类集成为最终的聚类结果。2.根据权利要求1所述的基于舆情平台的抽样分布式聚类方法,其特征在于:在步骤一中,对所述待聚类数据进行水平分割,并在分割过程中保证每条数据的完整性,且将分割得到的所述分片存储在分布式文件系统中。3.根据权利要求1所述的基于舆情平台的抽样分布式聚类方法,其特征在于:所述步骤二中进行数据抽样至少满足的要求包括:抽样技术本身足够简单、抽样基于局部数据进行和抽样结果具有一定的随机性。4.根据权利要求1所述的基于舆情平台的抽样分布式聚类方法,其特征在于:在步骤三中,将具体的数据抽样轮次作为key,得到的抽样数据作为value,通过shuffle函数汇聚到MapReduce的一个Reduce函数中,在所述Reduce函数中...
【专利技术属性】
技术研发人员:汪伟亚,许恺,黄强松,陈辉,
申请(专利权)人:江苏号百信息服务有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。