一种基于舆情平台的抽样分布式聚类方法技术

技术编号:15690960 阅读:65 留言:0更新日期:2017-06-24 03:46
本发明专利技术提供了一种基于舆情平台的抽样分布式聚类方法,并包括如下步骤:一、获取待聚类数据,并对待聚类数据进行分片处理,得到多个分片;二、利用MapReduce中的Map函数对每一分片进行数据抽样;三、将得到的抽样数据汇总,并在MapReduce框架的Reduce过程中对汇总的抽样数据进行聚类;四、依次重复步骤二和步骤三合计进行r轮数据抽样,将每一轮的抽样数据的聚类结果记作基聚类,并得到Π={π1,π2,…,πr}的向量,其中,r为大于等于2的正整数,πi为第i轮的基聚类,1≤i≤r,且为正整数;五、再次使用MapReduce框架将基聚类集成为最终的聚类结果。所述基于舆情平台的抽样分布式聚类方法能够有效提高海量数据的聚类效率问题和在缩减数据规模的同时提高数据多样性。

A method of sampling distributed clustering based on public opinion platform

The present invention provides a sample distributed clustering method based on the platform of public opinion, and includes the following steps: first, to get the clustering data, and data partition clustering data from a number of parts; two, the use of Map MapReduce function in data sampling on each slice; three, sampling data the summary and summary of clustering for sampling data in the Reduce process MapReduce framework; four, repeat steps two and three of the total R round of data sampling, cluster sampling data of each round results denoted based clustering, and pi = {PI 1, PI 2,... Vector, r}, PI, R is greater than or equal to 2 positive integers, I based clustering for the PI I round, I = 1 ~ r, which is a positive integer; five, again using the MapReduce framework will be set based clustering the final clustering result. The sampling distributed clustering method based on public opinion platform can effectively improve the clustering efficiency of massive data and improve data diversity while reducing data size.

【技术实现步骤摘要】
一种基于舆情平台的抽样分布式聚类方法
本专利技术属于数据挖掘和机器学习领域,具体地涉及一种基于舆情平台的抽样分布式聚类方法。
技术介绍
数据聚类问题,是通过数据样本点之间的相似性来对之进行操作,让相似度高的数据样本点在同一类簇中,而相似度较低的样本点彼此远离。聚类一直以来都是数据挖掘和机器学习中的重要方法之一,但随着互联网的发展特别是Web2.0带来的用户原创内容的爆发式增长,数据量已成为传统聚类方法的瓶颈,尤其是新闻推荐、机器翻译、文献检索、情报分析、舆情监控等应用领域的文本数据,具有高维稀疏的特性。如何提高聚类算法特别是高维稀疏数据的聚类方法的效率,已成为互联网大数据数据挖掘亟待解决的重要问题。因此,有必要提供一种可以提高高维稀疏数据的聚类方法的效率的基于舆情平台的抽样分布式聚类方法。
技术实现思路
本专利技术的目的在于提供一种可以提高高维稀疏数据的聚类方法的效率的基于舆情平台的抽样分布式聚类方法。本专利技术的技术方案如下:一种基于舆情平台的抽样分布式聚类方法包括如下步骤:一、获取待聚类数据,并对所述待聚类数据进行分片处理,得到多个分片;二、利用MapReduce中的Map函数对每一所述分片进行数据抽样;三、将得到的抽样数据汇总,并在MapReduce框架的Reduce过程中对汇总的所述抽样数据进行聚类;四、依次重复步骤二和步骤三合计进行r轮数据抽样,将每一轮的抽样数据的聚类结果记作基聚类,并得到Π={π1,π2,…,πr}的向量,其中,r为大于等于2的正整数,πi为第i轮的基聚类,1≤i≤r,且为正整数;五、再次使用MapReduce框架将所述基聚类集成为最终的聚类结果。优选地,在步骤一中,对所述待聚类数据进行水平分割,并在分割过程中保证每条数据的完整性,且将分割得到的所述分片存储在分布式文件系统中。优选地,所述步骤二中进行数据抽样至少满足的要求包括:抽样技术本身足够简单、抽样基于局部数据进行和抽样结果具有一定的随机性。优选地,在步骤三中,将具体的数据抽样轮次作为key,得到的抽样数据作为value,通过shuffle函数汇聚到MapReduce的一个Reduce函数中,在所述Reduce函数中对抽样数据进行聚类。优选地,在步骤五中包括如下步骤:随机选择一定数量的所述基聚类作为质心,并用Map函数计算其他所述基聚类与所述质心间的距离,每一所述基聚类被指派到与其距离最近的所述质心所在的类簇中,并在Reduce函数中更新类簇的质心;重复这一过程直到所述类簇的质心不再改变。优选地,设定zk表示基聚类向量Π中第k个类簇的质心,描述为rk维向量:其中,优选地,设定向量Π描述为一个rk维的向量xl,则xl与zk之间的余弦距离为:其中wi表示第i个基聚类的权重,当不存在先验知识时取值为1/r。优选地,质心zk利用如下公式进行更新:其中是关于Π的常数向量,表示第i个基聚类的第k个簇中实例的数量;对于和而言,如果给定一个d维实向量y,||y||p表示y的Lp范数,即本专利技术提供的技术方案具有如下有益效果:所述基于舆情平台的抽样分布式聚类方法利用抽样技术缩减数据规模,通过多轮抽样提高基聚类结果的多样性,然后定义余弦距离将基聚类结果集成为最终的聚类结果,因此能够有效提高海量数据的聚类效率问题;并且,通过引入抽样技术,缩减数据规模的同时提高数据多样性,然后利用分布式计算框架设计两阶段的聚类过程,为提高互联网大数据中舆情项目分析的聚类质量和效率提供了有效方法。附图说明图1是本专利技术实施例提供的基于舆情平台的抽样分布式聚类方法的流程框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。除非上下文另有特定清楚的描述,本专利技术中的元件和组件,数量既可以单个的形式存在,也可以多个的形式存在,本专利技术并不对此进行限定。本专利技术中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。请参阅图1,本专利技术实施例提供的基于舆情平台的抽样分布式聚类方法100包括如下步骤:S1、获取待聚类数据,并对所述待聚类数据进行分片处理,得到多个分片。在步骤S1中,对待聚类数据进行水平分割,得到若干分片(Sharding),在分割过程中应保证每条数据(例如新闻文本等)的完整性。而且,将分割得到的所述分片存储在分布式文件系统如HDFS中,所述分片的大小由所选的分布式文件系统决定,如HDFS中每个分片大小为64M。而且,通过访问分布式文件系统,计算节点可共享分片,并且通过计算本地化,有效地降低I/O消耗。S2、利用MapReduce中的Map函数对每一所述分片进行数据抽样。具体地,在步骤S2中,在每一所述分片上进行数据抽样,出于分治和效率的考虑,抽样技术至少应满足以下几点要求:1、抽样技术本身需足够简单,否则会成为新的瓶颈2、抽样可基于局部数据进行而不必依赖全局视图3、抽样结果应具有一定的随机性。而且,满足以上几点的抽样方法均可应用于本专利技术中,对此不做具体的限定。并在,在步骤S2中,抽样操作是通过MapReduce框架中的Map函数实现的,此记作第一阶段Map过程。S3、将得到的抽样数据汇总,并在MapReduce框架的Reduce过程中对汇总的所述抽样数据进行聚类。具体地,在步骤S3中,对每一轮的抽样结果,将具体的数据抽样轮次作为key,得到的抽样数据作为value,通过shuffle函数汇聚到MapReduce的一个Reduce函数中,在所述Reduce函数中对抽样数据进行聚类,此记作第一阶段Reduce过程。而且,具体的聚类方法包括但不限于K均值、谱聚类和层次聚类等,对此本专利技术不做限定。S4、依次重复步骤S2和步骤S3合计进行r轮数据抽样,将每一轮的抽样数据的聚类结果记作基聚类,并得到Π={π1,π2,…,πr}的向量,其中,r为大于等于2的正整数,πi为第i轮的基聚类,1≤i≤r,且为正整数。S5、再次使用MapReduce框架将所述基聚类集成为最终的聚类结果。在步骤S5中,对向量Π进行聚类集成,并将每个所述基聚类视为整体,从而计算每个所述基聚类间的距离。具体地,所述步骤S5包括如下步骤:随机选择一定数量的所述基聚类作为质心,并用Map函数计算其他所述基聚类与所述质心间的距离,每一所述基聚类被指派到与其距离最近的所述质心所在的类簇中,并在Reduce函数中更新类簇的质心,此记作第二阶段Map过程和第二阶段Reduce过程;重复这一过程直到所述类簇的质心不再改变。在本实施例中,在所述第二阶段的Map过程中进行距离的计算和基聚类的类簇指派;在所述第二阶段的Reduce过程中进行中质心的更新。而且,在所述第二阶段的Map过程中,所述基于舆情平台的抽样分布式聚类方法100定义余弦距离进行计算:设定zk表示基聚类向量Π中第k个类簇的质心,描述为rk维向量:其中,而且,设定向量Π描述为一个rk维的向量xl,则xl与zk之间的余弦距离为:其中w本文档来自技高网...
一种基于舆情平台的抽样分布式聚类方法

【技术保护点】
一种基于舆情平台的抽样分布式聚类方法,其特征在于:包括如下步骤:一、获取待聚类数据,并对所述待聚类数据进行分片处理,得到多个分片;二、利用MapReduce中的Map函数对每一所述分片进行数据抽样;三、将得到的抽样数据汇总,并在MapReduce框架的Reduce过程中对汇总的所述抽样数据进行聚类;四、依次重复步骤二和步骤三合计进行r轮数据抽样,将每一轮的抽样数据的聚类结果记作基聚类,并得到Π={π1,π2,…,πr}的向量,其中,r为大于等于2的正整数,πi为第i轮的基聚类,1≤i≤r,且为正整数;五、再次使用MapReduce框架将所述基聚类集成为最终的聚类结果。

【技术特征摘要】
1.一种基于舆情平台的抽样分布式聚类方法,其特征在于:包括如下步骤:一、获取待聚类数据,并对所述待聚类数据进行分片处理,得到多个分片;二、利用MapReduce中的Map函数对每一所述分片进行数据抽样;三、将得到的抽样数据汇总,并在MapReduce框架的Reduce过程中对汇总的所述抽样数据进行聚类;四、依次重复步骤二和步骤三合计进行r轮数据抽样,将每一轮的抽样数据的聚类结果记作基聚类,并得到Π={π1,π2,…,πr}的向量,其中,r为大于等于2的正整数,πi为第i轮的基聚类,1≤i≤r,且为正整数;五、再次使用MapReduce框架将所述基聚类集成为最终的聚类结果。2.根据权利要求1所述的基于舆情平台的抽样分布式聚类方法,其特征在于:在步骤一中,对所述待聚类数据进行水平分割,并在分割过程中保证每条数据的完整性,且将分割得到的所述分片存储在分布式文件系统中。3.根据权利要求1所述的基于舆情平台的抽样分布式聚类方法,其特征在于:所述步骤二中进行数据抽样至少满足的要求包括:抽样技术本身足够简单、抽样基于局部数据进行和抽样结果具有一定的随机性。4.根据权利要求1所述的基于舆情平台的抽样分布式聚类方法,其特征在于:在步骤三中,将具体的数据抽样轮次作为key,得到的抽样数据作为value,通过shuffle函数汇聚到MapReduce的一个Reduce函数中,在所述Reduce函数中...

【专利技术属性】
技术研发人员:汪伟亚许恺黄强松陈辉
申请(专利权)人:江苏号百信息服务有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1