一种基于Spark的高维稀疏文本数据聚类方法技术

技术编号:15203800 阅读:383 留言:0更新日期:2017-04-22 22:53
本发明专利技术请求保护一种基于Spark的高维稀疏文本数据聚类方法,包括步骤:用RDD读入数据集;并用RDD接口设计出分布式稀疏向量集;分布式稀疏向量集与其所在结点的完整数据集计算相似度,按编号抽象为相似矩阵。将存放的相似矩阵对称化,并求其归一化形式和Laplace矩阵形式。4、利用SVD分解步骤3中归一化Laplace矩阵,5、步骤4构建的新矩阵作为样本输入到K‑means模型进行训练。6、利用建立的模型对测试集进行聚类。本发明专利技术提高了传统谱聚类算法在大数据集下的运算性能。

A high dimensional sparse text data clustering method based on Spark

The present invention relates to Spark includes the steps of high-dimensional sparse text data clustering method based on using RDD read data set; and use the RDD interface design of a distributed sparse vector set; distributed sparse vector set and the complete data set of node similarity calculation, according to the number of abstract as similarity matrix. The similarity matrix is symmetric, and its normalized form and Laplace matrix are obtained. 4, the use of SVD decomposition steps normalized Laplace matrix of 3, 5, 4 steps of the new matrix constructed as the input samples to K means model training. 6, using the established model to test the cluster. The invention improves the operation performance of the traditional spectral clustering algorithm in large data sets.

【技术实现步骤摘要】

本专利技术涉及文本数据聚类、机器学习和分布式计算领域,具体涉及一种基于Spark的高维稀疏文本数据聚类方法。。
技术介绍
随着大数据时代的来临,互联网积累了越来越多的网络数据。这些积累下来的数据已达到普通计算机所能处理的极限。为了应对越来越困难的数据处理问题,各行各业将目光投向了基于Spark的分布式处理平台和并行稀疏数据集存储技术上。Spark是一种与Hadoop相似的大数据分布式编程框架,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark大数据平台集成了批处理、实时流处理、交互式查询与图计算于一体,避免了各种运算场景下需要部署不同集群所带来的资源浪费。Spark大数据平台为程序员提供了一种弹性分布式数据集(RDD)的数据结构。该RDD数据结构是一种分布在多机集群上的数据集并且具有高效的容错机制。借助Spark大数据平台的弹性分布式数据集(RDD)数据结构的优势,已经有许多传统机器学习算法扩展了其计算性能和数据处理能力。稀疏向量集存本文档来自技高网...
一种基于Spark的高维稀疏文本数据聚类方法

【技术保护点】
一种基于Spark的高维稀疏文本数据聚类方法,其特征在于,包括以下步骤:步骤1:通过Spark大数据平台提供的弹性分布式数据集RDD读入待处理数据集样本,并用RDD接口设计出存储高维稀疏数据集的分布式稀疏向量集;步骤2:计算待处理数据集样本之间的相似矩阵M并采用并行稀疏向量集方式存储。相似度用欧式距离方式度量;步骤3:将步骤2采用并行稀疏向量集方式存储的相似矩阵M对称化,并求出经过归一化laplace矩阵;步骤4:用SVD特征分解归一化laplace矩阵并求出K个最近邻特征向量,将这K个最近邻特征向量组成为一个最近邻矩阵;步骤5:步骤4构建的最近邻矩阵作为样本输入到K‑means模型进行训练,...

【技术特征摘要】
1.一种基于Spark的高维稀疏文本数据聚类方法,其特征在于,包括以下步骤:步骤1:通过Spark大数据平台提供的弹性分布式数据集RDD读入待处理数据集样本,并用RDD接口设计出存储高维稀疏数据集的分布式稀疏向量集;步骤2:计算待处理数据集样本之间的相似矩阵M并采用并行稀疏向量集方式存储。相似度用欧式距离方式度量;步骤3:将步骤2采用并行稀疏向量集方式存储的相似矩阵M对称化,并求出经过归一化laplace矩阵;步骤4:用SVD特征分解归一化laplace矩阵并求出K个最近邻特征向量,将这K个最近邻特征向量组成为一个最近邻矩阵;步骤5:步骤4构建的最近邻矩阵作为样本输入到K-means模型进行训练,完成聚类。2.根据权利要求1所述的基于Spark的高维稀疏文本数据聚类方法,其特征在于,用RDD接口设计出适用于存储高维稀疏数据集的分布式稀疏向量集的步骤包括:A1、使用分布式弹性数据集RDD读入高维稀疏文本数据集;A2、数据集中的每个样本采用稀疏存储记为A;A3、对A的样本随机采样划分为少样本数据块B,每个数据块用索引标记;A4、利用Spark数据平台提供编程接口MapPartitionWithIndex根据索引号将少样本的数据块B分配到集群结点中。3.根据权利要求1所述的基于Spark的高维稀疏文本数据聚类方法,其特征在于,所述步骤3包括具体包...

【专利技术属性】
技术研发人员:王进黄超莫倩雯陈乔松邓欣欧阳卫华胡峰李智星雷大江
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1