一种基于分布式计算平台改进的k均值聚类方法技术

技术编号：14146972 阅读：80 留言：0更新日期：2016-12-11 03:58

本发明专利技术公开了一种基于分布式计算平台改进的k均值聚类方法，针对海量数据处理慢的问题引入了分布式计算平台Spark的，针对迭代次数过多的问题，引入卡洛斯卡尔算法，针对没有考虑向量各特征间的相关性，引入谷本距离。首先，通过克洛斯卡尔算法来对随机选取的k个点来构造最小生成树并求出对应的权值和，重复n次，然后按照这n次得到的权值和，从中选取出最大的权值和并且确保由k个点组成的边之间的距离值相差不大，这样可以保证簇心相对均匀分布，最后使用经谷本距离改进后的k均值算法进行聚类运算。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种在机器学习中适用于分布式计算平台Spark改进的k均值聚类方法，属于数据挖掘

技术介绍
互联网技术和信息技术的飞速发展导致了信息资源的急剧增长，从而引起严重的信息过载的问题。如何从海量的数据中挖掘出隐含的有用的信息引起人们越来越多的关心，机器学习技术由此产生。聚类分析就是其中相当重要的一部分。它将抽象或者物理的对象的集合组成多个类，使得同一个类的对象之间具有较高的相似度，而不同类的对象之间相似度尽可能的低。在机器学习领域，国内外提出了划分型类聚、密度型类聚、网络型类聚类聚算法。就目前的聚类算法而言还存在如下这些问题：对于初始中心选择敏感，极易陷入局部最优解的问题；对于海量数据和高维数据的处理能力有限的问题等。k均值算法是非常经典的基于划分的聚类算法，由Macqueen在1967年提出的解决聚类问题的经典算法。k均值算法由于其快速简单而被广泛的使用，然而在实际中发现了k均值存在一些问题，如对初始中心敏感，必须给出簇的数目，聚类的结果容易受到噪声的干扰，对海量数据的处理速度，数据的迭代次数多等问题。目前，国内外学者提出一系列对此改的方法，但是这些改进增加了k均值算法的复杂度，增加了数据处理的迭代次数以及对海量数据的处理十分慢。所以本专利技术提出一种基于分布式计算平台改进的k均值聚类方法来解决上述问题。现有技术一单机版本的通过卡洛斯卡尔算法来对初始中心进行选择后改进的k均值算法。现有技术一的技术方案根据克洛斯卡尔算法对随机选取的k个点求出这k个点的最小生成树权值和，重复n次，然后根据这n次的权值和选取出权值和最大的，最后使用k均值算...
一种基于分布式计算平台改进的k均值聚类方法

【技术保护点】
一种基于分布式计算平台改进的k均值聚类方法，其特征在于：首先，根据克洛斯卡尔算法对随机选取的k个点求出该点集的最小生成树权值和，重复n次，然后根据这n次的权值和选取出权值和最大并保证该点集的各边的权值相差不大，这样可以保证簇心相对均匀分布，最后使用经谷本距离改进后的k均值算法进行聚类运算，其步骤如下：1)从样本中随机选取k个数据向量，对每个数据向量的每一特征进行规范化，使数据向量的每一特征的取值在0～1之间，对选取的k个数据向量，使用克洛斯卡尔算法，求出最小生成树的权值和，重复这个过程n次，记第i次计算得到的最小生成树权值和为di，2)求出最小生成树权值和中的最大值MAX(d1,d2,...,dn)对应的由k个数据向量组成的点集；3)倘若求出的点集的各边的权值相差不大时，则将该点集作为初始簇中心的k个初始中心，转步骤4)；否则排除该点集，转步骤2)；4)然后运行基于分布式计算平台Spark改进后的k均值算法；运行过程中根据谷本距离公式计算每个数据向量到k个簇中心的距离，根据计算得到的k个距离值，将数据向量放入到距离最小的这个簇心所对应的蔟中，然后通过每个簇中所有数据向量求平均值来更新蔟...

【技术特征摘要】
1.一种基于分布式计算平台改进的k均值聚类方法，其特征在于：首先，根据克洛斯卡尔算法对随机选取的k个点求出该点集的最小生成树权值和，重复n次，然后根据这n次的权值和选取出权值和最大并保证该点集的各边的权值相差不大，这样可以保证簇心相对均匀分布，最后使用经谷本距离改进后的k均值算法进行聚类运算，其步骤如下：1)从样本中随机选取k个数据向量，对每个数据向量的每一特征进行规范化，使数据向量的每一特征的取值在0～1之间，对选取的k个数据向量，使用克洛斯卡尔算法，求出最小生成树的权值和，重复这个过程n次，记第i次计算得到的最小生成树权值和为di，2)求出最小生成树权值和中的最大值MAX(d1,d2,...,dn)对应的由k个数据向量组成的点集；3)倘若求出的点集的各边的权值相差不大时，则将该点集作为初始簇中心的k个初始中心，转步骤4)；否则排除该点集，转步骤2)；4)然后运行基于...

【专利技术属性】
技术研发人员：纪小展，张成，徐平平，戴磊，
申请(专利权)人：上海凌科智能科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人