一种基于k-means聚类的分箱方法技术

技术编号：11350363 阅读：95 留言：0更新日期：2015-04-24 07:48

本发明专利技术公开了一种基于k-means聚类的分箱方法，包括以下步骤：对连续变量进行预处理；对预处理后的数据进行归一化处理；将归一化处理过的数据，应用k-means聚类算法，划分为多个区间：采用等距法设定k-means聚类算法的初始中心，得到聚类中心；在得到聚类中心后将相邻的聚类中心的中点作为分类的划分点，将各个对象加入到距离最近的类中，从而将数据划分为多个区间；重新计算每个聚类中心，然后重新划分数据，直到每个聚类中心不再变化，得到最终的聚类结果。本发明专利技术解决了现有分箱方法对于数据密度分布偏向明显的数据集容易造成误差的技术问题，k-means聚类算法在选取初始中心时不再是随机选取，数据分箱结果准确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据分析挖掘的数据预处理领域，具体涉及一种基于k-means聚类的分箱方法。
技术介绍
在各种数据分析挖掘中，数据预处理的其中一种手段是将连续变量离散化，而最常用的离散化手段是对连续变量做分箱处理。一个优秀的分箱方法能够有效地去除连续变量的噪声，平滑数据，增加数据粒度，降低数据计算复杂度，为之后的分析挖掘提供更好的定性以及定量分析基础。目前常用的分箱方法有等深法、等距法以及专家定义法。等深法是将数据排序，每箱具有相同的数据量；等距法是将数据集排序，在数据值区间上平均分布，即每箱的区间范围相等；专家定义法是专家根据经验及观察自定义分箱区间。这些分箱方法对全体数据进行相等的划分，对于数据密度分布偏向明显的数据集容易造成误差。聚类分析是数据挖掘的重要方法之一，它是将数据集合分成相似的对象类或者簇的过程，同一类中的数据对象彼此相似而与其他类中的对象相异。随着大数据时代的来临，聚类分析正在蓬勃的发展，受到包括数据挖掘、统计学、机器学习、空间数据库技术研宄、市场营销、金融及医疗等多领域的广泛关注。由Q. J. Mac提出的k-means聚类算法，由于其实现简单，对类内成团聚状的数据集聚类效果优秀，已成为应用最为广泛的聚类算法。K-means算法是一个经典的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象距离越近，其相似性越大。该算法认为同类对象距离应尽可能靠近。K-means算法的处理流程如下：首先，随机地选择k 个对象，每个对象代表一个类的初始均值或者中心；对剩余对象，根据其与各个类均值的距...

【技术保护点】
一种基于k‑means聚类的分箱方法，其特征在于包括以下步骤：S1、对连续变量进行预处理；S2、对步骤S1预处理后的数据进行归一化处理；S3、将归一化处理过的数据，应用k‑means聚类算法，划分为多个区间：S31、采用等距法设定k‑means聚类算法的初始中心，得到聚类中心；S32、在得到聚类中心后将相邻的聚类中心的中点作为分类的划分点，将各个对象加入到距离最近的类中，从而将数据划分为多个区间；S33、重新计算每个聚类中心；S34、重复步骤S32及S33，直到每个聚类中心不再变化，得到最终的聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：吴广财，莫玉纯，严宇平，杨秋勇，桂媛，江疆，
申请(专利权)人：广东电网有限责任公司信息中心，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人