【技术实现步骤摘要】
本专利技术属于数据分析挖掘的数据预处理领域,具体涉及一种基于k-means聚类的 分箱方法。
技术介绍
在各种数据分析挖掘中,数据预处理的其中一种手段是将连续变量离散化,而最 常用的离散化手段是对连续变量做分箱处理。一个优秀的分箱方法能够有效地去除连续变 量的噪声,平滑数据,增加数据粒度,降低数据计算复杂度,为之后的分析挖掘提供更好的 定性以及定量分析基础。 目前常用的分箱方法有等深法、等距法以及专家定义法。等深法是将数据排序,每 箱具有相同的数据量;等距法是将数据集排序,在数据值区间上平均分布,即每箱的区间范 围相等;专家定义法是专家根据经验及观察自定义分箱区间。这些分箱方法对全体数据进 行相等的划分,对于数据密度分布偏向明显的数据集容易造成误差。 聚类分析是数据挖掘的重要方法之一,它是将数据集合分成相似的对象类或者簇 的过程,同一类中的数据对象彼此相似而与其他类中的对象相异。随着大数据时代的来临, 聚类分析正在蓬勃的发展,受到包括数据挖掘、统计学、机器学习、空间数据库技术研宄、市 场营销、金融及医疗等多领域的广泛关注。 由Q. J. Mac提出的k-means聚类算法,由于其实现简单,对类内成团聚状的数据集 聚类效果优秀,已成为应用最为广泛的聚类算法。K-means算法是一个经典的基于距离的 聚类算法,采用距离作为相似性的评价指标,即认为两个对象距离越近,其相似性越大。该 算法认为同类对象距离应尽可能靠近。K-means算法的处理流程如下:首先,随机地选择k 个对象,每个对象代表一个类的初始均值或者中心;对剩余对象,根据其与各个类均值的距 ...
【技术保护点】
一种基于k‑means聚类的分箱方法,其特征在于包括以下步骤:S1、对连续变量进行预处理;S2、对步骤S1预处理后的数据进行归一化处理;S3、将归一化处理过的数据,应用k‑means聚类算法,划分为多个区间:S31、采用等距法设定k‑means聚类算法的初始中心,得到聚类中心;S32、在得到聚类中心后将相邻的聚类中心的中点作为分类的划分点,将各个对象加入到距离最近的类中,从而将数据划分为多个区间;S33、重新计算每个聚类中心;S34、重复步骤S32及S33,直到每个聚类中心不再变化,得到最终的聚类结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:吴广财,莫玉纯,严宇平,杨秋勇,桂媛,江疆,
申请(专利权)人:广东电网有限责任公司信息中心,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。