【技术实现步骤摘要】
基于改进K-means算法的电力通信数据聚类方法
本专利技术属于电力通信的
,具体涉及一种基于改进K-means算法的电力通信数据聚类方法。
技术介绍
电力通信网络存在庞大的冗余数据,开展冗余数据处理是电力通信数据治理的重要内容,而数据聚类则是冗余数据处理的前置环节,其目的是将庞大的电力通信数据分类,从而根据各类中数据实际情况分析冗余数据类型,因地制宜采取冗余数据处理方法。K-means算法是当前电力通信网络数据聚类的主要方法,传统的K-means算法实施流程如图1所示,其主要流程包括:(1)给定K值,并随机选取初始元素;所谓K值是指聚类所得的元素分类数。传统的K-means算法的分类数K值是由人工给定,并由人工从待聚类元素中选取出初始各分类的初始元素;(2)元素分类判定;根据元素与各分类中心位置的距离,逐一判定各元素与分类的从属关系;(3)更新分类中心位置;每次元素判定结束后,均更新新增添的元素对各分类中心位置进行更新。K值和初始元素是K-means算法中实现元素聚类的关键因素 ...
【技术保护点】
1.一种基于改进K-means算法的电力通信数据聚类方法,其特征在于:包括:/nS101、将电力通信数据进行规范化处理;/nS102、规范化处理后的数据经人工选定初始分类数K,根据K值确定元素距离矩阵,并确定K个初始聚类中心;/nS103、选择一个元素,通过计算该元素与每个初始聚类中心的距离,确定该元素对应的分类组;/nS104、更新各分类组的聚类中心,确定各分类组的实际聚类中心;/nS105、重复步骤S103,直至分类组不再变化,即可得到电力通信数据的分类。/n
【技术特征摘要】 【专利技术属性】
1.一种基于改进K-means算法的电力通信数据聚类方法,其特征在于:包括:
S101、将电力通信数据进行规范化处理;
S102、规范化处理后的数据经人工选定初始分类数K,根据K值确定元素距离矩阵,并确定K个初始聚类中心;
S103、选择一个元素,通过计算该元素与每个初始聚类中心的距离,确定该元素对应的分类组;
S104、更新各分类组的聚类中心,确定各分类组的实际聚类中心;
S105、重复步骤S103,直至分类组不再变化,即可得到电力通信数据的分类。
2.根据权利要求1所述的基于改进K-means算法的电力通信数据聚类方法,其特征在于:还包括:
S106、判断初始分类数K是否满足最优分类值。
3.根据权利要求1所述的基于改进K-means算法的电力通信数据聚类方法,其特征在于:所述将电力通信数据进行规范化处理,具体为将电力通信数据转化为易于处理的字符型数值、连续型数值和离散型数值;
所述字符型数值转化过程包括:将电力通信数据中字符型数值共有种取值,转化公式可表示为:
式(1)中,xi、分别为电力通信数据的字符型属性i在处理前后的取值,Cha1、Cha2、……为该属性的N种字符型取值,按照字符型属性取值种类,可对应将其转换为0至1之间的数值;
所述连续型数值包括:将电力通信数据中连续型数值采用归一化方法进行处理,其处理公式可表示为:
式(2)中,xi、分别为电力通信数据的连续型属性i在处理前后的取值,为该连续型属性取值的上下限值。
4.根据权利要求1所述的基于改进K-means算法的电力通信数据聚类方法,其特征在于:所述规范化处理后的数据经人工选定初始分类数K,根据K值确定元素距离矩阵,并确定K个初始聚类中心,具体包括:
S1021、人工选定初始分类数K;
S1022、根据欧式距离公式计算各元素间的距离;
假设经过数据规范化处理后待分析的电力通信数据共N项,数据共包含属性M项,式(3)中,xi表示第i项数据,xi,j表示第i项数据的第j项属性取值,m表示维度,d(xi,xj)表示数据xi与数据xj之间的距离;
S1023、根据各元素间的距离,得到元素距离矩阵,确定每一行元素的平均值,即为该行对应数据与其他所有数据的平均距离;
S1024、选择最大的平均距离为首个初始聚类中心,剩余初始聚类中心的选择应满足其与已选定的初始元素平均距离最大的目标,即应满足:
技术研发人员:刘晴,刘旭,汤玮,金海,姜海,董武,
申请(专利权)人:贵州电网有限责任公司,
类型:发明
国别省市:贵州;52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。