分布式k均值数据聚类方法技术

技术编号:20797741 阅读:41 留言:0更新日期:2019-04-06 11:21
本公开提供一种分布式k均值数据聚类方法,用于处理同步传感器网络的数据,该同步传感器网络包含多个传感器节点,包括:步骤A:对同步传感器网络中各个传感器节点内的数据进行正规化;步骤B:基于分布式k++算法确定该同步传感器网络的初始聚类中心;步骤C:计算各个聚类中心与传感器节点所存储的数据之间的距离,并将数据归类给距离最近的聚类中心所代表的类别;步骤D:在整个同步传感器网络中执行平均一致性算法更新聚类中心;步骤E:重复步骤C和步骤D直至聚类中心的值收敛。本公开提供的分布式k均值数据聚类方法可以使得由各个传感器节点获得的数据直接应用在传感器层面进行数据分割,有助于减少通讯消耗,是一种十分高效的做法。

Distributed k-Mean Data Clustering Method

This disclosure provides a distributed K-means data clustering method for processing data of a synchronous sensor network, which comprises multiple sensor nodes, including: step A: normalizing data within each sensor node in a synchronous sensor network; step B: determining the initial clustering center of the synchronous sensor network based on a distributed k++ algorithm; and step C. Calculate the distance between each cluster center and the data stored by sensor nodes, and classify the data into the categories represented by the nearest cluster center; Step D: Update the cluster center by performing an average consistency algorithm throughout the synchronous sensor network; Step E: Repeat steps C and D until the value of the cluster center converges. The distributed K-means data clustering method provided in the present disclosure enables data obtained by each sensor node to be directly applied to data segmentation at the sensor level, which helps to reduce communication consumption and is a highly efficient approach.

【技术实现步骤摘要】
分布式k均值数据聚类方法
本公开涉及分布式网络数据挖掘
,尤其涉及一种分布式k均值数据聚类方法。
技术介绍
无线传感器网络(WSN)是由大量廉价微型传感器所组成的分布式网络,其由于低成本、低功耗而被广泛应用于军事、航空、环境、生态、农业、工业等领域的监测。单个传感器一般存储小,带宽低,电池容量限制,可以探测震动、温度、湿度、光强、压强等物理量。例如,在军事领域中,在恶劣的战场环境中通常会利用WSN监测敌方坦克、战机等装备,这些传感器一般会由飞机投放到战场的各个角落,通过探测地面震动等信息可以监测附近是否有敌方军队,以及判断敌方装备种类。某些情况下出于实时监控的需要,或者无法搭建一个控制中心处理各个传感器传输过来的数据,就需要依靠分布式算法在传感器网络上处理数据信息。当获取足够数量的数据后,需要对数据进行挖掘,找出需要的信息。数据聚类是数据挖掘的核心步骤,它有助于我们了解数据的内在结构及分布模式。数据聚类即把数据对象集合划分成多个不同的类或簇,每个簇内的数据对象之间的相似性要高于与其他簇内的对象的相似性。例如,在军事中对WSN探测到的数据进行聚类有利于判断敌方装备种类以便于制定相本文档来自技高网...

【技术保护点】
1.一种分布式k均值数据聚类方法,用于处理同步传感器网络的数据,该同步传感器网络包含多个传感器节点,包括:步骤A:对同步传感器网络中各个传感器节点内的数据进行正规化;步骤B:基于分布式k++算法确定该同步传感器网络的初始聚类中心;步骤C:计算各个聚类中心与传感器节点所存储的数据之间的距离,并将数据归类给距离最近的聚类中心所代表的类别;步骤D:在整个同步传感器网络中执行平均一致性算法更新聚类中心;步骤E:重复步骤C和步骤D直至聚类中心的值收敛。

【技术特征摘要】
1.一种分布式k均值数据聚类方法,用于处理同步传感器网络的数据,该同步传感器网络包含多个传感器节点,包括:步骤A:对同步传感器网络中各个传感器节点内的数据进行正规化;步骤B:基于分布式k++算法确定该同步传感器网络的初始聚类中心;步骤C:计算各个聚类中心与传感器节点所存储的数据之间的距离,并将数据归类给距离最近的聚类中心所代表的类别;步骤D:在整个同步传感器网络中执行平均一致性算法更新聚类中心;步骤E:重复步骤C和步骤D直至聚类中心的值收敛。2.根据权利要求1所述的分布式k均值数据聚类方法,在执行所述步骤A前,若同步传感器网络的拓补结构是有向图,且权值不平衡,则执行镜像不平衡修正算法修正边的权值使图平衡。3.根据权利要求1所述的分布式k均值数据聚类方法,所述步骤A中,将传感器节点中数据各个维度的值放缩到[0,1]之间。4.根据权利要求3所述的分布式k均值数据聚类方法,所述步骤A包括:步骤A1:在整个同步传感器网络中执行max-consensus算法找到存储于各个传感器节点中的数据各个维度的最大值,以[maxl,...,maxd]’的形式存储于各个传感器节点中;步骤A2:在整个同步传感器网络中执行min-consensus算法找到存储于各个传感器节点中的数据各个维度的最小值,以[minl,...,mind]’的形式存储于各个传感器节点中;步骤A3:在传感器i中,利用下式,从j=1到d,计算正规化的数据值:xij=(xij-minj)/(maxj-minj)其中,d表示数据的维度,i表示第i个传感器节点,j表示数据xi的第j分量。5.根据权利要求3所述的分布式k均值数据聚类方法,所述步骤B中:对整个同步传感器网络执行分布式k++算法得到k个初始的聚类中心,以变量c(1)=[cl(1)’,...,ck(1)’]’的形式存储于各个传感器节点内;其中,(1)表示当前迭代步为1。6.根据权利要求5所述的分布式k均值数据聚类方法,所述步骤B包括:步骤B1:每个传感器节点均生成一个(0,1)之间的随机数tempi;其中,i是传感器节点下标;步骤B2:若当前初始聚类中心个数为0,对tempi执行max-consensus算法;否则,每个传感器节点计算本地数据到各个已有的聚类中心的距离,并找出最小值,记为di,计算tempi=di2×tempi,再对tempi执行max-cons...

【专利技术属性】
技术研发人员:秦家虎付维明朱英达马麒超王帅
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1