聚类设备和方法技术

技术编号:14444610 阅读:108 留言:0更新日期:2017-01-15 09:25
提供了一种聚类设备,包括:获取单元,被配置为获取监测点的监测数据,所述监测数据是时空数据;划分单元,被配置为从所获取的监测数据中选取目标数据,并对选取的目标数据划分级别;构造单元,被配置为根据划分级别后的目标数据来构造聚类参数;以及确定单元,被配置为根据聚类参数来确定监测点的类别。还提供了一种聚类方法。采用本发明专利技术,能够获得监测点之间的时空变化的关联。就大气污染监测数据而言,能够获得污染传播链路相似的污染节点,从而实现了污染溯源。

【技术实现步骤摘要】

本申请涉及数据分析领域,具体涉及一种聚类设备和方法
技术介绍
大气污染的形成受排放物、扩散条件、地理环境等因素影响,其成因复杂多样,这为准确地分析某地区大气污染的分布和扩散趋势带来了困难。尤其是对污染源头的追溯,缺乏有效的数据分析方法。
技术实现思路
本专利技术综合考虑大气污染物、天气、地理等影响因素,挖掘大气污染监测点之间的时空关联特性,并以此聚合具有相同污染变化和扩散趋势等特征的监测点。本专利技术不仅能够适用于大气污染数据,也适用于其他具有相似时空特征的数据,如交通数据等。根据本专利技术的一个方面,提供了一种聚类设备,包括:获取单元,被配置为获取监测点的监测数据,所述监测数据是时空数据;划分单元,被配置为从所获取的监测数据中选取目标数据,并对选取的目标数据划分级别;构造单元,被配置为根据划分级别后的目标数据来构造聚类参数;以及确定单元,被配置为根据聚类参数来确定监测点的类别。在一个实施例中,划分单元被配置为:对选取的目标数据进行分组;以及通过对分组后的数据进行直方图均衡来划分级别。在一个实施例中,构造单元被配置为:计算监测点之间的激活力,所述激活力表示监测点之间的关联程度;根据激活力来计算监测点之间的亲和度,所述亲和度表示监测点之间的传播链路的重合程度。在一个实施例中,构造单元被配置为:计算监测点i的监测数据位于某个级别的频度fi;计算监测点j的监测数据位于某个级别的频度fj;计算监测点i和监测点j的监测数据同时位于某个级别的频度fij;计算监测点i和监测点j之间的加权距离dij;根据fi、fj、fij和dij来计算监测点i和监测点j之间的激活力。在一个实施例中,fij是监测点i和监测点j在特定时间窗内同时出现在某个相同级别的次数,fi是监测点i在特定时间窗内单独出现在该相同级别的次数,fj是监测点j在特定时间窗内单独出现在该相同级别的次数。在一个实施例中,fij是监测点i和监测点j在特定时间窗内从某个相同级别跨越至另一相同级别的次数,fi是监测点i在特定时间窗内单独发生该级别跨越的次数,fj是监测点j在特定时间窗内单独发生该级别跨越的次数。在一个实施例中,构造单元被配置为根据以下参数来计算加权距离dij:监测点i和监测点j之间的地理距离、实时风力级别、风向与监测点i和监测点j的连线之间的夹角、监测点i和监测点j的海拔高度、以及风速监测点的海拔高度。在一个实施例中,构造单元被配置为:确定指向监测点i和监测点j并且激活力大于预定阈值的监测点k的集合;确定监测点i和监测点j所指向的并且激活力大于所述预定阈值的监测点m的集合;基于监测点k的集合和监测点m的集合,计算监测点i和监测点j之间的亲和度。优选地,监测数据包括大气污染监测数据或交通数据。在一个实施例中,确定单元被配置为采用K-means聚类算法来确定监测点的类别。根据本专利技术的另一个方面,提供了一种聚类方法,包括:获取监测点的监测数据,所述监测数据是时空数据;从所获取的监测数据中选取目标数据,并对选取的目标数据划分级别;根据划分级别后的目标数据来构造聚类参数;以及根据聚类参数来确定监测点的类别。在一个实施例中,对选取的目标数据划分级别包括:对选取的目标数据进行分组;以及通过对分组后的数据进行直方图均衡来划分级别。在一个实施例中,构造聚类参数包括:计算监测点之间的激活力,所述激活力表示监测点之间的关联程度;根据激活力来计算监测点之间的亲和度,所述亲和度表示监测点之间的传播链路的重合程度。在一个实施例中,计算监测点之间的激活力包括:计算监测点i的监测数据位于某个级别的频度fi;计算监测点j的监测数据位于某个级别的频度fj;计算监测点i和监测点j的监测数据同时位于某个级别的频度fij;计算监测点i和监测点j之间的加权距离dij;根据fi、fj、fij和dij来计算监测点i和监测点j之间的激活力。在一个实施例中,fij是监测点i和监测点j在特定时间窗内同时出现在某个相同级别的次数,fi是监测点i在特定时间窗内单独出现在该相同级别的次数,fj是监测点j在特定时间窗内单独出现在该相同级别的次数。在一个实施例中,fij是监测点i和监测点j在特定时间窗内从某个相同级别跨越至另一相同级别的次数,fi是监测点i在特定时间窗内单独发生该级别跨越的次数,fj是监测点j在特定时间窗内单独发生该级别跨越的次数。在一个实施例中,根据以下参数来计算加权距离dij:监测点i和监测点j之间的地理距离、实时风力级别、风向与监测点i和监测点j的连线之间的夹角、监测点i和监测点j的海拔高度、以及风速监测点的海拔高度。在一个实施例中,计算监测点之间的亲和度包括:确定指向监测点i和监测点j并且激活力大于预定阈值的监测点k的集合;确定监测点i和监测点j所指向的并且激活力大于所述预定阈值的监测点m的集合;基于监测点k的集合和监测点m的集合,计算监测点i和监测点j之间的亲和度。优选地,监测数据包括大气污染监测数据或交通数据。在一个实施例中,采用K-means聚类算法来确定监测点的类别。采用本专利技术的技术方案,能够获得数据点之间的时空变化关联。对于大气污染监测数据,能够获得污染传播链路相似的污染节点,从而实现了污染溯源。附图说明通过下文结合附图的详细描述,本专利技术的上述和其它特征将会变得更加明显,其中:图1是示出了根据本专利技术一个实施例的聚类设备的框图。图2是示出了根据本专利技术一个实施例的聚类方法的流程图。图3是示出了根据本专利技术一个实施例的划分级别的示意图。图4-12是示出了根据本专利技术一个具体示例的数据计算结果的示意图。具体实施方式下面,通过结合附图对本专利技术的具体实施例的描述,本专利技术的原理和实现将会变得明显。应当注意的是,本专利技术不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本专利技术无关的公知技术的详细描述。图1是示出了根据本专利技术一个实施例的聚类设备的框图。如图1所示,聚类设备10包括获取单元110、划分单元120、构造单元130和确定单元140。下面,详细描述聚类设备10中的各个单元的操作。获取单元110被配置为获取监测点的监测数据,该监测数据是时空数据。在本申请中,“时空数据”是指同时具有时间和空间维度的数据,例如大气污染监测数据、交通流量数据等等。在一个示例中,对于大气污染监测站点来说,监测点的时空数据可以包括6种主要大气污染物(PM2.5、PM10、SO2、NO2、CO、O3)的浓度及其对应空气质量指数(IAQI)值。划分单元120被配置为从获取单元110获取的监测数据中选取目标数据,并对选取的目标数据划分级别。优选地,划分单元120首先对选取的目标数据进行分组,然后通过对分组后的数据进行直方图均衡来划分级别。例如,就大气污染监测数据来说,可依据六种大气污染物(PM2.5、PM10、SO2、NO2、CO、O3)的分布趋势,将其分为三组。即,CO、NO2、SO2一组,O3一组,PM2.5、PM10一组。各组的IAQI为其组内对应污染物IAQI的均值,分别记为IAQI1、IAQI2、和IAQI3。然后,对于不同季节/时间段,直方图均衡后的所划分的等级数目和等级之间的界限不尽相同,可以视实际需求而定。以2013.12-2014.2期间的大气污染监测数据为例,将其本文档来自技高网...
聚类设备和方法

【技术保护点】
一种聚类设备,包括:获取单元,被配置为获取监测点的监测数据,所述监测数据是时空数据;划分单元,被配置为从所获取的监测数据中选取目标数据,并对选取的目标数据划分级别;构造单元,被配置为根据划分级别后的目标数据来构造聚类参数;以及确定单元,被配置为根据聚类参数来确定监测点的类别。

【技术特征摘要】
1.一种聚类设备,包括:获取单元,被配置为获取监测点的监测数据,所述监测数据是时空数据;划分单元,被配置为从所获取的监测数据中选取目标数据,并对选取的目标数据划分级别;构造单元,被配置为根据划分级别后的目标数据来构造聚类参数;以及确定单元,被配置为根据聚类参数来确定监测点的类别。2.根据权利要求1所述的设备,其中,所述划分单元被配置为:对选取的目标数据进行分组;以及通过对分组后的数据进行直方图均衡来划分级别。3.根据权利要求1所述的设备,其中,所述构造单元被配置为:计算监测点之间的激活力,所述激活力表示监测点之间的关联程度;根据激活力来计算监测点之间的亲和度,所述亲和度表示监测点之间的传播链路的重合程度。4.根据权利要求3所述的设备,其中,所述构造单元被配置为:计算监测点i的监测数据位于某个级别的频度fi;计算监测点j的监测数据位于某个级别的频度fj;计算监测点i和监测点j的监测数据同时位于某个级别的频度fij;计算监测点i和监测点j之间的加权距离dij;根据fi、fj、fij和dij来计算监测点i和监测点j之间的激活力。5.根据权利要求4所述的设备,其中,fij是监测点i和监测点j在特定时间窗内同时出现在某个相同级别的次数,fi是监测点i在特定时间窗内单独出现在该相同级别的次数,fj是监测点j在特定时间窗内单独出现在该相同级别的次数。6.根据权利要求4所述的设备,其中,fij是监测点i和监测点j在特定时间窗内从某个相同级别跨越至另一相同级别的次数,fi是监测点i
\t在特定时间窗内单独发生该级别跨越的次数,fj是监测点j在特定时间窗内单独发生该级别跨越的次数。7.根据权利要求4所述的设备,其中,所述构造单元被配置为根据以下参数来计算加权距离dij:监测点i和监测点j之间的地理距离、实时风力级别、风向与监测点i和监测点j的连线之间的夹角、监测点i和监测点j的海拔高度、以及风速监测点的海拔高度。8.根据权利要求3所述的设备,其中,所述构造单元被配置为:确定指向监测点i和监测点j并且激活力大于预定阈值的监测点k的集合;确定监测点i和监测点j所指向的并且激活力大于所述预定阈值的监测点m的集合;基于监测点k的集合和监测点m的集合,计算监测点i和监测点j之间的亲和度。9.根据权利要求1所述的设备,其中,所述监测数据包括大气污染监测数据或交通数据。10.根据权利要求1所述的设备,其中,所述确定单元被配置为:采用K-...

【专利技术属性】
技术研发人员:张霓胡卫松
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1