一种基于时序相关性的空间聚类方法技术

技术编号:13921952 阅读:45 留言:0更新日期:2016-10-27 22:51
本发明专利技术涉及一种基于时序相关性的空间聚类方法。该方法包括:1)选取将要聚类的空间点的集合;2)根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的空间点聚为一类;3)确定第二次聚类时使用的时序数据的时间区间T,取出每个空间点在时间区间T内的数据值,形成时间序列;4)根据步骤2)中得到的聚类结果和步骤3)得到的时间序列,计算同一类中任意两个空间点之间的时序相关性;5)对于步骤2)中的每一聚类结果,结合步骤4)得到的时序相关性,对每一聚类结果进行二次聚类,形成最终的聚类结果。本发明专利技术对于空间对象聚类时使用两步聚类,加入考虑各对象之间的时序相关性特性,使得聚类结果更加准确,更具有现实意义。

【技术实现步骤摘要】

本专利技术属于空间分析的大数据和数据挖掘应用领域,具体涉及一种基于时序相关性的空间聚类方法
技术介绍
聚类是数据挖掘领域一个重要的组成部分和分析方法。随着大数据和数据挖掘领域的广泛应用,数据分析领域中常用的方法之一——聚类分析也受到了越来越广泛的探索,其在图像处理、生物信息、空间数据库、人工智能等多种领域均得到了十分有效的应用。聚类的主要思想将具有较高相似性的数据对象归为一个簇,而不同簇之间的数据对象则不具有或具有较低的相似度,簇内相似,簇间相异。对于聚类分析来说,度量数据对象之间的相似性成为了分析的关键,聚类结果的好坏也取决于该方法所采用的相似性评估方式以及该方法是否探索出了较多的隐含模式。一般地,常见的聚类的方法通常采用的是基于距离的相似性度量方法。距离的含义较广,但凡是满足距离定义的四个条件的函数均可作为计算相似性的距离公式,这四个条件分别是唯一性、非负性、对称性和三角不等式。常用的距离计算方法主要包括:欧式距离、马氏距离、曼哈顿距离和切比雪夫距离。欧式距离是一个通常采用的距离,主要描述在空间中两个点的自然长度和真实距离;马氏距离是用于表示数据的协方差距离,马氏距离与欧式距离不同的是,其主要考虑了样本各种特性之间的关系;曼哈顿距离则是一种用于几何度量空间的度量方式,其标明了两个点在坐标系上的绝对轴距的总和;而切比雪夫距离是向量空间中的一种度量方式,其主要思想是将两个点之间的距离定义为其各坐标数值差的最大值。在基于距离的聚类方法中,较典型聚类算法主要包括:k-均值聚类算法、k-中心点聚类算法、凝聚型层次聚类算法和分裂型层次聚类算法等。但对于具有不同空间位置,且具有时序特征的对象,传统的聚类方法具有局限性,不能得到更优的聚类结果。
技术实现思路
本专利技术的目的是针对对象之间的一些现实特性,给出一种基于时序相关性的空间聚类方法。该方法对于空间对象聚类时,使用两步聚类,加入考虑各对象之间的时序相关性特性,使得聚类结果更加准确,更具有现实意义。具体来说,本专利技术的技术方案为:一种基于时序相关性的空间聚类方法,包括以下步骤:1)选取将要聚类的空间点的集合;2)根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的空间点聚为一类;3)针对分析任务,确定第二次聚类时使用的时序数据的时间区间T,取出每个空间点在时间区间T内的数据值,形成时间序列;4)根据步骤2)中得到的聚类结果和步骤3)得到的时间序列,计算同一类中任意两个空间点之间的时序相关性;5)对于步骤2)中的每一聚类结果,结合步骤4)得到的空间点之间的时序相关性,通过一种自底向上的方法,对每一聚类结果进行二次聚类,形成最终的聚类结果。与现有技术相比,本专利技术的有益效果如下:本专利技术对于在对真实空间对象进行聚类时,不仅考虑其在空间距离上的特性,同时还考虑了各数据对象之间的时序相关性,这样使得空间对象聚类的结果更加真实,更加具有实际的研究意义。附图说明图1是本专利技术方法的步骤流程图。图2是聚类比率随距离远近的变化图,其中横轴代表举例,纵轴代表聚类比率。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步说明。本实施例的基于时序相关性的空间聚类方法,其步骤流程如图1所示,具体包括以下步骤:第一步,选取将要聚类的空间点的集合。该集合包括了某个空间范围内的所有的点,并且对于每一个点,都包含了一个时间段内的时序数据。例如,对中国空气质量检测站点进行聚类,则该空间点的集合包括了所有的空气质量检测站点,对于每一个监测站点来说,都包含了每小时的空气质量检测数据。上述空间点的集合可以是空间范围内的全部空间点,也可以是应用某种过滤规则后过滤出的空间点。这些过滤规则包括但不限于:距离在一个特定值之内、或其他指标(如降水)在某个特定数值范围之内。第二步,根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的空间点聚为一类。该地理关系如行政区划,如国家、省份、城市等,可以根据不同的情况,如全部空间的范围、数据集时序密度、主机的计算能力等进行调整;又如自定义区域,如根据山脉、河流走向进行区域分割,也可以是根据城市建设的空间对象而划分,如铁路、高速公路等。第三步,针对分析任务,确定第二次聚类时使用的时序数据的时间区间T,取出每个空间点在时间区间T内的数据值,形成时间序列。第四步,根据第一次聚类的结果和第三步得到的时间序列,计算同一类中任意两个空间点之间的时序相关性。例如,在本实例中,使用行政区划进行第一次聚类,根据各点所位于的行政区划内,将同一行政区的点聚类为一个簇。针对每一簇中的任两个点,计算两点之间的皮尔森相关性指标,其定义如下: r X Y = Σ i = 1 N ( x i - x ‾ ) ( y i - y ‾ ) Σ i = 1 N ( x i - x ‾ ) Σ i = 1 N ( y i - y ‾ ) 本文档来自技高网
...

【技术保护点】
一种基于时序相关性的空间聚类方法,其特征在于,包括以下步骤:1)选取将要聚类的空间点的集合;2)根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的空间点聚为一类;3)针对分析任务,确定第二次聚类时使用的时序数据的时间区间,取出每个空间点在该时间区间内的数据值,形成时间序列;4)根据步骤2)中得到的聚类结果和步骤3)得到的时间序列,计算同一类中任意两个空间点之间的时序相关性;5)对于步骤2)中的每一聚类结果,结合步骤4)得到的时序相关性,对每一聚类结果进行二次聚类,形成最终的聚类结果。

【技术特征摘要】
1.一种基于时序相关性的空间聚类方法,其特征在于,包括以下步骤:1)选取将要聚类的空间点的集合;2)根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的空间点聚为一类;3)针对分析任务,确定第二次聚类时使用的时序数据的时间区间,取出每个空间点在该时间区间内的数据值,形成时间序列;4)根据步骤2)中得到的聚类结果和步骤3)得到的时间序列,计算同一类中任意两个空间点之间的时序相关性;5)对于步骤2)中的每一聚类结果,结合步骤4)得到的时序相关性,对每一聚类结果进行二次聚类,形成最终的聚类结果。2.如权利要求1所述的方法,其特征在于,步骤1)所述空间点的集合是某个空间范围内的全部空间点,或者是应用某种过滤规则后过滤出的空间点,并且每一个空间点包含一个时间段内的时序数据。3.如权利要求2所述的方法,其特征在于,所述过滤规则包括:距离在一个特定值之内,或其他指标在某个特定数值范围之内。4.如权利要求1所述的方法,其特征在于,步骤2)所述地理关系是按行政区划划分的地理关系,或者是自定义的区域。5.如权利要求4所述的方法,其特征在于,所述行政区划包括但不限于国家、省份、城市,并能够根据不同的情况进行调整,包括根据全部空间的范围、数据集时序密度、主机的计算能力进行调整。6.如权利要求4所述的方法,其特征在于,所述自定义的区域是根据山脉、河流走向而划分的区域,或者是根据城市建设的空间对象而划分的区域。7.如权利要求1所述的方法,其特征在于,步骤4)计算所述时序相关...

【专利技术属性】
技术研发人员:杜一崔文娟吕菲周园春黎建辉
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1