【技术实现步骤摘要】
本专利技术属于空间分析的大数据和数据挖掘应用领域,具体涉及一种基于时序相关性的空间聚类方法。
技术介绍
聚类是数据挖掘领域一个重要的组成部分和分析方法。随着大数据和数据挖掘领域的广泛应用,数据分析领域中常用的方法之一——聚类分析也受到了越来越广泛的探索,其在图像处理、生物信息、空间数据库、人工智能等多种领域均得到了十分有效的应用。聚类的主要思想将具有较高相似性的数据对象归为一个簇,而不同簇之间的数据对象则不具有或具有较低的相似度,簇内相似,簇间相异。对于聚类分析来说,度量数据对象之间的相似性成为了分析的关键,聚类结果的好坏也取决于该方法所采用的相似性评估方式以及该方法是否探索出了较多的隐含模式。一般地,常见的聚类的方法通常采用的是基于距离的相似性度量方法。距离的含义较广,但凡是满足距离定义的四个条件的函数均可作为计算相似性的距离公式,这四个条件分别是唯一性、非负性、对称性和三角不等式。常用的距离计算方法主要包括:欧式距离、马氏距离、曼哈顿距离和切比雪夫距离。欧式距离是一个通常采用的距离,主要描述在空间中两个点的自然长度和真实距离;马氏距离是用于表示数据的协方差距离,马氏距离与欧式距离不同的是,其主要考虑了样本各种特性之间的关系;曼哈顿距离则是一种用于几何度量空间的度量方式,其标明了两个点在坐标系上的绝对轴距的总和;而切比雪夫距离是向量空间中的一种度量方式,其主要思想是将两个点之间的距离定义为其各坐标数值差的最大值。在基于距离的聚类方法中,较典型聚类算法主要包括:k-均值聚类算法、k-中心点聚类算法、凝聚型层次聚类算法和分裂型层次聚类算法等。但对于具有不同 ...
【技术保护点】
一种基于时序相关性的空间聚类方法,其特征在于,包括以下步骤:1)选取将要聚类的空间点的集合;2)根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的空间点聚为一类;3)针对分析任务,确定第二次聚类时使用的时序数据的时间区间,取出每个空间点在该时间区间内的数据值,形成时间序列;4)根据步骤2)中得到的聚类结果和步骤3)得到的时间序列,计算同一类中任意两个空间点之间的时序相关性;5)对于步骤2)中的每一聚类结果,结合步骤4)得到的时序相关性,对每一聚类结果进行二次聚类,形成最终的聚类结果。
【技术特征摘要】
1.一种基于时序相关性的空间聚类方法,其特征在于,包括以下步骤:1)选取将要聚类的空间点的集合;2)根据空间点在地理上的关系进行第一次聚类,将隶属于同一地理关系的空间点聚为一类;3)针对分析任务,确定第二次聚类时使用的时序数据的时间区间,取出每个空间点在该时间区间内的数据值,形成时间序列;4)根据步骤2)中得到的聚类结果和步骤3)得到的时间序列,计算同一类中任意两个空间点之间的时序相关性;5)对于步骤2)中的每一聚类结果,结合步骤4)得到的时序相关性,对每一聚类结果进行二次聚类,形成最终的聚类结果。2.如权利要求1所述的方法,其特征在于,步骤1)所述空间点的集合是某个空间范围内的全部空间点,或者是应用某种过滤规则后过滤出的空间点,并且每一个空间点包含一个时间段内的时序数据。3.如权利要求2所述的方法,其特征在于,所述过滤规则包括:距离在一个特定值之内,或其他指标在某个特定数值范围之内。4.如权利要求1所述的方法,其特征在于,步骤2)所述地理关系是按行政区划划分的地理关系,或者是自定义的区域。5.如权利要求4所述的方法,其特征在于,所述行政区划包括但不限于国家、省份、城市,并能够根据不同的情况进行调整,包括根据全部空间的范围、数据集时序密度、主机的计算能力进行调整。6.如权利要求4所述的方法,其特征在于,所述自定义的区域是根据山脉、河流走向而划分的区域,或者是根据城市建设的空间对象而划分的区域。7.如权利要求1所述的方法,其特征在于,步骤4)计算所述时序相关...
【专利技术属性】
技术研发人员:杜一,崔文娟,吕菲,周园春,黎建辉,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。