一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE制造技术

技术编号:17304880 阅读:17 留言:0更新日期:2018-02-18 23:21
本发明专利技术具体涉及一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE,预设基于网格的聚类参数:空间边长L、时序间隔I、最小近邻参数MinPts、时空同步率R;根据预设空间边长L、时序间隔I及D维时空数据集P创建D维时空数据网格G;根据D维时空数据集P中的空间受限变量V、最小近邻参数MinPts,计算核心空间格子的时空密度波;根据每个核心空间格子的时空密度波及预设时空同步率R计算任意一对核心空间格子之间的时空同步率,并根据该所述时空同步率进行无监督的时空网格聚类;根据数据点所在D维时空格子的聚类结果对整个D维时空数据集P进行分类标注。通过本发明专利技术的技术方案,可对海量多维时空数据集进行基于时空密度波与同步的无监督聚类,发现时空噪声点,以及数据集中隐藏的全局性时空事件及局部时空事件。

A large space-time data clustering algorithm based on spatio-temporal density wave and synchronization GRIDWAVE

The invention relates to a space-time density wave and synchronization of large spatio-temporal data clustering algorithm GRIDWAVE based on preset clustering parameters based on grid space: I, L, the length of the time interval of nearest neighbor parameters MinPts, time synchronization rate R; according to the preset space length L, I and D timing interval dimensional data set P to create a D dimension spatial data grid G; according to D dimensional data set with limited space variable V, the smallest neighbor parameter MinPts P, space-time density wave calculation of core space lattice; according to the space-time density of each core space lattice and preset spatio-temporal synchronization rate of R calculated between any pair of core grid synchronization rate, and synchronization rate space-time grid unsupervised clustering according to the time and space; classified marking of the entire D dimensional space-time data set P according to the results of clustering data points in D dimensional space-time lattice. Through the technical scheme of the invention, we can carry out the unsupervised clustering based on spatio-temporal density wave and synchronization for massive multidimensional spatio-temporal data sets, discover spatio-temporal noise points, and hide global temporal and spatial events and local spatio-temporal events in data sets.

【技术实现步骤摘要】
一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE
本专利技术涉及时空数据挖掘和大数据分析领域,具体涉及一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE。
技术介绍
空间数据聚类被广泛的应用于许多信息
,例如数据挖掘、模式识别、机器学习、人工智能、可视分析、地理信息系统等。在大数据时代,它可用来探索与发现数据中潜在的模式及价值,可应用于许多学科领域,例如天文学、生物信息学、文献计量学、社会网络分析、经济网络分析、交通网络分析、气象分析、智慧城市发展等。传统的空间数据聚类方法主要有四种:1)、基于划分的聚类;2)、基于密度的聚类;3)、层次聚类;4)、基于网格的聚类。时空聚类是在空间数据聚类的基础上增加了时序维度的聚类,用来分析空间受限变量的时序规律与模式,以及挖掘数据中隐藏的时空事件。传统的时空聚类算法主要是引入了时序距离的概念,将时序数据纳入空间距离计算,再基于密度进行聚类,如ST-DBSCAN,因此其聚类效果近似于空间聚类,其特点是其时空聚类一定是空间上连续或者近邻的点的集合。但是在一些领域,例如经济学、社会学、网络媒体等,时空数据不一定是空间连续或者近邻的。同时,由于ST-DBSCAN是基于点与点之间的时空距离计算,其算法的时间复杂度为O(N2)。所以它不能用于处理海量时空数据,当N不断增大时,其运算时间是不可接受的。同时,我们都处于一个4维时空中,在日常生活工作学习中存在大量的时空事件,这些时空事件被广泛的存储于数据中,因此,设计一款能够进行无监督时空聚类、挖掘时空事件的算法是具有现实意义的。
技术实现思路
本专利技术采用了一种新颖的时空聚类理念,设计了一款能够无监督的发现时空类和时空噪声,并且能够挖掘时空事件的大型时空数据聚类算法。本专利技术提供如下技术方案:一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE,包括以下步骤:步骤1,根据预设空间边长L、时序间隔I及D维时空数据集P创建D维时空数据网格G;步骤2,根据D维时空数据集P中的空间受限变量V、最小近邻参数MinPts,计算核心空间格子的时空密度波;步骤3,根据每个核心空间格子的时空密度波及预设时空同步率R计算每一对核心空间格子之间的时空同步率,并根据该所述时空同步率进行无监督的时空网格聚类,并根据数据点所在D维时空格子的聚类结果对整个D维时空数据集P进行分类标注。优选地,上述基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE中,所述构建时空网格的方法具体包括:时序间隔I是大于1的正整数,且空间边长L大于0,D为正整数;首先根据所述边长L对所述D维空间数据集P中的每个空间维度的数值范围进行平均切分,创建一个D-1维空间数据网格G’,其次根据所述时序间隔I对所述D-1维空间数据网格G’再进行时序切分,创建D维时空数据网格G;所述D-1维空间数据网格G’中的每个格子为各边相等的超方格子;根据所述D维空间数据集P中每个点的D维时空信息将数据点映射到相应的所述D维时空数据网格G中的时空格子,并进行数据点数量累加与记录。优选地,上述的基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE中,所述核心空间格子是所述D-1维空间数据网格G’中的格子中数据点数量大于或等于所述最小近邻参数MinPts的格子,并为每个核心空间格子设置一个独立的时空类标。优选地,上述的基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE中,所述核心空间格子的时空密度波的计算方法具体包括:计算每个核心空间格子中I个时空格子的时空密度值,计算方法为:对所述时空格子中所有数据点所关联的空间受限变量V进行累加与记录;所述空间受限变量V为关系型数据库中用户指定属性的值。第一个时空格子的时空密度波值固定为0,之后的I-1个时空格子的时空密度波值的计算方法为:当本时序时空格子的时空密度值大于上一时序时空格子的时空密度值时,其时空密度波值计为1;当本时序时空格子的时空密度值小于上一时序时空格子的时空密度值时,其时空密度波值计为-1;当本时序时空格子的时空密度值等于上一时序时空格子的时空密度值时,其时空密度波值计为0;所述核心空间格子的时空密度波即为其按时序依次排列的时空格子的时空密度波值的I个数字序列的集合,如{0,1,-1,…,1}。优选地,上述的基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE中,所述无监督的时空聚类的计算方法具体包括:对每一对所述核心空间格子之间的时空同步性进行计算,计算方法为:1)比对任意一对核心空间格子在每一个时序中的时空密度波值,当时空密度波值在第In时序中一致时,则认为该2个核心空间格子在第In时序同步;2)计算任意一对核心空间格子之间的时空相似性,计算方法为:同步时序的数量除以时序总数I;3)当任意一对所述核心空间格子的时空密度波之间的相似性大于所述时空同步率R,则认为该对核心空间格子为时空同步,将此两个核心空间格子聚到同一个类中;4)迭代计算上述过程,直到算法收敛;5)一个时空类即为具有同样类标的时空格子或空间格子的最大集合,它表明同一个时空类中的空间格子相互之间关于所述空间受限变量V的时空密度在时序上具有同步性关系。可选地,上述的基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE中,将所有非空间核心格子均标注为时空噪声格子。本专利技术还提供一种执行基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE的电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:根据所述的预设空间边长L、时序间隔I及D维时空数据集P创建D维时空数据网格G;根据所述的D维时空数据集P中的空间受限变量V、最小近邻参数MinPts,计算核心空间格子的时空密度波;根据每个核心空间格子的时空密度波及所述的预设时空同步率R计算任意一对核心空间格子之间的时空同步率,并根据该所述时空同步率进行无监督的时空网格聚类,并根据数据点所在D维时空格子的聚类结果对整个D维时空数据集P进行分类标注。本专利技术提供的上述技术方案,与现有技术相比,至少具有以下有益效果:1.该聚类算法首先构建一种时空网格结构;之后计算每个核心空间格子的时空密度波及同步性关系;最后根据核心空间格子之间的时空同步性关系进行无监督聚类。2.作为一种基于时空密度波与同步的大型时空数据聚类算法,可以从时空数据中挖掘空间分离的时空类及时空事件;同时由于该算法的聚类机制是基于网格计算,算法运算效率极高,使得该算法可广泛应用于海量的时空数据聚类。所述的时空类即为在关于所述的空间受限变量V的时空密度上具有时序同步性关系的空间格子的最大集合。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一个实施例所述基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE的方法流程图。图2为本专利技术一个实施例所本文档来自技高网...
一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE

【技术保护点】
一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE,其特征在于,包括以下步骤:步骤1,根据预设空间边长L、时序间隔I及D维时空数据集P创建D维时空数据网格G;步骤2,根据D维时空数据集P中的空间受限变量V、最小近邻参数MinPts,计算核心空间格子的时空密度波;步骤3,根据每个核心空间格子的时空密度波及预设时空同步率R计算每一对核心空间格子之间的时空同步率,并根据该所述时空同步率进行无监督的时空网格聚类,并根据数据点所在D维时空格子的聚类结果对整个D维时空数据集P进行分类标注。

【技术特征摘要】
1.一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE,其特征在于,包括以下步骤:步骤1,根据预设空间边长L、时序间隔I及D维时空数据集P创建D维时空数据网格G;步骤2,根据D维时空数据集P中的空间受限变量V、最小近邻参数MinPts,计算核心空间格子的时空密度波;步骤3,根据每个核心空间格子的时空密度波及预设时空同步率R计算每一对核心空间格子之间的时空同步率,并根据该所述时空同步率进行无监督的时空网格聚类,并根据数据点所在D维时空格子的聚类结果对整个D维时空数据集P进行分类标注。2.根据权利要求1所述基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE,其特征在于,步骤1中,所述创建D维时空数据网格G,具体包括:时序间隔I是大于1的正整数,且空间边长L大于0,D为正整数;首先根据所述边长L对所述D维空间数据集P中的每个空间维度的数值范围进行平均切分,创建一个D-1维空间数据网格G’,其次根据所述时序间隔I对所述D-1维空间数据网格G’再进行时序切分,创建D维时空数据网格G;所述D-1维空间数据网格G’中的每个格子为各边相等的超方格子。根据所述D维空间数据集P中每个点的D维时空信息将数据点映射到相应的所述D维时空数据网格G中的时空格子,并进行数据点数量累加与记录。3.根据权利要求1所述基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE,其特征在于,步骤2中,所述核心空间格子是所述D-1维空间数据网格G’中的格子中数据点数量大于或等于所述最小近邻参数MinPts的格子,并为每个核心空间格子设置一个独立的时空类标;对核心空间格子计算时空密度波,其计算方法为:1)计算每个核心空间格子中I个时空格子的时空密度值,计算方法为:对所述时空格子中所有数据点所关联的空间受限变量V进行累加与记录;2)第一个时空格子的时空密度波值固定为0,之后的I-1个时空格子的时空密度波值的计算方法为:当本时序时空格子的时空密度值大于上一时序时空格子的时空密度值时,其时空密度波值计为1;当本时序时空格子的时空密度值小于上一时序时空格子的时空...

【专利技术属性】
技术研发人员:邓超陈智斌郭晓惠农英雄杨振宇孙忱梁东陆瑛钟征燕
申请(专利权)人:广西中烟工业有限责任公司
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1