The invention relates to a space-time density wave and synchronization of large spatio-temporal data clustering algorithm GRIDWAVE based on preset clustering parameters based on grid space: I, L, the length of the time interval of nearest neighbor parameters MinPts, time synchronization rate R; according to the preset space length L, I and D timing interval dimensional data set P to create a D dimension spatial data grid G; according to D dimensional data set with limited space variable V, the smallest neighbor parameter MinPts P, space-time density wave calculation of core space lattice; according to the space-time density of each core space lattice and preset spatio-temporal synchronization rate of R calculated between any pair of core grid synchronization rate, and synchronization rate space-time grid unsupervised clustering according to the time and space; classified marking of the entire D dimensional space-time data set P according to the results of clustering data points in D dimensional space-time lattice. Through the technical scheme of the invention, we can carry out the unsupervised clustering based on spatio-temporal density wave and synchronization for massive multidimensional spatio-temporal data sets, discover spatio-temporal noise points, and hide global temporal and spatial events and local spatio-temporal events in data sets.
【技术实现步骤摘要】
一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE
本专利技术涉及时空数据挖掘和大数据分析领域,具体涉及一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE。
技术介绍
空间数据聚类被广泛的应用于许多信息
,例如数据挖掘、模式识别、机器学习、人工智能、可视分析、地理信息系统等。在大数据时代,它可用来探索与发现数据中潜在的模式及价值,可应用于许多学科领域,例如天文学、生物信息学、文献计量学、社会网络分析、经济网络分析、交通网络分析、气象分析、智慧城市发展等。传统的空间数据聚类方法主要有四种:1)、基于划分的聚类;2)、基于密度的聚类;3)、层次聚类;4)、基于网格的聚类。时空聚类是在空间数据聚类的基础上增加了时序维度的聚类,用来分析空间受限变量的时序规律与模式,以及挖掘数据中隐藏的时空事件。传统的时空聚类算法主要是引入了时序距离的概念,将时序数据纳入空间距离计算,再基于密度进行聚类,如ST-DBSCAN,因此其聚类效果近似于空间聚类,其特点是其时空聚类一定是空间上连续或者近邻的点的集合。但是在一些领域,例如经济学、社会学、网络媒体等,时空数据不一定是空间连续或者近邻的。同时,由于ST-DBSCAN是基于点与点之间的时空距离计算,其算法的时间复杂度为O(N2)。所以它不能用于处理海量时空数据,当N不断增大时,其运算时间是不可接受的。同时,我们都处于一个4维时空中,在日常生活工作学习中存在大量的时空事件,这些时空事件被广泛的存储于数据中,因此,设计一款能够进行无监督时空聚类、挖掘时空事件的算法是具有现实意义的。
技术实现思路
本专利技术采 ...
【技术保护点】
一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE,其特征在于,包括以下步骤:步骤1,根据预设空间边长L、时序间隔I及D维时空数据集P创建D维时空数据网格G;步骤2,根据D维时空数据集P中的空间受限变量V、最小近邻参数MinPts,计算核心空间格子的时空密度波;步骤3,根据每个核心空间格子的时空密度波及预设时空同步率R计算每一对核心空间格子之间的时空同步率,并根据该所述时空同步率进行无监督的时空网格聚类,并根据数据点所在D维时空格子的聚类结果对整个D维时空数据集P进行分类标注。
【技术特征摘要】
1.一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE,其特征在于,包括以下步骤:步骤1,根据预设空间边长L、时序间隔I及D维时空数据集P创建D维时空数据网格G;步骤2,根据D维时空数据集P中的空间受限变量V、最小近邻参数MinPts,计算核心空间格子的时空密度波;步骤3,根据每个核心空间格子的时空密度波及预设时空同步率R计算每一对核心空间格子之间的时空同步率,并根据该所述时空同步率进行无监督的时空网格聚类,并根据数据点所在D维时空格子的聚类结果对整个D维时空数据集P进行分类标注。2.根据权利要求1所述基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE,其特征在于,步骤1中,所述创建D维时空数据网格G,具体包括:时序间隔I是大于1的正整数,且空间边长L大于0,D为正整数;首先根据所述边长L对所述D维空间数据集P中的每个空间维度的数值范围进行平均切分,创建一个D-1维空间数据网格G’,其次根据所述时序间隔I对所述D-1维空间数据网格G’再进行时序切分,创建D维时空数据网格G;所述D-1维空间数据网格G’中的每个格子为各边相等的超方格子。根据所述D维空间数据集P中每个点的D维时空信息将数据点映射到相应的所述D维时空数据网格G中的时空格子,并进行数据点数量累加与记录。3.根据权利要求1所述基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE,其特征在于,步骤2中,所述核心空间格子是所述D-1维空间数据网格G’中的格子中数据点数量大于或等于所述最小近邻参数MinPts的格子,并为每个核心空间格子设置一个独立的时空类标;对核心空间格子计算时空密度波,其计算方法为:1)计算每个核心空间格子中I个时空格子的时空密度值,计算方法为:对所述时空格子中所有数据点所关联的空间受限变量V进行累加与记录;2)第一个时空格子的时空密度波值固定为0,之后的I-1个时空格子的时空密度波值的计算方法为:当本时序时空格子的时空密度值大于上一时序时空格子的时空密度值时,其时空密度波值计为1;当本时序时空格子的时空密度值小于上一时序时空格子的时空...
【专利技术属性】
技术研发人员:邓超,陈智斌,郭晓惠,农英雄,杨振宇,孙忱,梁东,陆瑛,钟征燕,
申请(专利权)人:广西中烟工业有限责任公司,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。