一种针对时空序列数据的群体热点区域分析方法技术

技术编号:16456208 阅读:56 留言:0更新日期:2017-10-25 20:42
本发明专利技术公开一种针对时空序列数据的群体热点区域分析方法,首先考虑速度,距离等因素,在原始位置点的基础上得到了群体热点区域,但是得到的热点区域并不具有时间关联性,这样不能很好地满足研究者的要求,所以提出了一种动态调整合并的划分时间的方法进行时间相关的热点区域构建方法,即在扫描整合群体热点区域的时候,按照时间维度为基准维度,对每一个时刻进行人数统计,满足要求的则记录在表中,统计完之后,再使用线性时间就可以把当前热点区域划分为具有时间相关的热点区域。这样就能从更深层次研究群体用户的行为特征,分析出相关规律。本发明专利技术对时空多维数据进行数据分析,从而为空间大数据的隐私保护提供了基础支持,具有广泛的应用前景。

A population hotspot region analysis method for spatio-temporal sequence data

The invention discloses a method of analysis for time series data group hot region, first consider the speed, distance and other factors, the group of regional hot spots based on the original position, but do not have time to get hot regional relevance, it can not meet the requirements of researchers, so the proposed method a division of time with the dynamic adjustment of regional hot time related construction method, namely the integration of regional hot spots in the group when scanning, according to time dimension as the reference dimension, the statistics on the number of each moment, to meet the requirements of the records in the table, statistics after using linear time can make the current hot region divided into hot region related to time. In this way, we can study the behavior characteristics of group users from a deeper level, and analyze the relevant laws. The invention provides data analysis for spatiotemporal multi-dimensional data, thus providing basic support for privacy protection of large spatial data, and has wide application prospect.

【技术实现步骤摘要】
一种针对时空序列数据的群体热点区域分析方法
本专利技术属于用户群体时空数据聚类特征分析领域,特别涉及一种针对时空序列数据的群体热点区域分析方法。
技术介绍
空间大数据由于涉及用户身份、时间、空间位置(如经度、纬度和海拔)等多元信息,是一种典型的符合时空特征的高维数据集合。在这种时空综合的高维数据中,时间、用户、位置三者之间密切关联,使用传统的高维数据降维算法,不能很好的进行降维处理,并且位置信息包括的经度、纬度、海拔特性和时间虽然有一定的联系,但是没有具体的度量指标来把这几种特性进行连接,而且相关领域的研究工作只是简单地对时间过滤然后进行空间聚类,不能直接用来进行移动用户的群体特征分析。AlijamaatA等人提出了基于新型两阶段聚类算法的聚类集成方法,并且结合分割和合并技术克服现有的聚类集成技术将小聚类与大聚类技术合并,最后去除那些小聚类存在的问题。ChS等人提出了一种基于快速聚类的特征选择算法(FAST)生成相关独立特征的子集,结果表明,该算法不仅降低了高维数据的维度,而且提高了分类算法的性能。YiJ等人提出了一种能用一个传过来的数据估计稀疏聚类中心的高效聚类算法,该算法能够准确地恢复聚类中心。但是多维用户数据因为内部的经度、维度、海拔、时间等多维属性存在某种内部的联系,导致了不能直接降维处理。由此可见,高维时空数据的聚类分析对目前的算法提出了很大挑战,迫切需要提出一种快速高效的针对时空数据聚类的高效算法,以支持空间大数据的群体特征分析与提取。
技术实现思路
本专利技术的目的在于提供一种针对时空序列数据的群体热点区域分析方法,以解决上述技术问题。为实现上述专利技术目的,本专利技术采取如下技术方案:一种针对时空序列数据的群体热点区域分析方法,包括以下步骤:步骤1、个人停留点构建;步骤2、个体停留区构建;步骤3、群体停留区构建;步骤4、基于时间分割的时间相关群体热点区域构建。进一步的,步骤1具体包括:1.1、读取一段时间内某个固定区域的全体用户的位置信息Lij;其中i=1,2,3…表示人数,j=1,2,3…表示某一个采样时刻,Mi表示人的身份标识ID;1.2、对于用户Mi,扫描该用户的原始位置点Lik,如果就把Lij和Li(j+1)合并为一个停留点Pik,否则说明当前时刻的用户速度过快,不算停留点,继续下一个采样时刻扫描;k=1,2,3...表示停留点的序列号标识,δv表示速度阈值;定义Pib为个人停留点集合;1.3、对于每一个停留点集合Pib,对集合里面的所有停留点Pik所对应的原始位置点坐标进行平均化得到停留点Pik对应的平均坐标进一步的,步骤2具体包括:2.1、对于用户Mi,扫描该用户的停留点集合Pib,如果就把Pik和Pi(k+1)合并为一个用户停留区Aim,其中m=1,2,3…表示停留区的序列标识,δD表示距离阈值;2.2、对于每一个停留区集合Aib,对集合里面的所有个人停留区Aim所对应的所有停留点Pik对应的平均坐标进行平均化获得对应的平均坐标进一步的,步骤3具体包括:3.1、对于每一个个人停留区Aim如果存在满足且满足要求的Aqm数量大于δnum,则把Aim和满足要求的Aqm合并为一个群体停留区GAo;3.2、依次寻找满足要求的Aqm;3.3、如果不满足要求,则跳过此停留区,直到寻找完所有用户的所有停留区。进一步的,步骤4具体包括:4.1、对于每一个群体停留区GAo,计算出在该停留区中时刻ti中出现的人数Ci,如果Ci≥δM,其中δM表示人数阈值,则把当前时刻,负责记录连续时刻区间最大长度的标记maxi=maxi-1+1,把记录连续时刻初始位置的标记begini=Begini-1;4.2、如果Ci<δM,则把当前maxi=0,begini=i;4.3、扫描完时刻之后,则从后向前遍历时刻i,如果maxi>δT,其中δT表示连续时刻区间阈值,则把时刻区间[begini,i]时刻的停留区进行合并为时间连续的热点停留区HAk,i=begini-1;4.4、如果maxi<δT,则当前时刻不满足时间连续性要求,则i=i-1;4.5、遍历完以后,则HAk为满足时间连续性的群体热点停留区。进一步的,δv表示速度阈值,δv=3km/h;δD表示距离阈值,δD=5m;δ’D=10m;δnum=3;δM表示人数阈值,δM=3;δT表示连续时刻区间阈值,δT=3。进一步的,步骤1.2中:进一步的,步骤1.3中:其中,l表示集合停留点Pik中包含的原始位置点个数;e表示停留点集合Pik中起始位置点的时刻序号,f表示停留点集合Pik中结束位置点的时刻序号。进一步的,步骤2.2中:其中,l1表示停留区集合Aib中包含的停留点个数;g表示停留区的第一个停留点序号,h表示停留区最后一个停留点序号。相对于现有技术,本专利技术具有以下有益效果:本专利技术针对目前存在的高维时空数据难以高效的用传统的聚类方法进行时空序列特征分析的问题,设计了一种针对时空序列数据的热点区域分析方法,最后得到具有时间相关的群体热点区域,这样就解决了目前研究中存在的热点区域不具有时间关联的问题。本专利技术首先,把速度,距离等因素考虑在内,对于单个用户进行个人停留点的提取,然后针对个人停留点考虑距离因素,得到个人停留区,接着在个人停留区的基础上,得到了群体停留区,最后提出了基于动态规划的群体时间关联的热点停留区构建方法。这样就能从更深层次研究群体用户的行为特征,分析出相关规律。本专利技术主要解决了把时间维度加入到时空数据分析中所带来的一系列问题,首先时间维度和其他地理维度并不是互相独立的,所以不能用降维的方法去进行分析,其次,很多聚类方法只是单方面的进行二维数据聚类,并没有考虑维度之间的相关性,所以综合以上问题,设计了群体时间关联的热点区域构建方法。对时空多维数据进行数据分析,从而为空间大数据的隐私保护提供了基础支持,本方法具有广泛的应用前景和现实意义。附图说明图1群体移动特征分析步骤图;图1(a)是用户的原始数据,图1(b)为图1(a)进行个体的移动特征提取得到;图1(c)为图1(b)进行停留点的标记来得到群体用户的停留区继而得到;图1(d)为图1(c)最后进行停留区的合并得到最终的群体停留区。图2为时间关联热点区构建示意图。具体实施方式本专利技术针对空间大数据的时空多维聚类与群体特征分析设计了一种针对时空序列数据的群体热点区域分析方法,为空间大数据的隐私保护提供基础支持。下面结合附图进一步说明这种针对时空序列数据的群体热点区域分析方法。应当明确,以下内容仅仅用来描述本专利技术而不作为对本专利技术的限制。请参阅图1所示,本专利技术一种针对时空序列数据的群体热点区域分析方法,包括以下步骤:一种针对时空序列数据的群体热点区域分析方法,包括以下步骤:步骤1、个人停留点构建:1.1、读取一段时间(通常为1天)内某个固定区域的全体用户的位置信息Lij;如图1(a)所示,图中t为采样时刻(一般以8秒为一个间隔),其中i=1,2,3…表示人数,j=1,2,3…表示某一个采样时刻,Mi表示人的身份标识ID。1.2、对于用户Mi,扫描该用户的原始位置点Lik,如果就把Lij和Li(j+1)合并为一个停留点Pik,否则说明当前时刻的用户速度过快,不算停留点,继续下一个采样时刻扫描。其中j=1,本文档来自技高网...
一种针对时空序列数据的群体热点区域分析方法

【技术保护点】
一种针对时空序列数据的群体热点区域分析方法,其特征在于,包括以下步骤:步骤1、个人停留点构建;步骤2、个体停留区构建;步骤3、群体停留区构建;步骤4、基于时间分割的时间相关群体热点区域构建。

【技术特征摘要】
1.一种针对时空序列数据的群体热点区域分析方法,其特征在于,包括以下步骤:步骤1、个人停留点构建;步骤2、个体停留区构建;步骤3、群体停留区构建;步骤4、基于时间分割的时间相关群体热点区域构建。2.根据权利要求1所述的一种针对时空序列数据的群体热点区域分析方法,其特征在于,步骤1具体包括:1.1、读取一段时间内某个固定区域的全体用户的位置信息Lij;其中i=1,2,3…表示人数,j=1,2,3…表示某一个采样时刻,Mi表示人的身份标识ID;1.2、对于用户Mi,扫描该用户的原始位置点Lik,如果就把Lij和Li(j+1)合并为一个停留点Pik,否则说明当前时刻的用户速度过快,不算停留点,继续下一个采样时刻扫描;k=1,2,3...表示停留点的序列号标识,δv表示速度阈值;定义Pib为个人停留点集合;1.3、对于每一个停留点集合Pib,对集合里面的所有停留点Pik所对应的原始位置点坐标进行平均化得到停留点Pik对应的平均坐标3.根据权利要求2所述的一种针对时空序列数据的群体热点区域分析方法,其特征在于,步骤2具体包括:2.1、对于用户Mi,扫描该用户的停留点集合Pib,如果就把Pik和Pi(k+1)合并为一个用户停留区Aim,其中m=1,2,3…表示停留区的序列标识,δD表示距离阈值;2.2、对于每一个停留区集合Aib,对集合里面的所有个人停留区Aim所对应的所有停留点Pik对应的平均坐标进行平均化获得对应的平均坐标4.根据权利要求3所述的一种针对时空序列数据的群体热点区域分析方法,其特征在于,步骤3具体包括:3.1、对于每一个个人停留区Aim如果存在满足且满足要求的Aqm数量大于δnum,则把Aim和满足要求的Aqm合并为一个群体停留区GAo;3.2、依次寻找满足要求的Aqm;3.3、如果不满足要求,则跳过此停留区,直到寻找完所有用户的所有停留区。5.根据权利要求4所述的一种针对时空序列数据的群体热点区域分析方法,其特征在于,步骤4具体包括:4.1、对于每一个群体停留区...

【专利技术属性】
技术研发人员:桂小林代兆胜戴慧珺郑怡清冀亚丽杨广知
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1