一种大数据环境下的群体轨迹伴随模式在线分析方法和系统技术方案

技术编号:22847684 阅读:24 留言:0更新日期:2019-12-17 23:01
本发明专利技术涉及一种大数据环境下的群体轨迹伴随模式在线分析方法和系统。该方法包括:设置群体轨迹伴随模式的阈值参数;对群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;构建基于spark的分布式高维索引树KD‑Tree;进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;根据当前群体轨迹伴随候选集SetAc是否为空,将Scs中的位置聚类快照簇加入SetAc中存在的伴随候选组或者新生成的轨迹伴随候选组;判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情。本发明专利技术具有高吞吐量、实时性高、准确性高、扩展性好、高可配置性等优点。

【技术实现步骤摘要】
一种大数据环境下的群体轨迹伴随模式在线分析方法和系统
本专利技术涉及移动群体轨迹模式分析与监控领域,是一种实时获取移动智能终端产生的海量时空位置大数据,使用分布式算法对轨迹数据按时间片切分和聚类并进行群体轨迹伴随模式在线识别发现的方法,能够应用于群体移动轨迹伴随模式分析、特定群体活动监控、交通热点路线发现等方面。
技术介绍
随着移动互联网的迅速发展,特别是以手机为代表的智能移动终端的普及,每时每刻产生着海量的移动群体位置信息,蕴含着大量用户日常生活习惯和生活圈的位置和时空轨迹数据。群体轨迹伴随模式是指一群移动对象在时空轨迹上表现出相同或相似的运动模式,并且该模式持续了一定时间长度。群体轨迹伴随模式在我们生活中普遍存在,例如一起乘坐公共交通工具的乘客、一起逛街的朋友等都形成了轨迹伴随模式。快速有效地对大数据规模下的群体移动轨迹进行模式识别和分析,挖掘群体移动轨迹的伴随模式特征,对群体关系发现、特定群体活动监控、城市交通规划等方面具有极大价值。当前主流的群体移动轨迹伴随模式分析方法是基于轨迹聚类的方法,该方法主要操作包括位置点聚类和相邻簇取交集。CMC(CoherentMovingCluster)算法为基于轨迹聚类方法中的典型算法,其规定若至少m个移动对象伴随运动持续k个时间片以上则形成轨迹伴随模式。虽然该算法考虑了移动群体活动轨迹的随机性和多样性,能够识别和发现大多数情况下的群体轨迹伴随行为,但是在大数据规模的环境下,该算法中传统聚类和取交集操作执行效率低,扩展性差,对计算和存储资源消耗巨大,难以用于海量移动网信令数据的群体移动轨迹伴随模式的在线分析和实时发现的场景。
技术实现思路
针对上述现有方法存在的问题,本专利技术公开了一种大数据环境下的群体轨迹伴随模式在线分析方法和系统。本专利技术采用的技术方案如下:一种大数据环境下的群体轨迹伴随模式在线分析方法,包括以下步骤:1)设置群体轨迹伴随模式的阈值参数;2)对接入的群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;3)根据当前时间片的群体位置信息集合,构建基于spark的分布式高维索引树KD-Tree;4)基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;5)如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;6)如果SetAc不为空,则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对,根据步骤1)所述阈值参数进行判断,将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的伴随候选组,或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;7)根据步骤1)所述阈值参数判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情,如果不合格则将不合格的轨迹伴随候选组置为闭合状态,并从SetAc中移除。进一步地,循环执行步骤5)至7),直到结束轨迹伴随模式在线分析。进一步地,步骤2)进行所述切片之前,对接入的群体轨迹流数据进行清洗和过滤,包括:进行脏数据清洗;过滤掉用户ID标识、时间戳及经纬度信息缺失或异常的无效数据。进一步地,步骤3)将所述群体位置信息集合中每个位置信息按照经度、纬度两个维度添加到同一棵维度等于2的K-DTree数据结构中;在K-DTree构造过程中采用逐层交替法,即相邻两层采用不同维度,交替选择;在K-DTree插入新结点时,根据所在层次lev,比较待插入结点和已有结点的lev%2维数据决定待插入结点是在已有结点的左子树还是右子树。进一步地,步骤1)所述阈值参数包括时间切片长度Slen、伴随群体最小成员数Mp、伴随群体最小核心成员数Mc、伴随持续最短时间阈值Mt、伴随群体相邻时间片最小移动距离Md、密度聚类领域半径r、密度聚类核心对象r半径领域内最小对象数MinPts。进一步地,步骤6)所述比对包括:如果SetAc中存在伴随候选组Gj与Scs中位置聚类快照簇Si的Hausdorff距离不小于Md,且Gj的最后一个时间片的位置聚类快照簇Gsl与Si的共有成员个数不小于Mp,则将Si作为最新时间片快照加入Gj;否则生成新轨迹伴随候选组,将Scs中产生的位置聚类快照簇放入该新轨迹伴随候选组。进一步地,步骤7)所述判断当前每个轨迹伴随候选组是否合格,包括:对群体轨迹伴随候选集SetAc中每个持续周期大于Mt的轨迹伴随候选组进行轨迹伴随模式分析,如果存在候选组Gj的核心成员人数不少于Mc,则为合格群体轨迹伴随模式。进一步地,步骤7)所述合格的群体轨迹伴随模式详情,包括伴随成员ID集合、伴随开始时间、伴随持续时间长度、伴随开始位置点、伴随轨迹。基于同一专利技术构思,本专利技术还提供一种大数据环境下的群体轨迹伴随模式在线分析系统,其包括:阈值参数设置模块,用于设置群体轨迹伴随模式的阈值参数;清洗和过滤模块,连接所述阈值参数设置模块,用于对接入的群体轨迹流数据进行清洗和过滤;切片模块,连接所述清洗和过滤模块,用于对清洗和过滤后的群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;KD-Tree构建模块,连接所述切片模块,用于根据当前时间片的群体位置信息集合,构建基于spark的分布式高维索引树KD-Tree;密度聚类模块,连接所述KD-Tree构建模块,用于基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;轨迹伴随候选组操作模块,连接所述密度聚类模块,如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;如果SetAc不为空,则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对,根据所述阈值参数设置模块设置的阈值参数进行判断,将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的轨迹伴随候选组,或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;合格性判断模块,连接所述轨迹伴随候选组操作模块,用于根据所述阈值参数设置模块设置的阈值参数判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情,如果不合格则将不合格的轨迹伴随候选组置为闭合状态,并从SetAc中移除。与现有技术相比,本专利技术具有如下优点:(1)高吞吐量:本专利技术基于map-reduce思想构建群体轨迹伴随模式分析模型,能够分布式处理大规模的时空轨迹数据流,具有高吞吐量的数据处理和分析能力;(2)实时性高:轨迹伴随模式分析时效性对在线群体活动监控、交通路线规划等业务十分重要,本专利技术按时间片处理轨迹数据,使用图搜索算法优化了轨迹聚类算法性能,能够近似实时性发现群体轨迹伴随模式,为相关业务开展提供有力支撑;(3)准确性高:本专利技术采用基于K-Dtree的密度聚类算法进行位置聚类,本文档来自技高网
...

【技术保护点】
1.一种大数据环境下的群体轨迹伴随模式在线分析方法,其特征在于,包括以下步骤:/n1)设置群体轨迹伴随模式的阈值参数;/n2)对接入的群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;/n3)根据当前时间片的群体位置信息集合,构建基于spark的分布式高维索引树KD-Tree;/n4)基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;/n5)如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;/n6)如果SetAc不为空,则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对,根据步骤1)所述阈值参数进行判断,将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的轨迹伴随候选组,或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;/n7)根据步骤1)所述阈值参数判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情,如果不合格则将不合格的轨迹伴随候选组置为闭合状态,并从SetAc中移除。/n

【技术特征摘要】
1.一种大数据环境下的群体轨迹伴随模式在线分析方法,其特征在于,包括以下步骤:
1)设置群体轨迹伴随模式的阈值参数;
2)对接入的群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;
3)根据当前时间片的群体位置信息集合,构建基于spark的分布式高维索引树KD-Tree;
4)基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;
5)如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;
6)如果SetAc不为空,则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对,根据步骤1)所述阈值参数进行判断,将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的轨迹伴随候选组,或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;
7)根据步骤1)所述阈值参数判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情,如果不合格则将不合格的轨迹伴随候选组置为闭合状态,并从SetAc中移除。


2.根据权利要求1所述的方法,其特征在于,循环执行步骤5)至7),直到结束轨迹伴随模式在线分析。


3.根据权利要求1所述的方法,其特征在于,步骤2)进行所述切片之前,对接入的群体轨迹流数据进行清洗和过滤,包括:进行脏数据清洗;过滤掉用户ID标识、时间戳及经纬度信息缺失或异常的无效数据。


4.根据权利要求1所述的方法,其特征在于,步骤3)将所述群体位置信息集合中每个位置信息按照经度、纬度两个维度添加到同一棵维度等于2的K-DTree数据结构中;在K-DTree构造过程中采用逐层交替法,即相邻两层采用不同维度,交替选择;在K-DTree插入新结点时,根据所在层次lev,比较待插入结点和已有结点的lev%2维数据决定待插入结点是在已有结点的左子树还是右子树。


5.根据权利要求1所述的方法,其特征在于,步骤4)所述基于KD-Tree进行位置点的密度聚类,包括:
(1)根据当前时间片所有包含群体位置数据的对象全局唯一标识ID构建一棵分布式K-DTree,称为kdt;
(2)遍历当前群体位置信息集合,选取一个对象p,在kdt上检索所有从p关于ε-邻域和MinPts密度可达的对象:如果p是核心对象,构建以p为始点,其可达对象为终点的边集;如果p是边缘对象,构建以p自身为始点和终点的边,得到边集Edges;
(3)构建当前时间片所有对象的顶点集Vertexs,以Edges和Vertexs构建图G;
(4)计算图G的连通分支,每个连通分支ID设置为分支中序号最小的顶点的ID;
(5)遍历图G中的边,以所在连通分支ID作为clusterID,得到二元组<clusterID,Edge>的集合celists;
(6)对celists按clusterID分组,将具有...

【专利技术属性】
技术研发人员:王博李超郭承青王维光刘路陈天然庹宇鹏
申请(专利权)人:中国科学院信息工程研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1