一种大数据环境下的群体轨迹伴随模式在线分析方法和系统技术方案

技术编号：22847684 阅读：24 留言：0更新日期：2019-12-17 23:01

本发明专利技术涉及一种大数据环境下的群体轨迹伴随模式在线分析方法和系统。该方法包括：设置群体轨迹伴随模式的阈值参数；对群体轨迹流数据进行切片，获得当前时间片的群体位置信息集合；构建基于spark的分布式高维索引树KD‑Tree；进行位置点的密度聚类，形成当前时间片的群体位置聚类快照簇集合Scs；根据当前群体轨迹伴随候选集SetAc是否为空，将Scs中的位置聚类快照簇加入SetAc中存在的伴随候选组或者新生成的轨迹伴随候选组；判断当前每个轨迹伴随候选组是否合格，如果合格则输出合格的群体轨迹伴随模式详情。本发明专利技术具有高吞吐量、实时性高、准确性高、扩展性好、高可配置性等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据环境下的群体轨迹伴随模式在线分析方法和系统
本专利技术涉及移动群体轨迹模式分析与监控领域，是一种实时获取移动智能终端产生的海量时空位置大数据，使用分布式算法对轨迹数据按时间片切分和聚类并进行群体轨迹伴随模式在线识别发现的方法，能够应用于群体移动轨迹伴随模式分析、特定群体活动监控、交通热点路线发现等方面。
技术介绍
随着移动互联网的迅速发展，特别是以手机为代表的智能移动终端的普及，每时每刻产生着海量的移动群体位置信息，蕴含着大量用户日常生活习惯和生活圈的位置和时空轨迹数据。群体轨迹伴随模式是指一群移动对象在时空轨迹上表现出相同或相似的运动模式，并且该模式持续了一定时间长度。群体轨迹伴随模式在我们生活中普遍存在，例如一起乘坐公共交通工具的乘客、一起逛街的朋友等都形成了轨迹伴随模式。快速有效地对大数据规模下的群体移动轨迹进行模式识别和分析，挖掘群体移动轨迹的伴随模式特征，对群体关系发现、特定群体活动监控、城市交通规划等方面具有极大价值。当前主流的群体移动轨迹伴随模式分析方法是基于轨迹聚类的方法，该方法主要操作包括位置点聚类和相邻簇取交集。CMC(CoherentMovingCluster)算法为基于轨迹聚类方法中的典型算法，其规定若至少m个移动对象伴随运动持续k个时间片以上则形成轨迹伴随模式。虽然该算法考虑了移动群体活动轨迹的随机性和多样性，能够识别和发现大多数情况下的群体轨迹伴随行为，但是在大数据规模的环境下，该算法中传统聚类和取交集操作执行效率低，扩展性差，对计算和存储资源消耗巨大，难以用于海量移动网...

【技术保护点】
1.一种大数据环境下的群体轨迹伴随模式在线分析方法，其特征在于，包括以下步骤：/n1)设置群体轨迹伴随模式的阈值参数；/n2)对接入的群体轨迹流数据进行切片，获得当前时间片的群体位置信息集合；/n3)根据当前时间片的群体位置信息集合，构建基于spark的分布式高维索引树KD-Tree；/n4)基于KD-Tree进行位置点的密度聚类，形成当前时间片的群体位置聚类快照簇集合Scs；/n5)如果当前群体轨迹伴随候选集SetAc为空，则生成新轨迹伴随候选组，将Scs中的位置聚类快照簇放入该新轨迹伴随候选组；/n6)如果SetAc不为空，则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对，根据步骤1)所述阈值参数进行判断，将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的轨迹伴随候选组，或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组；/n7)根据步骤1)所述阈值参数判断当前每个轨迹伴随候选组是否合格，如果合格则输出合格的群体轨迹伴随模式详情，如果不合格则将不合格的轨迹伴随候选组置为闭合状态，并从SetAc中移除。/n

【技术特征摘要】
1.一种大数据环境下的群体轨迹伴随模式在线分析方法，其特征在于，包括以下步骤：
1)设置群体轨迹伴随模式的阈值参数；
2)对接入的群体轨迹流数据进行切片，获得当前时间片的群体位置信息集合；
3)根据当前时间片的群体位置信息集合，构建基于spark的分布式高维索引树KD-Tree；
4)基于KD-Tree进行位置点的密度聚类，形成当前时间片的群体位置聚类快照簇集合Scs；
5)如果当前群体轨迹伴随候选集SetAc为空，则生成新轨迹伴随候选组，将Scs中的位置聚类快照簇放入该新轨迹伴随候选组；
6)如果SetAc不为空，则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对，根据步骤1)所述阈值参数进行判断，将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的轨迹伴随候选组，或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组；
7)根据步骤1)所述阈值参数判断当前每个轨迹伴随候选组是否合格，如果合格则输出合格的群体轨迹伴随模式详情，如果不合格则将不合格的轨迹伴随候选组置为闭合状态，并从SetAc中移除。

2.根据权利要求1所述的方法，其特征在于，循环执行步骤5)至7)，直到结束轨迹伴随模式在线分析。

3.根据权利要求1所述的方法，其特征在于，步骤2)进行所述切片之前，对接入的群体轨迹流数据进行清洗和过滤，包括：进行脏数据清洗；过滤掉用户ID标识、时间戳及经纬度信息缺失或异常的无效数据。

4.根据权利要求1所述的方法，其特征在于，步骤3)将所述群体位置信息集合中每个位置信息按照经度、纬度两个维度添加到同一棵维度等于2的K-DTree数据结构中；在K-DTree构造过程中采用逐层交替法，即相邻两层采用不同维度，交替选择；在K-DTree插入新结点时，根据所在层次lev，比较待插入结点和已有结点的lev％2维数据决定待插入结点是在已有结点的左子树还是右子树。

5.根据权利要求1所述的方法，其特征在于，步骤4)所述基于KD-Tree进行位置点的密度聚类，包括：
(1)根据当前时间片所有包含群体位置数据的对象全局唯一标识ID构建一棵分布式K-DTree，称为kdt；
(2)遍历当前群体位置信息集合，选取一个对象p，在kdt上检索所有从p关于ε-邻域和MinPts密度可达的对象：如果p是核心对象，构建以p为始点，其可达对象为终点的边集；如果p是边缘对象，构建以p自身为始点和终点的边，得到边集Edges；
(3)构建当前时间片所有对象的顶点集Vertexs，以Edges和Vertexs构建图G；
(4)计算图G的连通分支，每个连通分支ID设置为分支中序号最小的顶点的ID；
(5)遍历图G中的边，以所在连通分支ID作为clusterID，得到二元组<clusterID,Edge>的集合celists；
(6)对celists按clusterID分组，将具有...

【专利技术属性】
技术研发人员：王博，李超，郭承青，王维光，刘路，陈天然，庹宇鹏，
申请(专利权)人：中国科学院信息工程研究所，国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人