一种基于时空网格数据压缩的全网伴随方法技术

技术编号：36684235 阅读：32 留言：0更新日期：2023-02-27 19:44

本发明专利技术提供了一种基于时空网格数据压缩的全网伴随方法。以时空位置数据资源为依托，利用大数据技术、时空网格数据压缩技术等，对时空轨迹数据进行分析处理，包括位置数据萃取、原始轨迹向量化、轨迹向量填充、时空分桶和轨迹合并等过程，一次性计算出时空位置数据中存在的伴随行为关系。本发明专利技术能够解决现有方法伴随行为计算时间长、不能实现长期伴随分析、时空数据价值难以发挥等问题，具有计算复杂度低、可进行长期伴随和最大限度发挥出时空数据价值等优点。价值等优点。价值等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时空网格数据压缩的全网伴随方法

[0001]本专利技术属大数据分析领域，具体涉及一种基于时空网格数据压缩的全网伴随方法。

技术介绍

[0002]随着5G的不断推广以及传感器设备的不断普及，采集到的位置信息数据越来越多，位置数据集越来越庞大，在有限的时间内将庞大的位置数据有针对性的进行分类一直是一个热点问题，是伴随关系发现、密切接触者跟踪等工作的主要难题。
[0003]现有的时空伴随算法主要是采用机器学习的思想计算有目标、短期的伴随，针对的场景是已知目标者在时空数据中的唯一标识，计算出指定时间段内与该用户发生伴随的关系。现有算法存在的主要问题有：1.采用的是在线计算的方式，如果需要同时计算很多用户主体的伴随关系时，往往会导致计算时间长、计算资源占用多，可能导致在此期间其他任务无法运行；2.由于采用的是短时间、有目标的伴随计算方式，因此无法对时空数据中所有的伴随关系进行积累，无法进一步挖掘出更有价值的信息。

技术实现思路

[0004]为了克服现有技术的不足，本专利技术提供一种基于时空网格数据压缩的全网伴随方法。以时空位置数据资源为依托，利用大数据技术、时空网格数据压缩技术等，对时空轨迹数据进行分析处理，包括位置数据萃取、原始轨迹向量化、轨迹向量填充、时空分桶和轨迹合并等过程，一次性计算出时空位置数据中存在的伴随行为关系。本专利技术能够解决现有方法伴随行为计算时间长、不能实现长期伴随分析、时空数据价值难以发挥等问题，具有计算复杂度低、可进行长期伴随和最大限度发挥出时空数据价值等优点。
>[0005]一种基于时空网格数据压缩的全网伴随方法，其特征在于步骤如下：
[0006]步骤1，位置数据萃取：将各用户主体每天的位置数据从位置类数据源中抽取出来，利用大数据组件将位置数据按照用户主体唯一标识id、到分钟的时间、每一条数据经纬度值对应的13级Google S2块的编码进行分组，并统计出每一个S2块在同一分钟内出现的次数，然后以出现次数最多的S2块，作为该一分钟内的位置块，对于每一个用户主体每一分钟仅对应一条位置数据，完成数据萃取；
[0007]步骤2，原始轨迹向量化：将萃取后的每个用户主体的位置数据按照时间顺序填充到轨迹向量中，每分钟的位置数据对应轨迹向量中的一个节点，如果该分钟的位置数据丢失，则令该节点为0，向量中节点的索引为分钟索引，即1,2,
…
,1440，如此形成初始轨迹向量，初始轨迹向量长度为1440；
[0008]步骤3，轨迹向量填充：对初始轨迹向量中连续丢失时间小于15分钟的位置节点按就近原则进行填充，具体为：设p
k
、p
k+n
为初始轨迹向量中两个不为0的相邻节点，k表示轨迹向量中的节点索引，n为两个相邻不为0的节点间的索引差，n≤15，填充后的第i个节点p
i
按照下式得到：
[0009][0010]步骤4，时空分桶：对填充后的轨迹向量，每五分钟取一个位置节点，根据取点起始位置的不同，得到5条长度为288的不同的子轨迹向量；对每条子轨迹向量按照时间窗口30分钟进行滑动获取位置节点，每一条子轨迹向量得到283条时间长度为30分钟的轨迹向量和5条时间长度不足30分钟的轨迹向量；删除包含节点为0的轨迹向量，对剩余滑动窗口轨迹向量按以下过程进行处理：
[0011]步骤a：对于时间长度为30分钟的滑动窗口轨迹向量，分别按下式计算得到其时空分桶id：
[0012]id＝index_p/5
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0013]其中，index_p表示滑动窗口轨迹向量中的首节点p在初始轨迹向量中的节点索引；
[0014]然后进行时空分桶录入，其时空分桶的RDD数据结构为[(时空分桶id，(轨迹向量，用户主体id))]；
[0015]步骤b：对于所有移动距离超过5公里的滑动窗口轨迹向量，从其首节点开始截取移动距离超过5公里的最短轨迹向量，按前述公式计算其时空分桶id，并进行时空分桶录入；
[0016]步骤c：对每一个时空分桶，变换其RDD数据结构为[(时空分桶id，轨迹向量)，用户主体id]，然后使用聚合算子，将所有key相同的时空分桶RDD数据进行聚合，得到伴随关系用户数组，其RDD数据结构为[((时空分桶id，伴随轨迹向量)，[伴随关系用户数组])]，接着，通过对伴随关系用户数组中的用户主体id进行两两组合，并对组合后的RDD数据结构进行扁平化处理，得到若干伴随关系对数组，其RDD数据结构为[((时空分桶id，伴随轨迹向量)，用户主体id1
‑
用户主体id2)]；
[0017]步骤5，轨迹合并：使用聚合算子对伴随关系对数组的RDD数据进行聚合操作，对聚合后RDD数据的value数组进行正序排列，使得该数组按时间顺序排列，判断排列后的相邻时空分桶伴随路径是否为连续路径，如果是，按时间顺序将其组合为一条路径，并以组合后的路径起始时间作为其伴随时间，否则，直接以原路径起始时间作为其伴随时间，如此处理完毕后，对新得到的伴随关系对数组RDD数据结构进行扁平化操作，得到最终的若干伴随关系对结果。
[0018]本专利技术的有益效果是：通过进行位置数据萃取，可以去除路径毛刺；通过进行轨迹向量化和填充处理，为海量时空数据计算提供了统一标准，且在不改变轨迹数据真实性的基础上，能够最大限度的详细描述轨迹，提高了伴随计算的覆盖率；由于采用时间分桶方式，将所有用户的轨迹切片后按时间节点录入到指定的时空分桶中，既降低了计算复杂度，又使全网用户轨迹伴随计算成为可能。
附图说明
[0019]图1是本专利技术的基于时空网格数据压缩的全网伴随方法流程图；
[0020]图2是轨迹向量化过程示意图；
[0021]图3是轨迹向量填充过程示意图；
[0022]图4是5公里路径拆分过程示意图；
[0023]图5是时间分桶示意图；
[0024]图6是桶内轨迹合并示意图；
[0025]图7是桶间轨迹合并示意图。
具体实施方式
[0026]下面结合附图和实施例对本专利技术进一步说明，本专利技术包括但不仅限于下述实施例。
[0027]如图1所示，本专利技术提供了一种基于时空网格数据压缩的全网伴随方法，具体实现过程如下：
[0028]1、位置数据萃取
[0029]将各用户主体每天的位置数据从位置类数据源中抽取出来，利用大数据组件将位置数据按照用户主体唯一标识id、到分钟的时间、每一条数据经纬度值对应的13级Google S2块的编码进行分组，并统计出每一个S2块在同一分钟内出现的次数，然后以出现次数最多的S2块，作为该一分钟内的位置块，对于每一个用户主体每一分钟仅对应一条位置数据，完成数据萃取，实现去毛刺处理。
[0030]2、原始轨迹向量化
[0031]将萃取后的每个用户主体的位置数据按照时间顺序填充到轨迹向量中，每分钟的位置数据对应轨迹向量中的一个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于时空网格数据压缩的全网伴随方法，其特征在于步骤如下：步骤1，位置数据萃取：将各用户主体每天的位置数据从位置类数据源中抽取出来，利用大数据组件将位置数据按照用户主体唯一标识id、到分钟的时间、每一条数据经纬度值对应的13级Google S2块的编码进行分组，并统计出每一个S2块在同一分钟内出现的次数，然后以出现次数最多的S2块，作为该一分钟内的位置块，对于每一个用户主体每一分钟仅对应一条位置数据，完成数据萃取；步骤2，原始轨迹向量化：将萃取后的每个用户主体的位置数据按照时间顺序填充到轨迹向量中，每分钟的位置数据对应轨迹向量中的一个节点，如果该分钟的位置数据丢失，则令该节点为0，向量中节点的索引为分钟索引，即1,2,
…
,1440，如此形成初始轨迹向量，初始轨迹向量长度为1440；步骤3，轨迹向量填充：对初始轨迹向量中连续丢失时间小于15分钟的位置节点按就近原则进行填充，具体为：设p
k
、p
k+n
为初始轨迹向量中两个不为0的相邻节点，k表示轨迹向量中的节点索引，n为两个相邻不为0的节点间的索引差，n≤15，填充后的第i个节点p
i
按照下式得到：步骤4，时空分桶：对填充后的轨迹向量，每五分钟取一个位置节点，根据取点起始位置的不同，得到5条长度为288的不同的子轨迹向量；对每条子轨迹向量按照时间窗口30分钟进行滑动获取位置节点，每一条子轨迹向量得到283条时间长度为30分钟的轨迹向量和5条时间长度不足30分钟的轨迹向量；删除包含节点为0的轨迹向量，对剩余滑动窗口轨迹向量按以下过程进行处理：步骤a：对于时间长度为30分...

【专利技术属性】
技术研发人员：支金柱，毛世文，白洁，梁相军，孙照旻，
申请(专利权)人：电信科学技术第十研究所有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人