数据处理的方法、装置和系统制造方法及图纸

技术编号:24409939 阅读:39 留言:0更新日期:2020-06-06 08:44
本发明专利技术公开了一种数据处理的方法、装置和系统。其中,该方法包括:依据待查询对象和待查询时间段从第一类计算引擎中获取待查询对象的签名数据;依据签名数据从第一类计算引擎中获取候选集合;通过第一类计算引擎将候选集合中所有签名数据的轨迹向量数据与待查询对象的签名数据对应的轨迹向量数据进行相似度计算,得到与待查询对象轨迹相似的伴随对象。本发明专利技术解决了从海量的轨迹数据中找出与目标轨迹的相似度高的其它轨迹的过程中海量数据带来的计算效率低的技术问题。

Methods, devices and systems of data processing

【技术实现步骤摘要】
数据处理的方法、装置和系统
本专利技术涉及互联网
,具体而言,涉及一种数据处理的方法、装置和系统。
技术介绍
针对具有海量的移动设备的定位数据,需要设计一套高效的技术方案,基于时空位置数据快速检索出与一个移动设备同行的其它移动设备。计算移动设备的轨迹伴随的本质实际上就是要在海量的轨迹数据中找出与目标轨迹的相似度高的其它轨迹。最原始的方案中,直接计算所有的候选轨迹与目标轨迹的相似度(或者距离),如使用欧几里得距离、jaccard距离、Frechet距离等。该方案的优点是对于小数据量的时候,简单有效;该方案的缺点就是计算复杂度很高,不能用于海量的数据的解决方案。在相关技术中,为了降低计算量,将经纬度的定位数据使用geohash进行编码,可以将二维的空间数据转换为一维的字符串数据。这样一条时空轨迹就是由多个geohash组成的集合,每个geohash对应于一个时间区间。利用计算引擎对geohash的索引功能,将其中每一个时间的geohash与候选集中所有的其它对应时间的geohash进行求交计算,最后根据交集数量的从高到低得到伴随结果。该方案的优点:使用了geohash对经纬度的位置数据编码,使得计算引擎可以直接对geohash进行索引,在查询的时候可以直接在计算引擎上通过geohash进行求交计算,可以避免到一些完全没有交集的运算,一定程度上提升查询效率;该方案的缺点:A)geohash存在边界情况,即两个很相近的位置点对应的geohash不一样,可能存在召回丢失;B)轨迹所包含的geohash数量与伴随时间长度成正比,伴随时间越长,geohash数量越多,求交的计算量就会越大,使得该方法不适合较长时间的伴随。针对上述从海量的轨迹数据中找出与目标轨迹的相似度高的其它轨迹的过程中海量数据带来的计算效率低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据处理的方法、装置和系统,以至少解决从海量的轨迹数据中找出与目标轨迹的相似度高的其它轨迹的过程中海量数据带来的计算效率低的技术问题。根据本专利技术实施例的一个方面,提供了一种数据处理的方法,包括:依据待查询对象和待查询时间段从第一类计算引擎中获取待查询对象的签名数据;依据签名数据从第一类计算引擎中获取候选集合;通过第一类计算引擎将候选集合中所有签名数据的轨迹向量数据与待查询对象的签名数据对应的轨迹向量数据进行相似度计算,得到与待查询对象轨迹相似的伴随对象。可选的,在得到与待查询对象轨迹相似的伴随对象之后,该方法还包括:依据伴随对象获取与待查询对象轨迹相似的设备列表。可选的,在依据待查询对象和待查询时间段从第一类计算引擎中获取待查询对象的签名数据之前,该方法还包括:依据时间片对终端进行采样,得到每个时间片的位置数据;依据每个时间片的位置数据进行哈希计算,得到签名数据;依据每个时间片的位置数据进行压缩,得到压缩后的轨迹向量数据;将签名数据和压缩后的轨迹向量数据由第二类计算引擎同步至第一类计算引擎。进一步地,可选的,依据时间片对终端进行采样,得到每个时间片的位置数据包括:当时间片内有多个轨迹点时,通过计算多个轨迹点的位置数据均值、位置数据中位数或最后一个轨迹点的位置数据,得到时间片的位置数据。可选的,依据时间片对终端进行采样,得到每个时间片的位置数据包括:当时间片内没有轨迹点时,将前一个时间片的位置数据或后一个时间片的位置数据确定为时间片的位置数据。可选的,依据每个时间片的位置数据进行哈希计算,得到签名数据包括:将位置数据进行对齐处理,得到轨迹向量;从轨迹向量中随机获取轨迹点,组成局部轨迹向量;对局部轨迹向量进行哈希计算,得到签名数据。可选的,依据每个时间片的位置数据进行压缩,得到压缩后的轨迹向量数据包括:对每个时间片的位置数据进行掩码计算,得到压缩后的轨迹向量数据。可选的,依据待查询对象和待查询时间段从第一类计算引擎中获取待查询对象的签名数据包括:获取待查询对象和待查询时间段;依据待查询对象和待查询时间段在第一类计算引擎中查询,得到待查询对象在待查询时间段的签名数据。可选的,依据待查询对象和待查询时间段从第一类计算引擎中获取待查询对象的签名数据包括:当获取待查询对象在待查询时间段的轨迹数据时,通过对轨迹数据进行分片,得到轨迹向量;依据轨迹向量进行在线签名,得到待查询对象的签名数据。可选的,依据签名数据从第一类计算引擎中获取候选集合包括:依据签名数据的桶编号,在第一类计算引擎中进行查询,得到桶编号相同的签名数据集合;将签名数据集合确定为第一候选集。进一步地,可选的,在将签名数据集合确定为第一候选集之后,该方法还包括:根据预设距离公式计算第一候选集中的签名数据与签名数据之间的距离;对距离进行排序,得到第二候选集。可选的,通过第一类计算引擎将候选集合中所有签名数据的轨迹向量数据与待查询对象的签名数据对应的轨迹向量数据进行相似度计算,得到与待查询对象轨迹相似的伴随对象包括:通过第一类计算引擎,将第二候选集中签名数据对应的移动设备的轨迹向量数据,与待查询对象的签名数据的轨迹向量数据进行相似度计算,得到多个计算结果;依据预设顺序排列多个计算结果的相似度,将位于前N个的计算结果确定为与待查询对象轨迹相似的伴随对象。根据本专利技术实施例的另一方面,还提供了一种数据处理的装置,包括:提取模块,用于依据待查询对象和待查询时间段从第一类计算引擎中获取待查询对象的签名数据;获取模块,用于依据签名数据从第一类计算引擎中获取候选集合;计算模块,用于通过第一类计算引擎将候选集合中所有签名数据的轨迹向量数据与待查询对象的签名数据对应的轨迹向量数据进行相似度计算,得到与待查询对象轨迹相似的伴随对象。根据本专利技术实施例的又一方面,还提供了一种数据处理的系统,包括:第一类计算引擎和第二类计算引擎,其中,第二类计算引擎,用于依据时间片对终端进行采样,得到每个时间片的位置数据;依据每个时间片的位置数据进行哈希计算,得到签名数据;依据每个时间片的位置数据进行压缩,得到压缩后的轨迹向量数据;将签名数据和压缩后的轨迹向量数据由第二类计算引擎同步至第一类计算引擎;第一类计算引擎,用于依据待查询对象和待查询时间段从第一类计算引擎中获取待查询对象的签名数据;依据签名数据获取候选集合;通过第一类计算引擎将候选集合中所有签名数据的轨迹向量数据与待查询对象的签名数据对应的轨迹向量进行相似度计算,得到与待查询对象轨迹相似的伴随对象。根据本专利技术实施例的再一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述数据处理的方法。在本专利技术实施例中,采用将原始的定位日志数据进行预处理、轨迹压缩存储以及轨迹签名,然后将其数据处理结果同步到实时查询引擎,以便用于在线快速检索的方式,通过依据待查询对象和待查询时间段从第一类计算引擎中获取待查询对象的签名数据;依据签名数据从第一类计算引擎中获取候选集合;通过第一类计算引擎将候选集合中所有签名数据的轨迹向本文档来自技高网
...

【技术保护点】
1.一种数据处理的方法,包括:/n依据待查询对象和待查询时间段从第一类计算引擎中获取所述待查询对象的签名数据;/n依据所述签名数据从所述第一类计算引擎中获取候选集合;/n通过所述第一类计算引擎将所述候选集合中所有签名数据的轨迹向量数据与所述待查询对象的签名数据对应的轨迹向量数据进行相似度计算,得到与所述待查询对象轨迹相似的伴随对象。/n

【技术特征摘要】
1.一种数据处理的方法,包括:
依据待查询对象和待查询时间段从第一类计算引擎中获取所述待查询对象的签名数据;
依据所述签名数据从所述第一类计算引擎中获取候选集合;
通过所述第一类计算引擎将所述候选集合中所有签名数据的轨迹向量数据与所述待查询对象的签名数据对应的轨迹向量数据进行相似度计算,得到与所述待查询对象轨迹相似的伴随对象。


2.根据权利要求1所述的方法,其中,在得到与所述待查询对象轨迹相似的伴随对象之后,所述方法还包括:
依据所述伴随对象获取与所述待查询对象轨迹相似的设备列表。


3.根据权利要求1所述的方法,其中,在依据待查询对象和待查询时间段从第一类计算引擎中获取所述待查询对象的签名数据之前,所述方法还包括:
依据时间片对终端进行采样,得到每个时间片的位置数据;
依据所述每个时间片的位置数据进行哈希计算,得到签名数据;
依据所述每个时间片的位置数据进行压缩,得到压缩后的轨迹向量数据;
将所述签名数据和所述压缩后的轨迹向量数据由第二类计算引擎同步至第一类计算引擎。


4.根据权利要求3所述的方法,其中,所述依据时间片对终端进行采样,得到每个时间片的位置数据包括:
当所述时间片内有多个轨迹点时,通过计算所述多个轨迹点的位置数据均值、位置数据中位数或最后一个轨迹点的位置数据,得到所述时间片的位置数据。


5.根据权利要求3所述的方法,其中,所述依据时间片对终端进行采样,得到每个时间片的位置数据包括:
当所述时间片内没有轨迹点时,将前一个时间片的位置数据或后一个时间片的位置数据确定为所述时间片的位置数据。


6.根据权利要求3所述的方法,其中,所述依据所述每个时间片的位置数据进行哈希计算,得到签名数据包括:
将所述位置数据进行对齐处理,得到轨迹向量;
从所述轨迹向量中随机获取轨迹点,组成局部轨迹向量;
对所述局部轨迹向量进行哈希计算,得到所述签名数据。


7.根据权利要求3所述的方法,其中,所述依据所述每个时间片的位置数据进行压缩,得到压缩后的轨迹向量数据包括:
对所述每个时间片的位置数据进行掩码计算,得到压缩后的轨迹向量数据。


8.根据权利要求1至7中任一项所述的方法,其中,所述依据待查询对象和待查询时间段从第一类计算引擎中获取所述待查询对象的签名数据包括:
获取所述待查询对象和所述待查询时间段;
依据所述待查询对象和所述待查询时间段在所述第一类计算引擎中查询,得到所述待查询对象在所述待查询时间段的签名数据。


9.根据权利要求1至7中任一项所述的方法,其中,所述依据待查询对象和待查询时间段从第一类计算引擎中获取所述待查询对象的签名数据包括:

【专利技术属性】
技术研发人员:罗净朱洪波
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1