【技术实现步骤摘要】
【国外来华专利技术】用于关联数据集的系统和方法交叉引用本申请要求于2017年12月29日提交的国际申请PCT/CN2017/119699的优先权,以上内容通过引用包含于此。
本申请一般涉及空间大数据的管理,更具体地,涉及用于关联数据集的系统和方法。
技术介绍
在互联网时代,在线按需服务平台可以从其用户或其他实体接收包括用户的实时或历史位置的空间大数据集。可以执行关联操作以将空间大数据集与另一个数据集组合。例如,可以执行关联操作以将空间大数据集与包括路网图的数据集进行比较,以确定未包括在路网图中的新道路。然而,由于空间大数据集中的数据量非常大,因此难以有效地处理空间大数据集。因此,期望提供用于关联数据集的系统和方法,以有效地处理空间大数据集。
技术实现思路
根据本申请的第一方面,用于优化空间大数据分区的数据处理电子系统可包括至少一个存储设备和至少一个处理器,该至少一个处理器被配置为与至少一个存储设备通信。该至少一个存储设备可包括一组指令。当执行一组指令时,可指示至少一个处理器执行一个或以上以下操作。至少一个处理器可以获取第一数据集。第一数据集可以是与目标区域内的空间信息相关的空间大数据集。至少一个处理器可以基于空间信息,将第一数据集划分为至少两个第一初始分区。至少一个处理器可以基于至少两个第一初始分区,确定第一数据集的第一空间索引。所述至少一个处理器可以基于第一空间索引,通过获取与所述至少两个第一初始分区相关的至少两个第一边界数据集以及对至少两个第一边边数据集进行第一次洗牌操作,生成至少两个第一修改分区 ...
【技术保护点】
1.一种优化空间大数据分区的数据处理电子系统,包括:/n至少一个存储介质,包括用于划分空间大数据集的一组指令;/n至少一个处理器,与所述至少一个存储介质通信,其中当执行所述一组指令时,所述至少一个处理器用于:/n获取第一数据集,所述第一数据集是与目标区域内的空间信息相关的空间大数据集;/n基于所述空间信息,将所述第一数据集划分为至少两个第一初始分区;/n基于所述至少两个第一初始分区,确定所述第一数据集的第一空间索引;以及/n通过以下操作生成至少两个第一修改分区:/n基于所述第一空间索引,获取与所述至少两个第一初始分区相关的至少两个第一边界数据集,其中所述至少两个第一边界数据集包括与所述至少两个第一初始分区周围的一个或以上第一区域相关的数据;以及/n对所述至少两个第一边界数据集进行第一洗牌操作。/n
【技术特征摘要】
【国外来华专利技术】1.一种优化空间大数据分区的数据处理电子系统,包括:
至少一个存储介质,包括用于划分空间大数据集的一组指令;
至少一个处理器,与所述至少一个存储介质通信,其中当执行所述一组指令时,所述至少一个处理器用于:
获取第一数据集,所述第一数据集是与目标区域内的空间信息相关的空间大数据集;
基于所述空间信息,将所述第一数据集划分为至少两个第一初始分区;
基于所述至少两个第一初始分区,确定所述第一数据集的第一空间索引;以及
通过以下操作生成至少两个第一修改分区:
基于所述第一空间索引,获取与所述至少两个第一初始分区相关的至少两个第一边界数据集,其中所述至少两个第一边界数据集包括与所述至少两个第一初始分区周围的一个或以上第一区域相关的数据;以及
对所述至少两个第一边界数据集进行第一洗牌操作。
2.根据权利要求1所述的系统,其特征在于,获取与所述至少两个第一初始分区相关的所述至少两个第一边界数据集包括:
基于所述第一空间索引,确定所述至少两个第一初始分区中的每一个分区的空间索引范围;以及
基于所述至少两个第一初始分区的所述空间索引范围,确定与所述至少两个第一初始分区相关的所述至少两个第一边界数据集。
3.根据权利要求1所述的系统,所述至少一个处理器还用于:
根据分布式计算方法,对所述至少两个第一初始分区进行分布式计算,以生成所述至少两个第一修改分区。
4.根据权利要求3所述的系统,所述至少一个处理器还用于:
获取在所述目标区域内的第二数据集;
将所述第二数据集划分为至少两个第二初始分区;
基于所述至少两个第二初始分区,确定所述第二数据集的第二空间索引;以及
根据所述分布式计算方法和所述第二空间索引,对所述至少两个第二初始分区进行分布式计算,以生成至少两个第二修改分区。
5.根据权利要求4所述的系统,其特征在于,为了生成所述至少两个第二修改分区,所述至少一个处理器还用于:
基于所述第二空间索引,获取与所述至少两个第二初始分区相关的至少两个第二边界数据集,其中所述至少两个第二边界数据集包括与所述至少两个第二初始分区周围的一个或以上第二区域相关的数据;以及
对所述至少两个第二边界数据集进行第二洗牌操作,以生成所述至少两个第二修改分区。
6.根据权利要求4所述的系统,所述至少一个处理器还用于:
将所述第一数据集中的所述至少两个第一修改分区中的至少一个分区与所述第二数据集中的所述至少两个第二修改分区中的至少一个分区进行关联。
7.根据权利要求4所述的系统,其特征在于,所述第一数据集包括与所述电子系统通信的至少两个用户终端的轨迹点,并且所述第二数据集包括所述目标区域的路网信息。
8.根据权利要求4所述的系统,其特征在于,对于所述至少两个第二修改分区中的每一个分区,其所述第二修改分区的位置、所述第二修改分区的面积、以及所述第二修改分区的形状均与所述至少两个第一修改分区中的其中一个分区相同。
9.根据权利要求1所述的系统,其特征在于,所述第一空间索引或所述第二空间索引与希尔伯特曲线或Z曲线中的至少一个相关。
10.根据权利要求1所述的系统,其特征在于,所述分布式计算方法包括Spark框架、Hadoop、Phoenix、Disco或Mars中的至少一种方法。
11.一种在具有至少一个处理器和至少一个存储介质的计算设备上实现的优化空间大数据分区的方法,所述方法包括:
通过所述至少一个处理器,获取第一数据集,所述第一数据集是与目标区域内的空间信息相关的空间大数据集;
通过所述至少一个处理器,基于所述空间信息,将所述第一数据集划分为至少两个第一初始分区;
通过所述至少一个处理器,基于所述至少两个第一初始分区,确定所述第一数据集的第一空间索引;以及
通过所述至少一个处理器,根据以下操作生成至少两个第一修改分区:
基于所述第一空间索引,获取与所述至少两个第一初始分区相关的至少两个第一边界数据集,其中所述至少两个第一边界数据集包括与所述至少两个第一初始分区周围的一个或以上第一区域相关的数据;以及
对所述至少两个第一边界数据集进行第一洗牌操作。
12.根据权利要求11所述的方法,其特征在于,获取与所述至少两个第一初始分区相关的所述至少两个第一边界数据集包括:
基于所述第一空间索引,确定所述至少两个第一初始分区中的每一个分区的空间索引范围;以及
基于所述至少两个第一初始分区的所述空间索引范围,确定与所述至少两个第一初始分区相关的所述至少两个第一边界数据集。
13.根据权利要求11所述的方法,所述方法还包括:
根据分布式计算方法,通过所述至少一个处理器,对所述至少两个第一初始分区进行分布式计算,以生成所述至少两个第一修改分区。
14.根据权利要求13所述的方法,所述方法还包括:
通过所述至少一个处理器,获取所述目标区域内的第二数据集;
通过所述至少一个处理器,将所述第二数据集划分为至少两个第二初始分区;
通过所述至少一个处理器,基于所述至少两个第二初始分区,确定所述第二数据集的第二空间索引;
通过所述至少一个处理器,根据所述分布式计算方法和所述第二空间索引,对所述至少两个第二初始分区进行分布式计算,以生成至少两个第二修改分区。
15.根据权利要求14所述的方法,其特征在于,所述至少两个第二修改分区的生成包括:
通过所述至少一个处理器,基于所述第二空间索引,获取与所述至少两个第二初始分区相关的至少两个第二边界数据集,其中所述至少两个第二边界数据集包括...
【专利技术属性】
技术研发人员:郭明浩,温翔,柴艺,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。