用于关联数据集的系统和方法技术方案

技术编号:25409317 阅读:26 留言:0更新日期:2020-08-25 23:11
用于优化空间大数据分区的系统可以执行包括获取第一数据集的方法,该第一数据集是与目标区域内的空间信息相关的空间大数据集。该方法还可以包括基于空间信息,将第一数据集划分为至少两个第一初始分区。该方法还可以包括基于至少两个第一初始分区,确定第一数据集的第一空间索引。该方法还可以包括基于第一空间索引,通过获取与至少两个第一初始分区相关的至少两个第一边界数据集,生成至少两个第一修改分区,并对至少两个第一边界数据集进行第一洗牌操作。

【技术实现步骤摘要】
【国外来华专利技术】用于关联数据集的系统和方法交叉引用本申请要求于2017年12月29日提交的国际申请PCT/CN2017/119699的优先权,以上内容通过引用包含于此。
本申请一般涉及空间大数据的管理,更具体地,涉及用于关联数据集的系统和方法。
技术介绍
在互联网时代,在线按需服务平台可以从其用户或其他实体接收包括用户的实时或历史位置的空间大数据集。可以执行关联操作以将空间大数据集与另一个数据集组合。例如,可以执行关联操作以将空间大数据集与包括路网图的数据集进行比较,以确定未包括在路网图中的新道路。然而,由于空间大数据集中的数据量非常大,因此难以有效地处理空间大数据集。因此,期望提供用于关联数据集的系统和方法,以有效地处理空间大数据集。
技术实现思路
根据本申请的第一方面,用于优化空间大数据分区的数据处理电子系统可包括至少一个存储设备和至少一个处理器,该至少一个处理器被配置为与至少一个存储设备通信。该至少一个存储设备可包括一组指令。当执行一组指令时,可指示至少一个处理器执行一个或以上以下操作。至少一个处理器可以获取第一数据集。第一数据集可以是与目标区域内的空间信息相关的空间大数据集。至少一个处理器可以基于空间信息,将第一数据集划分为至少两个第一初始分区。至少一个处理器可以基于至少两个第一初始分区,确定第一数据集的第一空间索引。所述至少一个处理器可以基于第一空间索引,通过获取与所述至少两个第一初始分区相关的至少两个第一边界数据集以及对至少两个第一边边数据集进行第一次洗牌操作,生成至少两个第一修改分区。至少两个第一边界数据集可包括与至少两个第一初始分区周围的一个或以上第一区域相关的数据。在一些实施例中,至少一个处理器可以基于第一空间索引,确定至少两个第一初始分区中的每一个分区的空间索引范围。所述至少一个处理器可以基于所述至少两个第一初始分区的空间索引范围,确定与所述至少两个第一初始分区相关的至少两个第一边界数据集。在一些实施例中,至少一个处理器可以根据分布式计算方法,对至少两个第一初始分区进行分布式计算,以生成至少两个第一修改分区。在一些实施例中,至少一个处理器可以获取目标区域内的第二数据集。至少一个处理器可以将第二数据集划分为至少两个第二初始分区。至少一个处理器可以基于至少两个第二初始分区,确定第二数据集的第二空间索引。至少一个处理器可以根据分布式计算方法和第二空间索引,对至少两个第二初始分区进行分布式计算,以生成至少两个第二修改分区。在一些实施例中,为了生成至少两个第二修改分区,所述至少一个处理器可以基于第二空间索引,获取与至少两个第二初始分区相关的至少两个第二边界数据集。至少两个第二边界数据集可包括与至少两个第二初始分区周围的一个或以上第二区域相关的数据。所述至少一个处理器可以对所述至少两个第二边界数据集进行第二洗牌操作,以生成所述至少两个第二修改分区。在一些实施例中,至少一个处理器可以将第一数据集中的至少两个第一修改分区中的至少一个分区和第二数据集中的至少两个第二修改分区中的至少一个分区进行关联。在一些实施例中,第一数据集可以包括与电子系统通信的至少两个用户终端的轨迹点,并且第二数据集包括目标区域的路网信息。在一些实施例中,对于至少两个第二修改分区中的每一个分区,第二修改分区的位置、第二修改分区的面积、以及第二修改分区的形状均可以与至少两个第一修改分区中的其中一个分区相同。在一些实施例中,第一空间索引或第二空间索引可以与希尔伯特曲线或Z曲线中的至少一个相关。在一些实施例中,分布式计算方法可以包括Spark框架、Hadoop、Phoenix、Disco或Mars中的至少一种方法。根据本申请的另一方面,优化空间大数据分区的方法可包括以下操作的一个或以上。至少一个处理器可以获取第一数据集。第一数据集可以是与目标区域内的空间信息相关的空间大数据集。至少一个处理器可以基于空间信息,将第一数据集划分为至少两个第一初始分区。至少一个处理器可以基于至少两个第一初始分区,确定第一数据集的第一空间索引。至少一个处理器可以基于第一空间索引,通过获取与至少两个第一初始分区相关的至少两个第一边界数据集以及对至少两个第一边界数据集进行第一洗牌操作生成至少两个第一修改分区。至少两个第一边界数据集可包括与至少两个第一初始分区周围的一个或以上第一区域相关的数据。根据本申请的又一方面,非暂时性计算机可读介质可包括至少一组指令。至少一组指令可以由计算机服务器的至少一个处理器执行。至少一个处理器可以获取第一数据集。第一数据集可以是与目标区域内的空间信息相关的空间大数据集。至少一个处理器可以基于空间信息,将第一数据集划分为至少两个第一初始分区。至少一个处理器可以基于至少两个第一初始分区,确定第一数据集的第一空间索引。至少一个处理器可以基于第一空间索引,通过获取与至少两个第一初始分区相关的至少两个第一边界数据集以及对至少两个第一边界数据集进行第一洗牌操作,生成至少两个第一修改分区。至少两个第一边界数据集可包括与至少两个第一初始分区周围的一个或以上第一区域相关的数据。根据本申请的又一方面,用于优化空间大数据分区的系统可包括获取模块,被配置为获取第一数据集。第一数据集可以是与目标区域内的空间信息相关的空间大数据集。系统还可以包括数据集处理模块,被配置为基于空间信息,将第一数据集划分为至少两个第一初始分区,以及基于至少两个第一初始分区,确定第一数据集的第一空间索引。该系统还可以包括扩展模块,被配置为基于第一空间索引,通过获取与至少两个第一初始分区相关的至少两个第一边界数据集以及对至少两个第一边界数据集进行第一洗牌操作,生成至少两个第一修改分区。至少两个第一边界数据集可包括与至少两个第一初始分区周围的一个或以上第一区域相关的数据。本申请的一部分附加特性可以在下面的描述中进行说明。通过对以下描述和相应附图的研究或者对实施例的生产或操作的了解,本申请的一部分附加特性对于本领域技术人员是明显的。本申请的特征可以通过对以下描述的具体实施例的各种方面的方法、手段和组合的实践或使用得以实现和达到。附图说明本申请将通过示例性实施例进行进一步描述。这些示例性实施例将通过附图进行详细描述。这些实施例是非限制性的示例性实施例,在这些实施例中,各图中相同的编号表示相似的结构,其中:图1是根据本申请的一些实施例所示的示例性按需服务系统的示意图;图2是根据本申请的一些实施例所示的可以在其上实现处理引擎112的计算设备的示例性硬件和/或软件组件的示意图;图3是根据本申请的一些实施例所示的可以在其上实现用户终端140的移动设备的示例性硬件和/或软件组件的示意图;图4是根据本申请的一些实施例所示的示例性处理引擎的框图;图5A是根据本申请的一些实施例所示的用于生成至少两个第一修改分区的示例性过程的流程图;图5B是根据本申请的一些实施例所示的用于关联两个数据集的示例性过程的流程图;图6是根据本申请的一些实施例所示的用于将数据集划分本文档来自技高网...

【技术保护点】
1.一种优化空间大数据分区的数据处理电子系统,包括:/n至少一个存储介质,包括用于划分空间大数据集的一组指令;/n至少一个处理器,与所述至少一个存储介质通信,其中当执行所述一组指令时,所述至少一个处理器用于:/n获取第一数据集,所述第一数据集是与目标区域内的空间信息相关的空间大数据集;/n基于所述空间信息,将所述第一数据集划分为至少两个第一初始分区;/n基于所述至少两个第一初始分区,确定所述第一数据集的第一空间索引;以及/n通过以下操作生成至少两个第一修改分区:/n基于所述第一空间索引,获取与所述至少两个第一初始分区相关的至少两个第一边界数据集,其中所述至少两个第一边界数据集包括与所述至少两个第一初始分区周围的一个或以上第一区域相关的数据;以及/n对所述至少两个第一边界数据集进行第一洗牌操作。/n

【技术特征摘要】
【国外来华专利技术】1.一种优化空间大数据分区的数据处理电子系统,包括:
至少一个存储介质,包括用于划分空间大数据集的一组指令;
至少一个处理器,与所述至少一个存储介质通信,其中当执行所述一组指令时,所述至少一个处理器用于:
获取第一数据集,所述第一数据集是与目标区域内的空间信息相关的空间大数据集;
基于所述空间信息,将所述第一数据集划分为至少两个第一初始分区;
基于所述至少两个第一初始分区,确定所述第一数据集的第一空间索引;以及
通过以下操作生成至少两个第一修改分区:
基于所述第一空间索引,获取与所述至少两个第一初始分区相关的至少两个第一边界数据集,其中所述至少两个第一边界数据集包括与所述至少两个第一初始分区周围的一个或以上第一区域相关的数据;以及
对所述至少两个第一边界数据集进行第一洗牌操作。


2.根据权利要求1所述的系统,其特征在于,获取与所述至少两个第一初始分区相关的所述至少两个第一边界数据集包括:
基于所述第一空间索引,确定所述至少两个第一初始分区中的每一个分区的空间索引范围;以及
基于所述至少两个第一初始分区的所述空间索引范围,确定与所述至少两个第一初始分区相关的所述至少两个第一边界数据集。


3.根据权利要求1所述的系统,所述至少一个处理器还用于:
根据分布式计算方法,对所述至少两个第一初始分区进行分布式计算,以生成所述至少两个第一修改分区。


4.根据权利要求3所述的系统,所述至少一个处理器还用于:
获取在所述目标区域内的第二数据集;
将所述第二数据集划分为至少两个第二初始分区;
基于所述至少两个第二初始分区,确定所述第二数据集的第二空间索引;以及
根据所述分布式计算方法和所述第二空间索引,对所述至少两个第二初始分区进行分布式计算,以生成至少两个第二修改分区。


5.根据权利要求4所述的系统,其特征在于,为了生成所述至少两个第二修改分区,所述至少一个处理器还用于:
基于所述第二空间索引,获取与所述至少两个第二初始分区相关的至少两个第二边界数据集,其中所述至少两个第二边界数据集包括与所述至少两个第二初始分区周围的一个或以上第二区域相关的数据;以及
对所述至少两个第二边界数据集进行第二洗牌操作,以生成所述至少两个第二修改分区。


6.根据权利要求4所述的系统,所述至少一个处理器还用于:
将所述第一数据集中的所述至少两个第一修改分区中的至少一个分区与所述第二数据集中的所述至少两个第二修改分区中的至少一个分区进行关联。


7.根据权利要求4所述的系统,其特征在于,所述第一数据集包括与所述电子系统通信的至少两个用户终端的轨迹点,并且所述第二数据集包括所述目标区域的路网信息。


8.根据权利要求4所述的系统,其特征在于,对于所述至少两个第二修改分区中的每一个分区,其所述第二修改分区的位置、所述第二修改分区的面积、以及所述第二修改分区的形状均与所述至少两个第一修改分区中的其中一个分区相同。


9.根据权利要求1所述的系统,其特征在于,所述第一空间索引或所述第二空间索引与希尔伯特曲线或Z曲线中的至少一个相关。


10.根据权利要求1所述的系统,其特征在于,所述分布式计算方法包括Spark框架、Hadoop、Phoenix、Disco或Mars中的至少一种方法。


11.一种在具有至少一个处理器和至少一个存储介质的计算设备上实现的优化空间大数据分区的方法,所述方法包括:
通过所述至少一个处理器,获取第一数据集,所述第一数据集是与目标区域内的空间信息相关的空间大数据集;
通过所述至少一个处理器,基于所述空间信息,将所述第一数据集划分为至少两个第一初始分区;
通过所述至少一个处理器,基于所述至少两个第一初始分区,确定所述第一数据集的第一空间索引;以及
通过所述至少一个处理器,根据以下操作生成至少两个第一修改分区:
基于所述第一空间索引,获取与所述至少两个第一初始分区相关的至少两个第一边界数据集,其中所述至少两个第一边界数据集包括与所述至少两个第一初始分区周围的一个或以上第一区域相关的数据;以及
对所述至少两个第一边界数据集进行第一洗牌操作。


12.根据权利要求11所述的方法,其特征在于,获取与所述至少两个第一初始分区相关的所述至少两个第一边界数据集包括:
基于所述第一空间索引,确定所述至少两个第一初始分区中的每一个分区的空间索引范围;以及
基于所述至少两个第一初始分区的所述空间索引范围,确定与所述至少两个第一初始分区相关的所述至少两个第一边界数据集。


13.根据权利要求11所述的方法,所述方法还包括:
根据分布式计算方法,通过所述至少一个处理器,对所述至少两个第一初始分区进行分布式计算,以生成所述至少两个第一修改分区。


14.根据权利要求13所述的方法,所述方法还包括:
通过所述至少一个处理器,获取所述目标区域内的第二数据集;
通过所述至少一个处理器,将所述第二数据集划分为至少两个第二初始分区;
通过所述至少一个处理器,基于所述至少两个第二初始分区,确定所述第二数据集的第二空间索引;
通过所述至少一个处理器,根据所述分布式计算方法和所述第二空间索引,对所述至少两个第二初始分区进行分布式计算,以生成至少两个第二修改分区。


15.根据权利要求14所述的方法,其特征在于,所述至少两个第二修改分区的生成包括:
通过所述至少一个处理器,基于所述第二空间索引,获取与所述至少两个第二初始分区相关的至少两个第二边界数据集,其中所述至少两个第二边界数据集包括...

【专利技术属性】
技术研发人员:郭明浩温翔柴艺
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1