【技术实现步骤摘要】
【国外来华专利技术】为大数据添加索引的系统和方法
本申请一般涉及空间大数据的管理,更具体地,涉及为空间大数据添加索引的系统和方法。
技术介绍
在互联网时代,在线按需服务平台可以从其用户或其他实体接收包括用户的实时或历史位置的空间大数据。空间大数据可以通过例如范围查询、k-最近邻(KNN)算法或空间连接算法来处理。然而,由于空间大数据中的数据点的数量非常大并且无序,因此难以有效地处理空间大数据。因此,希望提供为数据添加索引的系统和方法,以使数据有序并易于处理。
技术实现思路
根据本申请的第一方面,一种为数据添加索引的系统可以包括一个或以上存储设备,并且一个或以上处理器被配置用于与一个或以上存储设备通信。一个或以上存储设备可以包括一组指令。当所述一个或以上处理器执行所述组指令时,所述一个或以上处理器可以用于执行一个或以上以下操作。一个或以上处理器可以获取至少两个数据点,所示数据点中的每一个包括空间信息。一个或以上处理器可以基于至少两个数据点的空间信息将至少两个数据点划分为至少两个数据块。一个或以上处理器可以为至少两个数据块中的每一个确定数据块编号。一个或以上处理器可以获取至少两个数据点的预估分布。一个或以上处理器可以基于至少两个数据点的预估分布和至少两个数据块的数据块编号,将至少两个数据块划分为至少两个分区。一个或以上处理器可以基于至少两个数据块的数据块编号通过对至少两个分区进行排序来确定至少两个分区中的每一个的分区编号。一个或以上处理器可以基于至少两个数据块的数据块编号和至少两个分区的分区编号来为至少两个数据点中的每一个确定索引。在一些实施例中,对于至少两个分区中的每一个,一个或以 ...
【技术保护点】
1.一种为数据添加索引的系统,包括:一个或以上存储介质,包括一组指令;以及一个或以上处理器被配置为与所述一个或以上存储介质进行通信,其中,当执行所述一组指令时,所述一个或以上处理器被指示使所述系统:获取至少两个数据点,所述数据点中的每一个包括空间信息;基于所述至少两个数据点的所述空间信息,将所述至少两个数据点划分为至少两个数据块;确定所述至少两个数据块中的每一个的数据块编号;获取所述至少两个数据点的预估分布;基于所述至少两个数据点的所述预估分布和所述至少两个数据块的所述数据块编号,将所述至少两个数据块划分为至少两个分区;基于所述至少两个数据块的所述数据块编号通过对所述至少两个分区进行排序确定所述至少两个分区中的每一个的分区编号;以及基于所述至少两个数据块的所述数据块编号和所述至少两个分区的所述分区编号,为所述至少两个数据点中的每一个确定索引。
【技术特征摘要】
【国外来华专利技术】1.一种为数据添加索引的系统,包括:一个或以上存储介质,包括一组指令;以及一个或以上处理器被配置为与所述一个或以上存储介质进行通信,其中,当执行所述一组指令时,所述一个或以上处理器被指示使所述系统:获取至少两个数据点,所述数据点中的每一个包括空间信息;基于所述至少两个数据点的所述空间信息,将所述至少两个数据点划分为至少两个数据块;确定所述至少两个数据块中的每一个的数据块编号;获取所述至少两个数据点的预估分布;基于所述至少两个数据点的所述预估分布和所述至少两个数据块的所述数据块编号,将所述至少两个数据块划分为至少两个分区;基于所述至少两个数据块的所述数据块编号通过对所述至少两个分区进行排序确定所述至少两个分区中的每一个的分区编号;以及基于所述至少两个数据块的所述数据块编号和所述至少两个分区的所述分区编号,为所述至少两个数据点中的每一个确定索引。2.根据权利要求1所述的系统,其特征在于,当执行所述一组指令时,所述一个或以上处理器进一步指示使所述系统:对于所述至少两个分区中的每一个,基于所述分区中包括的所述数据块的所述数据块编号对所述分区中包括的所述数据块进行排序。3.根据权利要求1所述的系统,其特征在于,所述至少两个数据点中的每一个还包括用户的用户标识。4.根据权利要求3所述的系统,其特征在于,当执行所述一组指令时,所述一个或以上处理器进一步指示使所述系统:对于所述至少两个分区中的每一个,基于所述至少两个数据点的所述用户标识,将所述分区中的所述数据点重新划分为至少两个子分区。5.根据权利要求4所述的系统,其特征在于,基于所述至少两个数据点,将所述至少两个分区中的每一个的所述数据点重新划分为所述至少两个子分区,所述一个或以上处理器进一步指示使所述系统:对于所述分区中的每个数据点,确定所述数据点对应的所述用户标识的哈希值;通过将所述哈希值除以整数来获取余数;将对应于相等余数的所述数据点放入同一子分区;以及基于与所述分区中的所述数据点对应的所述余数,确定所述至少两个子分区中的每一个的子分区编号。6.根据权利要求1所述的系统,其特征在于,为了获取所述至少两个数据点的所述预估分布,所述一个或以上处理器被指示使所述系统:从所述至少两个数据块中选择一个或以上数据块;对于所述选择的一个或以上数据块中的每一个,确定所述所选择的一个或以上数据块中的所述每一个中包括的数据点的总数;以及基于所述所选择的一个或以上数据块中的所述每一个中的数据点的所述总数,确定所述至少两个数据点的所述预估分布。7.根据权利要求1所述的系统,其特征在于,为了确定所述至少两个数据块中的每一个的所述数据块编号,所述一个或以上处理器被指示使所述系统:基于空间填充曲线确定所述多个数据块中的每一个的所述数据块编号。8.一种实现在具有一个或以上处理器和一个或以上存储设备的计算设备上的为数据添加索引的方法,所述方法包括:获取至少两个数据点,所述数据点中的每一个包括空间信息;基于所述至少两个数据点的所述空间信息,将所述至少两个数据点划分为至少两个数据块;确定所述至少两个数据块中的每一个的数据块编号;获取所述至少两个数据点的预估分布;基于所述至少两个数据点的所述预估分布和所述至少两个数据块的所述数据块编号,将所述至少两个数据块划分为至少两个分区;基于所述至少两个数据块的所述数据块编号通过对所述至少两个分区进行排序确定所述至少两个分区中的每一个的分区编号;以及基于所述至少两个数据块的所述数据块编号和所述至少两个分区的所述分区编号,为所述至少两个数据点中的每一个确定索引。9.根据权利要求8所述的方法,还包括:对于所述至少两个分区中的每一个,基于所述分区中包括的所述数据块的所述数据块编号对所述分区中包括的所述数据块进行排序。10.根据权利要求8所述的系统,其特征在于,所述至少两个数据点中的每一个还包括用户的用户标识。11.根据权利要求10所述的系统,其特征在于,当执行所述一组指令时,所述一个或以上处理器进一步指示使所述系统:对于所述至少两个分区中的每一个,基于所述至少两个数据点的所述用户标识,将所述分区中的所述数据点重新划分为至少两个子分区。12.根据权利要求11所述的方法,其特征在于,基于所述至少两个数据点,将所述至少两个分区中的每一个的所述数...
【专利技术属性】
技术研发人员:郭明浩,温翔,柴艺,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。