Embodiments of the present invention relate to a method and apparatus for scalable sorting of data sets in a database on a computer system. Defines a plurality of contiguous ranges across the data set. Each individual data value of the data set is assigned to the range to which it belongs. Next, the values in the range are sorted. The sorting can be performed in parallel by different nodes. Once the sorting is completed, the result is stored in the contiguous memory location. This allows the entire data set to be sorted.
【技术实现步骤摘要】
【国外来华专利技术】用于数据集的可扩展排序的方法和设备相关申请案交叉申请本专利技术要求2014年12月31日递交的专利技术名称为“用于数据集的可扩展排序的方法和设备(MethodandApparatusforScalableSortingofaDataSet)”的美国申请案14/588,033的在先申请优先权,该在先申请的内容以全文引入的方式并入本文本中。
本专利技术的实施例一般涉及对数据进行排序,由此将数据分配到范围,对每个范围进行排序,从而形成整个排序数据集。
技术介绍
数据库是以电子方式存储在基于计算机的存储系统上的有组织的数据集合。使用由计算机软件组成的数据库管理系统来与数据库相互作用。数据库管理系统提供允许输入、存储、处理和检索信息的各种功能。通常对数据库执行的功能之一是排序操作。通常根据一个或多个准则对数据进行排序。例如,这可用于预期购房者根据价格(例如,最低到最高);位置(例如,距特定所需位置最近到最远);使用年限(例如,最新到最旧);大小(例如,最大到最小)等对标价出售的新住宅的数据库进行排序。在过去,已经使用简单排序程序来执行排序操作。例如,MapReduce是用于支持经由分布式处理系统的大量计算节点对存储于文件系统中的大数据集进行可扩展分布式处理的流行软件程序。许多企业依赖MapReduce框架及其开源实现Hadoop的及时分析作为对大量非结构化信息进行高效处理和高级分析的平台选择。基本上,MapReduce包含映射和规约函数。映射函数将输入数据划分成较小项目并且将所述项目分布到工作节点。工作节点处理所述项目并返回应答到主节点。作为规约函数的部分,主节点收 ...
【技术保护点】
一种用于对存储于计算机系统上的数据库中的数据集进行排序的方法,其特征在于,包括:接收对存储于所述数据库中的所述数据集进行排序的数据处理请求;界定用于存储对应于所述数据集的值的多个分区;确定针对所述多个分区的值的范围;根据对应于所述多个分区的所述值的范围将所述数据集的多个值分配到所述多个分区;对所述多个分区中的所述多个值进行排序;以及将排序的分区值写入到指定存储器位置,其中所述整个数据集经过排序。
【技术特征摘要】
【国外来华专利技术】2014.12.31 US 14/588,0331.一种用于对存储于计算机系统上的数据库中的数据集进行排序的方法,其特征在于,包括:接收对存储于所述数据库中的所述数据集进行排序的数据处理请求;界定用于存储对应于所述数据集的值的多个分区;确定针对所述多个分区的值的范围;根据对应于所述多个分区的所述值的范围将所述数据集的多个值分配到所述多个分区;对所述多个分区中的所述多个值进行排序;以及将排序的分区值写入到指定存储器位置,其中所述整个数据集经过排序。2.根据权利要求1所述的方法,其特征在于,进一步包括:产生索引,所述索引包括用于将所述多个值分配到所述多个分区以进行后续排序操作的信息。3.根据权利要求2所述的方法,其特征在于,所述索引包括树数据结构。4.根据权利要求2所述的方法,其特征在于,对应于所述索引的所述信息包含当前值、待排序的值的数量、更小值的数量以及更大值的数量。5.根据权利要求4所述的方法,其特征在于,所述索引的所述信息进一步包含指针。6.根据权利要求1所述的方法,其特征在于,进一步包括:当改变、增添或删除所述数据集的部分时修改所述索引。7.根据权利要求1所述的方法,其特征在于,进一步包括:通过使用所述索引在后续排序操作中对所述数据集进行排序。8.根据权利要求1所述的方法,其特征在于,进一步包括:在运行时间根据初始排序结果产生索引;存储所述索引供后续排序操作使用。9.根据权利要求1所述的方法,其特征在于,进一步包括:通过两个或更多个节点并行地对所述分区进行排序。10.一种用于处理数据库的计算机系统,其特征在于,包括:存储器,其用于存储具有数据集的所述数据库;耦合到所述存储器的处理器,其中响应于排序操作请求,产生根据多个相连范围将所述数据集分成多个分区的指令,根据所述范围将所述数据集的多个值分配到所述多个分区,并...
【专利技术属性】
技术研发人员:孙岩,诺伯特·埃吉,爱德华·郑,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。