一种确定TopN数据的方法、系统及设备技术方案

技术编号：21605735 阅读：20 留言：0更新日期：2019-07-13 18:17

本申请公开了一种确定TopN数据的方法、系统及设备。本说明书一实施例的方法流程包括：根据数据项的名称标识对原数据执行分组操作，获取原数据分组，每个所述名称标识对应一个所述原数据分组；针对每个所述原数据分组，根据数据项的排序字段执行去重操作，获得去重数据分组，其中，同一所述原数据分组内，排序字段的值相同的多个数据项只保留其中的一个数据项；分别针对每个所述去重数据分组，基于所述排序字段的值对所述数据项执行组内排序操作；根据所述组内排序操作的操作结果，分别确定每个所述原数据分组中所述排序字段的值排在前N位的数据项。

A Method, System and Equipment for Determining TopN Data

全部详细技术资料下载

【技术实现步骤摘要】
一种确定TopN数据的方法、系统及设备
本说明书涉及计算机
，尤其涉及一种确定TopN数据的方法、系统及设备。
技术介绍
在大数据开发过程中，经常需要按照某个维度确定该维度下排序(这里的排序可以是从大到小排列也可以是从小到大排列)靠前的N个数据(N为自然数，以下称为TopN数据)。为了确定TopN数据，通常做法是先对数据执行分组，再以并行处理的方式分别在各个数据分组内执行组内排序，最终根据所有数据分组的排序结果确定TopN数据。这种对多个分组并行执行组内排序的方式，大大提高了数据处理速度。上述对多个数据分组并行进行组内排序的处理操作通常是通过MapReduce实现的。MapReduce是面向大数据并行处理的计算框架，其处理过程有一个特点，同一个数据分组的(具有相同分组标识(key值))的数据只会分发给同一个reduce执行处理。并行处理的多个reduce中，运行时间最长的单个reduce任务实例，决定了整个并行处理的进度。如果多个数据分组的数据量分布不均匀，出现严重的数据倾斜，就会意味着多个并行处理的reduce所处理的数据量存在严重差异。某个或某几个reduce需要消耗的数据处理时间远大于其他reduce。对于数据处理的整体进程来说，reduce阶段就可能会卡在接近完成(大部分reduce已完成数据处理，但少数reduce没有完成数据处理)的环节而一直无法结束，从而导致确定TopN数据的执行时间被大大拖长。针对上述这种由于数据分组的数据量分布不均匀所产生的数据倾斜，进而导致确定TopN数据执行时间拖长的问题，现有技术采取的方案是，在初次分组后对数据...

【技术保护点】
1.一种确定TopN数据的方法，包括：根据数据项的名称标识对原数据执行分组操作，获得一个或多个原数据分组，每个所述名称标识对应一个所述原数据分组；针对每个所述原数据分组，根据数据项的排序字段执行去重操作，获得去重数据分组，其中，同一所述原数据分组内，排序字段的值相同的多个数据项只保留其中的一个数据项；分别针对每个所述去重数据分组，基于所述排序字段的值对所述数据项执行组内排序操作；根据所述组内排序操作的操作结果，分别确定每个所述原数据分组中所述排序字段的值排在前N位的数据项，其中，N的值为TopN中N对应的值，N为自然数。

【技术特征摘要】
1.一种确定TopN数据的方法，包括：根据数据项的名称标识对原数据执行分组操作，获得一个或多个原数据分组，每个所述名称标识对应一个所述原数据分组；针对每个所述原数据分组，根据数据项的排序字段执行去重操作，获得去重数据分组，其中，同一所述原数据分组内，排序字段的值相同的多个数据项只保留其中的一个数据项；分别针对每个所述去重数据分组，基于所述排序字段的值对所述数据项执行组内排序操作；根据所述组内排序操作的操作结果，分别确定每个所述原数据分组中所述排序字段的值排在前N位的数据项，其中，N的值为TopN中N对应的值，N为自然数。2.根据权利要求1所述的方法，在所述方法的流程中：所述组内排序操作还包括，根据所述组内排序操作的结果确定所述去重数据分组内数据项对应的组内序号；分别确定每个所述原数据分组中所述排序字段的值排在前N位的数据项，包括：保留每个所述去重数据分组内的阈值数据项，其中，所述阈值数据项为所述组内序号等于N的数据项；确定数据项，对比所述原数据分组内的数据项与对应的所述阈值数据项，根据对比结果确定所述原数据分组中所述排序字段的值排在前N位的数据项。3.根据权利要求2所述的方法，根据对比结果确定所述原数据分组中所述排序字段的值排在前N位的数据项，其中：当TopN的取值顺序为从小到大时，从所述原数据分组中确定排序字段的值小于等于所述阈值数据项的数据项；当TopN的取值顺序为从大到小时，从所述原数据分组中确定排序字段的值大于等于所述阈值数据项的数据项。4.根据权利要求2或3中任一项所述的方法，在所述方法的流程中：所述分组操作包括，确定所述数据项对应的分组字段；所述方法还包括，生成临时数据项表，所述临时数据项表包括所述分组字段以及所述排序字段；所述分组排序操作包括，针对所述临时数据项表执行基于所述分组字段以及所述排序字段的分组排序，确定所述组内序号；保留每个所述去重数据分组内的阈值数据项，其中，保留所述临时数据项表中组内序号等于N的所述数据项；确定数据项，其中，建立所述临时数据项表与所述原数据分组的关联，基于所述关联对比所述原数据分组内的数据项与对应的所述阈值数据项，确定所述原数据分组中所述排序字段的值排在前N位的数据项。5.根据权利要求4所述的方法，在所述方法的流程中：在所述生成临时数据项表步骤中，根据所述分组操作以及所述去重操作的结果生成所述临时数据项表；或者，在所述生成临时数据项表步骤中根据所述分组操作的结果生成临时数据项表，在所述去重操作中针对所述临时数据项表执行所述去重操作；或者，在所述生成临时数据项表步骤中根据所述原数据生成临时数据项表，在所述分组操作以及所述去重操作中针对所述临时数据项表执行所述分组操作以及所述去重操作。6.根据权利要求4所述的方法，建立所述临时数据项表与所述原数据的关联，包括：将所述原数据分组与所述临时数据项表执行mapjoin关联，关联字段为所述分组字段。7.根据权利要求2至6中任一项所述的方法，保留每个所述去重数据分组内的阈值数据项，其中，当最大的所述组内序号小于N时，所述阈值数据项为组内序号最大的数据项。8.一种确定TopN...

【专利技术属性】
技术研发人员：王珂莉，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人