【技术实现步骤摘要】
一种生成大数据排行榜的方法、装置、设备及存储介质
[0001]本专利技术涉及数据处理
,特别涉及一种生成大数据排行榜的方法、装置、设备及存储介质。
技术介绍
[0002]随着移动互联网应用技术的发展,产生了各种不同的业务场景,这些业务场景无时无刻不在产生与之对应的信息流,这些信息流又通过积累聚合产生新的信息价值:排行榜。
[0003]排行榜是对某一相关同类事物的客观实力的反映,带有相互之间的比较性质。比如,话题排行榜、帖子排行榜、游戏战绩排行榜、关注度排行榜、流行歌曲排行榜、球队实力排行榜等等。
[0004]目前,排行榜往往需要在巨量的数据中获得,例如,从1000万条会话中找出流量峰值TOP200的会话,相关的算法是对1000万条会话按照流量峰值进行排序,然后,取前200条会话继续分析,显而易见,相关算法至少需要额外开辟1000万个会话的存储空间,快速排序算法的时间复杂度是O(n),1000万个会话排序完成后,仅0.002%的数据是需要的,99.998%的排序是不需要的,不但消耗内存资源和时间,而且,做
【技术保护点】
【技术特征摘要】
1.一种生成大数据排行榜的方法,其特征在于,包括如下步骤:选取大数据中与排名数量相同的第一数据元素集,作为初始排行榜,其中,所述排名数量为目标排行榜中容纳的数据数量;建立与所述第一数据元素集对应的存储空间,用以存储所述第一数据元素集;基于所述初始排行榜,确定该初始排行榜中的第一极值数据,其中,所述第一极值数据,表征所述第一数据元素集中的最小值的数据元素;将第二数据元素集中的数据元素与所述第一极值数据比对,基于预设的比对规则,确定比对结果,其中,所述第二数据元素集,表征所述大数据中除所述第一数据元素集之外的数据元素;根据比对结果,生成目标排行榜。2.如权利要求1所述的方法,其特征在于,所述选取大数据中与排名数量相同的第一数据元素集,作为初始排行榜的步骤中,还包括:对所述第一数据元素集初始化。3.如权利要求1所述的方法,其特征在于,所述基于所述初始排行榜,确定该初始排行榜中的第一极值数据的步骤中,还包括:对所述初始排行榜中的第一极值数据,进行索引标记,以便通过索引标记找到该第一极值数据。4.如权利要求1所述的方法,其特征在于,所述将第二数据元素集中的数据元素与所述第一极值数据比对,基于预设的比对规则,确定比对结果的步骤中,还包括:确定所述数据元素与所述第一极值数据的大小;基于预设的对比规则,选择是否更新所述第一极值数据。5.如权利要求1所述的方法,其特征在于,所述根据所述比对结果,生成目标排行榜的步骤中,还包括:根据比对结果,判断是否需要更新所述第一极值数据;若更新所述第一极值数据,计算更新后的所述初始排行榜的极值数据,得到第二极值数据,对所述第二极值数据进行索引标记;若不更新所述第一极值数据,将比对的数据元素舍弃,继续遍历所述第二数据元素集。6.如权利要求5所述的方法,其特征在于,所述若更新所...
【专利技术属性】
技术研发人员:张贵昌,
申请(专利权)人:武汉思普崚技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。