一种针对数据倾斜的均衡负载处理方法及装置制造方法及图纸

技术编号:16175579 阅读:74 留言:0更新日期:2017-09-09 02:48
本发明专利技术公开了一种针对数据倾斜的均衡负载处理方法及装置包括:采集某一批次的流式数据并映射为中间结果;生成中间结果的复件,对所述复件进行分析并更新参考表;根据哈希算法与参考表将中间结果分配到多个桶中;从桶中提取中间结果进行规约。本发明专利技术能够弱化数据倾斜,降低作业时间,提高系统性能。

【技术实现步骤摘要】
一种针对数据倾斜的均衡负载处理方法及装置
本专利技术涉及数据处理
,特别是指一种针对数据倾斜的均衡负载处理方法及装置。
技术介绍
近年来,随着互联网的普及,人们不得不面对诸如电子商务、社交网络等许多领域中数据的指数增长。越来越多的企业和学术机构选择Spark来处理基于云的大数据处理问题。Spark是用于大规模数据处理的快速且通用的引擎,它在内存中运行程序的速度比HadoopMapReduce快100倍;在磁盘上运行时则快10倍。由于其出色的性能,Spark已被诸如雅虎、e-Bay、Twitter、亚马逊、阿里巴巴等公司广泛使用。在学术领域,Spark在2015年有超过1000个贡献者,使其成为ApacheSoftwareFoundation中最活跃的项目之一,也是最活跃的开源大数据项目之一。然而,Spark不能有效地处理倾斜数据。对于reduce(规约)任务,分区倾斜将导致节点工作负载不平衡,这意味着一些reducer将接收更多的数据。在这种情况下,任务队列将在这些负载大的reducer上堵塞,这将增加运行作业的完成时间,使系统性能恶化。由于SparkStreaming中的延迟本文档来自技高网...
一种针对数据倾斜的均衡负载处理方法及装置

【技术保护点】
一种针对数据倾斜的均衡负载处理方法,其特征在于,包括:采集某一批次的流式数据并映射为中间结果;生成中间结果的复件,对所述复件进行分析并更新参考表;根据哈希算法与参考表将中间结果分配到多个桶中;从桶中提取中间结果进行规约。

【技术特征摘要】
1.一种针对数据倾斜的均衡负载处理方法,其特征在于,包括:采集某一批次的流式数据并映射为中间结果;生成中间结果的复件,对所述复件进行分析并更新参考表;根据哈希算法与参考表将中间结果分配到多个桶中;从桶中提取中间结果进行规约。2.根据权利要求1所述的方法,其特征在于,所述中间结果为由键值对组成的集合,其中,所述中间结果包括多个簇,簇为与某一特定键对应的所有键值对的集合。3.根据权利要求2所述的方法,其特征在于,对所述复件进行分析并更新参考表,包括:对所述复件进行等距采样获得样本数据;对样本数据中的所有键值对进行统计,获得键的统计数;根据键的统计数与桶数量确定桶平均容量阈值并生成参考表。4.根据权利要求3所述的方法,其特征在于,根据键的统计数与桶数量确定桶平均容量阈值并生成参考表,包括:根据键的统计数确定每个桶中的键值对数量;根据每个桶中的键值对数量与桶数量确定桶平均容量阈值;根据每个桶中的键值对数量生成参考表。5.根据权利要求2所述的方法,其特征在于,所述根据哈希算法与参考表将中间结果分配到多个桶中,包括:确定中间结果中的所有簇的大小并按照由大到小的顺序排列;依次选取每一个簇并根据哈希算法确定被选取簇应对应的桶;根据被选取簇应对应的桶剩余空间大小、被选取簇的大小与其他桶剩余空间大小更新参考表;根据参考表将中间结果分配到多个桶中。6.根据权利要求5所述的方法,其特征在于:所述桶剩余空间大小为桶平均容量阈值与当前桶内所有簇大小之和的差;所述根据...

【专利技术属性】
技术研发人员:朱晓敏陈黄科刘桂鹏
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1