分布式数据处理系统数据分区方法及装置制造方法及图纸

技术编号:17007025 阅读:43 留言:0更新日期:2018-01-11 03:32
本发明专利技术是关于一种分布式数据处理系统数据分区方法及装置。所述方法包括:根据待使用的分区数量及待处理的元素中包含的数据总量,确定第一键值;在确定第一元素中的数据量与所述第一键值的差值的绝对值,小于或等于第一阈值时,将所述第一元素分配至第一分区;其中,所述第一元素为所述待处理的元素中包含数据量最多的元素,所述第一分区为所述待使用的分区中的任一分区。本发明专利技术实现了以各分区可平均分配的数据量为依据,将元素进行分区处理,最大限度保证了各分区中资源的有效利用,提高了分布式数据处理系统的处理速度和效率。

【技术实现步骤摘要】
分布式数据处理系统数据分区方法及装置
本专利技术涉及数据处理
,特别涉及一种分布式数据处理系统数据分区方法及装置。
技术介绍
分布式数据处理系统,是指具有多个用于海量数据存储和海量数据分析的数据分区的系统。其因具有高可用性和高可伸缩性,而被越来越广泛的应用。目前,分布式数据处理系统在获取到待存储或分析的数据时,会根据数据所属的元素的标识,依次为数据进行分区配比,使得不同的元素运行在对应的分区上。比如,通过将元素的标识哈希之后,再取模的方式,确定其对应的分区标识。但是上述数据分区方式,当不同元素间的数据量发生倾斜时,可能会导致数据分区不合理,系统运行效率低,从而使分布式数据处理系统的资源不能有效利用。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。本专利技术第一方面实施例提出了一种分布式数据处理系统数据分区方法,该方法包括:根据待使用的分区数量及待处理的元素中包含的数据总量,确定第一键值;在确定第一元素中的数据量与所述第一键值的差值的绝对值,小于或等于第一阈值时,将所述第一元素分配至第一分区;其中,所述第一元素为所述待处理的元素中包含数据量最多的元素,所述本文档来自技高网...
分布式数据处理系统数据分区方法及装置

【技术保护点】
一种分布式数据处理系统数据分区方法,其特征在于,包括:根据待使用的分区数量及待处理的元素中包含的数据总量,确定第一键值;在确定第一元素中的数据量与所述第一键值的差值的绝对值,小于或等于第一阈值时,将所述第一元素分配至第一分区;其中,所述第一元素为所述待处理的元素中包含数据量最多的元素,所述第一分区为所述待使用的分区中的任一分区。

【技术特征摘要】
1.一种分布式数据处理系统数据分区方法,其特征在于,包括:根据待使用的分区数量及待处理的元素中包含的数据总量,确定第一键值;在确定第一元素中的数据量与所述第一键值的差值的绝对值,小于或等于第一阈值时,将所述第一元素分配至第一分区;其中,所述第一元素为所述待处理的元素中包含数据量最多的元素,所述第一分区为所述待使用的分区中的任一分区。2.如权利要求1所述的方法,其特征在于,所述根据待使用的分区数量及待处理的元素中包含的数据总量,确定第一键值之前,还包括:获取待处理的元素信息,其中,所述待处理的元素信息,包括各个元素中包含的数据量;根据所述各个元素中包含的数据量及各个分区的工作属性,确定所述待使用的分区数量。3.如权利要求1所述的方法,其特征在于,所述确定第一键值之后,还包括:在确定所述第一元素中的数据量与所述第一键值的差值的绝对值,大于所述第一阈值时,根据预设的规则,从所述待处理元素中获取至少一个第二元素,以使所述第一元素与所述第二元素的数据量之和,与所述第一键值的差值的绝对值,小于或等于所述第一阈值;将所述第一元素及所述至少一个第二元素,分配至所述第一分区。4.如权利要求3所述的方法,其特征在于,所述根据预设的规则,从所述待处理元素中获取至少一个第二元素,包括:依次将所说待处理元素中选取包含数据量最少的元素,加入第二元素;或者,根据所述绝对值及剩余待处理元素中各元素包含的数据量,选取至少一个第二元素;其中,第二元素中包含的数据量与所述绝对值的差值的绝对值,小于或等于所述第一阈值。5.如权利要求1-4任一所述的方法,其特征在于,所述将所述第一元素分配至第一分区之后,还包括:确定剩余待处理的元素中包含的剩余数据总量及剩余的分区数量;根据所述剩余数据总量及剩余的分区数量,确定第二键值;在确定第三元素中的数据量与所述第二键值的差值的绝对值,小于或等于所述第一阈值时,将所述第三元素分配至第二分区,其中所述第三元素为所述剩余待处理的元素中包含数据量最多的元素,所述第二分区为剩余分区中的任一分区。6.如权利要求1-4任一所述的方法,其特征在于,当所述第一元素中的数据量与所述第一键值的差值大于第二阈值时,所述方法,还包括:将所述第一元素中的数据分配至至少两个分区。7.一种分布式数据处理系统数据分区装置,其特征在于,包括:第一确定模块,用于根据待使...

【专利技术属性】
技术研发人员:区伟雄丁冲杨秋吉张韶全
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1