【技术实现步骤摘要】
数据处理方法及装置
本专利技术涉及数据处理
,尤其涉及一种数据处理方法及装置。
技术介绍
随着网络技术(物联网、云计算、云存储等)的发展,伴随而来的是,产生海量的数据,以及如何对数据进行处理的问题。由于数据量过于庞大,因此在数据采集的过程中,往往采用分布式采集方式进行数据采集,以提高数据的采集效率。但是分布式的采集方式存在数据分布不均匀所导致的部分任务数据量大,部分任务数据量小的局部热点问题,进而导致资源利用率低和降低数据采集效率等问题。为了使得数据分布均匀,在数据采集前或者数据采集过程中,可以为待采集数据的源表添加递增的id列,每一个id对应一行数据,以人为使得数据分布均匀。但是一般在数据采集的过程中,用户的数据不允许增加无关字段,另外,上述方案中,增加id列会导致数据量增加,造成存储空间的增加,这样一来,不仅造成资源浪费,还会降低数据的采集效率。
技术实现思路
有鉴于此,本专利技术提出了一种数据处理方法及装置,以缓解局部热点的问题,提高数据的采集效率。在第一方面,本专利技术提供了一种数据处理方法,所述方法包括:获取数据列及用于对所述数据列进行分割的第一分片数 ...
【技术保护点】
一种数据处理方法,其特征在于,所述方法包括:获取数据列及用于对所述数据列进行分割的第一分片数N;其中,所述N为大于0的整数;按照所述第一分片数N,对所述数据列进行分片处理,得到N个第一数据分片;判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则,对满足所述切分规则的所述第一数据分片再次进行分片处理,得到第二数据分片;在所述第二数据分片不满足所述切分规则时,对未满足所述切分规则的所述第一数据分片及所述第二数据分片进行数据处理。
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取数据列及用于对所述数据列进行分割的第一分片数N;其中,所述N为大于0的整数;按照所述第一分片数N,对所述数据列进行分片处理,得到N个第一数据分片;判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则,对满足所述切分规则的所述第一数据分片再次进行分片处理,得到第二数据分片;在所述第二数据分片不满足所述切分规则时,对未满足所述切分规则的所述第一数据分片及所述第二数据分片进行数据处理。2.根据权利要求1所述的方法,其特征在于,所述判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则,包括:根据所述数据列对应的总数据量及所述第一分片数N,得到数据量均值;根据所述第一数据分片对应的数据量与所述数据量均值,确定所述第一数据分片是否满足切分规则。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一数据分片对应的数据量与所述数据量均值,确定所述第一数据分片是否满足切分规则,包括:将所述第一数据分片对应的数据量与所述数据量均值进行运算处理,得到运算值;在所述运算值大于第一阈值时,确定所述第一数据分片满足切分规则。4.根据权利要求2或3所述的方法,其特征在于,所述对满足所述切分规则的所述第一数据分片再次进行分片处理,包括:确定第二分片数M;按照所述第二分片数M对所述第一数据分片进行分片处理,得到对应的第二数据分片。5.根据权利要求4所述的方法,其特征在于,所述确定第二分片数M,包括:根据所述第一数据分片对应的数据量与所述数据量均值确定所述第二...
【专利技术属性】
技术研发人员:楼浩盛,
申请(专利权)人:新华三大数据技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。