【技术实现步骤摘要】
数据处理方法及装置、电子设备和计算机可读存储介质
[0001]本公开涉及大数据
,具体而言,涉及一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。
技术介绍
[0002]随着大数据时代的到来,大多数业务场景每天都伴随着海量的数据计算,每天数据分布也随之改变,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。这种方式对任务运行稳定性造成严重影响,无法保障数据按时稳定输出。
[0003]目前,现有的大数据平台诊断方法,可以对任务运行结束时间进行超时诊断处理,并在任务结束时对任务进行离线分析处理。当任务运行时间超出设定阈值时进行预警提示,在任务结束时通过离线分析得出倾斜结果。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0005]本公开的目的在于提供一种数据处理方法、数据处理装置、电子设 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取计算任务的实时数据;其中,所述计算任务包括多个子任务,所述实时数据包括所述多个子任务的任务数量、各所述子任务的执行时间和各所述子任务的数据量;根据各所述执行时间生成任务时间序列,并根据所述任务时间序列和所述任务数量确定时间倾斜度;根据各所述数据量生成数据量序列,并根据所述数据量序列和所述任务数量确定数据量倾斜度;根据所述时间倾斜度和所述数据量倾斜度确定所述计算任务的数据倾斜等级,以根据所述数据倾斜等级对所述计算任务进行处理。2.根据权利要求1所述的数据处理方法,其特征在于,所述获取计算任务的实时数据,包括:获取所述计算任务的实时运行数据以及所述计算任务的历史日志文件;根据所述实时运行数据与所述历史日志文件生成所述实时数据。3.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述任务时间序列和所述任务数量确定时间倾斜度,包括:根据所述任务时间序列确定所述多个子任务的任务总时间,并根据所述任务总时间和所述任务数量确定所述多个子任务的时间均值;根据所述时间均值对所述任务时间序列进行分组处理,以得到初始时间分组;其中,所述初始时间分组包括第一初始时间分组和第二初始时间分组;根据所述第一初始时间分组和所述第二初始时间分组确定所述时间倾斜度。4.根据权利要求3所述的数据处理方法,其特征在于,所述根据所述第一初始时间分组和所述第二初始时间分组确定所述时间倾斜度,包括:将所述第一初始时间分组的时间均值确定为第一时间均值,并将所述第二初始时间分组的时间均值确定为第二时间均值;根据所述第一时间均值和所述第二时间均值确定迭代时间均值,并根据所述迭代时间均值对所述任务时间序列进行迭代划分,得到迭代时间分组;其中,所述迭代时间分组包括第一迭代时间分组和第二迭代时间分组;将所述第一迭代时间分组的时间均值确定为第三时间均值,并将所述第二迭代时间分组的时间均值确定为第四时间均值;根据所述第三时间均值和所述第四时间均值确定所述时间倾斜度。5.根据权利要求4所述的数据处理方法,其特征在于,所述根据所述第三时间均值和所述第四时间均值确定所述时间倾斜度,包括:将所述第三时间均值和所述第四时间均值中的较小值作为较小时间均值;将所述第三时间均值和所述第四时间均值之间差值的绝对值作为时间差值绝对值;根据所述较小时间均值和所述时间差值绝对值确定所述时间倾斜度。6.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述数据量序列和所述任务数量确定数据量倾斜度,包括:根据所述数据量序列确定所述多个子任务的总数据量,并根据所述总数据量和所述任务数量确定所述多个子任务的数据量均值;
根据所述数据量均值对所述数据量序列进行分组处理,以得到初始数据量分组;其中,所述初...
【专利技术属性】
技术研发人员:揣龙,方伟,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。