数据处理方法技术

技术编号:39596602 阅读:8 留言:0更新日期:2023-12-03 19:54
本发明专利技术公开了一种数据处理方法

【技术实现步骤摘要】
数据处理方法、数据容错方法和装置及存储介质


[0001]本专利技术涉及计算机领域,具体而言,涉及一种数据处理方法

数据容错方法和装置及存储介质


技术介绍

[0002]Spark
是一种基于内存的大数据分布式计算框架 ,其中包括多个数据处理节点用于对分布式计算的各个流程分别进行处理

为了适应于数据处理的上下游任务,在
Spark
系统中,通过数据混洗(
shuffle
)过程衔接上游映射(
Map
)任务与下游归约(
Reduce
)任务

[0003]在
Spark
的计算任务中采用计算与存储耦合的架构,上游映射(
Map
)任务产生的
shuffle
数据需要存储在混洗节点(
Shuffle server
)上,进一步地,再通过混洗节点对数据进行转发,以完成下游归约(
Reduce
)任务

因此,一旦混洗节点出现故障,就会导致数据
shuffle
失败,并造成任务重试以及数据重新生成,进而导致数据处理效率降低

也就是说,现有的数据处理方法存在数据处理效率较低的技术问题

[0004]针对上述的问题,目前尚未提出有效的解决方案


技术实现思路

[0005]本专利技术实施例提供了一种数据处理方法
>、
数据容错方法和装置及存储介质,以至少解决现有的数据处理方法操作效率较低的技术问题

[0006]根据本专利技术实施例的一个方面,提供了一种数据处理方法,包括:通过数据处理节点向数据分发节点发送第一数据获取请求,其中,上述数据处理节点为用于根据中间数据集进行数据处理的任务节点,上述数据分发节点用于将经过数据预处理得到的中间数据集转发至对应的上述数据处理节点,上述第一数据获取请求用于获取经过目标数据预处理得到的目标中间数据集;在上述数据分发节点处于异常运行状态的情况下,获取上述数据分发节点预先发送的容错日志,其中,上述容错日志中包括上述数据分发节点在满足数据容错条件的情况下对上述中间数据集进行的容错处理的处理记录;根据上述容错日志确定上述目标中间数据集中包括的第一数据子集已经过上述容错处理的情况下,通过上述数据处理节点向目标存储节点发送第二数据获取请求,其中,上述第二数据获取请求用于获取上述第一数据子集,上述目标存储节点用于存储经过上述容错处理的数据集;在获取到上述第一数据子集的情况下,通过上述数据处理节点根据上述第一数据子集进行数据处理,得到目标处理结果

[0007]根据本专利技术实施例的另一个方面,提供了一种数据容错方法,包括:接收驱动节点发送的容错处理请求;响应于上述容错处理请求,将上述容错处理请求指示的中间数据集发送至目标存储节点,其中,上述中间数据集为对原始数据进行数据预处理得到的数据集;在上述目标存储节点将上述中间数据集存储成功的情况下,向上述驱动节点发送容错日志,其中,上述容错日志中包括对上述中间数据集进行的容错处理的处理记录

[0008]根据本专利技术实施例的又一方面,还提供了一种数据获取装置,包括:第一发送单
元,用于通过数据处理节点向数据分发节点发送第一数据获取请求,其中,上述数据处理节点为用于根据中间数据集进行数据处理的任务节点,上述数据分发节点用于将经过数据预处理得到的中间数据集转发至对应的上述数据处理节点,上述第一数据获取请求用于获取经过目标数据预处理得到的目标中间数据集;获取单元,用于在上述数据分发节点处于异常运行状态的情况下,获取上述数据分发节点预先发送的容错日志,其中,上述容错日志中包括上述数据分发节点在满足数据容错条件的情况下对上述中间数据集进行的容错处理的处理记录;第二发送单元,用于根据上述容错日志确定上述目标中间数据集中包括的第一数据子集已经过上述容错处理的情况下,通过上述数据处理节点向目标存储节点发送第二数据获取请求,其中,上述第二数据获取请求用于获取上述第一数据子集,上述目标存储节点用于存储经过上述容错处理的数据集;处理单元,用于在获取到上述第一数据子集的情况下,通过上述数据处理节点根据上述第一数据子集进行数据处理,得到目标处理结果

[0009]可选地,上述数据处理装置,还包括以下至少之一:第一容错单元,用于在数据预处理节点已完成的数据预处理任务的任务数量满足第一数据容错条件的情况下,向上述数据分发节点发送容错处理请求;第二容错单元,用于在当前时间戳满足第二数据容错条件的情况下,向上述数据分发节点发送容错处理请求;其中,上述数据预处理节点用于根据数据处理任务对原始数据进行数据预处理,上述容错处理请求用于请求上述数据分发节点对上述中间数据集进行上述容错处理

[0010]可选地,上述第一容错单元,用于以下至少之一:在分布式数据处理系统中包括的多个上述数据预处理节点各自已完成的上述数据预处理任务的任务数量,大于或等于第一数量的情况下,向分布式数据处理系统中包括的多个上述数据分发节点发送第一容错处理请求;在分布式数据处理系统中包括的目标数据预处理节点已完成的上述数据预处理任务的任务数量大于或等于第二数量的情况下,向与上述目标数据预处理节点匹配的目标数据分发节点发送第一容错处理请求;其中,上述分布式数据处理系统中包括多个上述数据预处理节点和多个上述数据分发节点,多个上述数据预处理节点分别匹配一个上述数据分发节点,与上述目标数据预处理节点匹配的上述目标数据分发节点,用于对经过上述目标数据预处理节点数据预处理得到的上述中间数据集进行转发,上述第一容错处理请求用于请求上述数据分发节点将已完成的上述数据预处理任务所产生的上述中间数据集发送至上述目标存储节点

[0011]可选地,上述第二容错单元,用于以下至少之一:在上述当前时间戳指示的时间满足第一时间条件的情况下,向分布式数据处理系统中包括的多个上述数据分发节点发送第二容错处理请求,其中,上述第一时间条件为根据与上述分布式数据处理系统对应的第一容错周期确定的时间条件;在上述当前时间戳指示的时间满足第二时间条件的情况下,向分布式数据处理系统中包括的目标数据分发节点发送第二容错处理请求,其中,上述第二时间条件为根据与上述目标数据分发节点对应的第二容错周期确定的时间条件;其中,上述第二容错处理请求用于请求上述数据分发节点将在当前时间戳指示的时间之前已完成的上述数据预处理任务所产生的上述中间数据集,发送至上述目标存储节点

[0012]可选地,上述数据处理装置,还包括:接收单元,用于接收上述数据分发节点返回的上述容错日志,其中,上述容错日志中包括多个第一任务标识,上述第一任务标识用于指示经过第一数据预处理任务所得到的第一中间数据集已完成上述容错处理

[0013]可选地,上述处理单元,用于:向上述数据处理节点发送目标分发节本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法,其特征在于,包括:通过数据处理节点向数据分发节点发送第一数据获取请求,其中,所述数据处理节点为用于根据中间数据集进行数据处理的任务节点,所述数据分发节点用于将经过数据预处理得到的中间数据集转发至对应的所述数据处理节点,所述第一数据获取请求用于获取经过目标数据预处理得到的目标中间数据集;在所述数据分发节点处于异常运行状态的情况下,获取所述数据分发节点预先发送的容错日志,其中,所述容错日志中包括所述数据分发节点在满足数据容错条件的情况下对所述中间数据集进行的容错处理的处理记录;根据所述容错日志确定所述目标中间数据集中包括的第一数据子集已经过所述容错处理的情况下,通过所述数据处理节点向目标存储节点发送第二数据获取请求,其中,所述第二数据获取请求用于获取所述第一数据子集,所述目标存储节点用于存储经过所述容错处理的数据集;在获取到所述第一数据子集的情况下,通过所述数据处理节点根据所述第一数据子集进行数据处理,得到目标处理结果
。2.
根据权利要求1所述的方法,其特征在于,所述通过数据处理节点向数据分发节点发送第一数据获取请求之前,还包括以下至少之一:在数据预处理节点已完成的数据预处理任务的任务数量满足第一数据容错条件的情况下,向所述数据分发节点发送容错处理请求;在当前时间戳满足第二数据容错条件的情况下,向所述数据分发节点发送容错处理请求;其中,所述数据预处理节点用于根据数据处理任务对原始数据进行数据预处理,所述容错处理请求用于请求所述数据分发节点对所述中间数据集进行所述容错处理
。3.
根据权利要求2所述的方法,其特征在于,所述在数据预处理节点已完成的数据预处理任务的任务数量满足第一数据容错条件的情况下,向所述数据分发节点发送容错处理请求,包括以下至少之一:在分布式数据处理系统中包括的多个所述数据预处理节点各自已完成的所述数据预处理任务的任务数量,大于或等于第一数量的情况下,向分布式数据处理系统中包括的多个所述数据分发节点发送第一容错处理请求;在分布式数据处理系统中包括的目标数据预处理节点已完成的所述数据预处理任务的任务数量大于或等于第二数量的情况下,向与所述目标数据预处理节点匹配的目标数据分发节点发送第一容错处理请求;其中,所述分布式数据处理系统中包括多个所述数据预处理节点和多个所述数据分发节点,多个所述数据预处理节点分别匹配一个所述数据分发节点,与所述目标数据预处理节点匹配的所述目标数据分发节点,用于对经过所述目标数据预处理节点数据预处理得到的所述中间数据集进行转发,所述第一容错处理请求用于请求所述数据分发节点将已完成的所述数据预处理任务所产生的所述中间数据集发送至所述目标存储节点
。4.
根据权利要求2所述的方法,其特征在于,所述在当前时间戳满足第二数据容错条件的情况下,向所述数据分发节点发送容错处理请求,包括以下至少之一:在所述当前时间戳指示的时间满足第一时间条件的情况下,向分布式数据处理系统中
包括的多个所述数据分发节点发送第二容错处理请求,其中,所述第一时间条件为根据与所述分布式数据处理系统对应的第一容错周期确定的时间条件;在所述当前时间戳指示的时间满足第二时间条件的情况下,向分布式数据处理系统中包括的目标数据分发节点发送第二容错处理请求,其中,所述第二时间条件为根据与所述目标数据分发节点对应的第二容错周期确定的时间条件;其中,所述第二容错处理请求用于请求所述数据分发节点将在当前时间戳指示的时间之前已完成的所述数据预处理任务所产生的所述中间数据集,发送至所述目标存储节点
。5.
根据权利要求2所述的方法,其特征在于,所述向所述数据分发节点发送容错处理请求之后,还包括:接收所述数据分发节点返回的所述容错日志,其中,所述容错日志中包括多个第一任务标识,所述第一任务标识用于指示经过第一数据预处理任务所得到的第一中间数据集已完成所述容错处理
。6.
根据权利要求1所述的方法,其特征在于,所述在获取到所述第一数据子集的情况下,通过所述数据处理节点根据所述第一数据子集进行数据处理,得到目标处理结果包括:向所述数据处理节点发送目标分发节点标识,其中,所述目标分发节点标识指示用于对经过数据重算后得到的第二数据子集进行转发的目标数据分发节点;通过所述数据处理节点向所述目标数据分发节点发送第三数据获取请求,其中,所述第三数据获取请求用于获取所述第二数据子集;在所述数据处理节点获取到所述第二数据子集的情况下,通过所述数据处理节点根据所述第一数据子集和所述第二数据子集进行数据处理,得到目标处理结果
。7.
根据权利要求6所述的方法,其特征在于,所述向所述数据处理节点发送目标分发节点标识之前,还包括:向调度节点发送标识获取请求,其中,所述标识获取请求用于获取处于正常运行状态的所述数据分发节点的节点标识;获取所述调度节点返回的所述目标分发节点标识,并通知数据预处理节点将进行所述数据重算后得到的所述第二数据子集发送至所述目标分发节点标识指示的所述目标数据分发节点
。8.
根据权利要求6所述的方法,其特征在于,所述通过所述数据处理节点向所述目标数据分发节点发送第三数据获取请求之前,还包括:获取用于产生所述...

【专利技术属性】
技术研发人员:齐赫段蒙叶先进李志方罗韩梅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1