一种数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39294744 阅读:23 留言:0更新日期:2023-11-07 11:02
本申请实施例公开了一种数据处理方法、装置、计算机设备及存储介质,适用于云技术中的网络调度领域,包括:从数据传输模式集合中确定待调度任务对应的目标传输模式;在获取到N个节点信息时,基于待调度任务对应的任务数据量、数据分布信息以及N个节点信息,对N个计算节点进行排序处理,得到排序结果;若排序结果指示N个计算节点中不存在满足任务执行条件的第一类型节点,则进行延时等待;若在延时等待过程中出现满足任务执行条件的第一类型节点,则将满足任务执行条件的第一类型节点作为目标计算节点;将待调度任务调度到目标计算节点,以使目标计算节点基于目标传输模式执行待调度任务。采用本申请实施例,可以提升数据处理性能。理性能。理性能。

【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]大数据技术飞速发展,新的计算引擎与框架层出不穷,涌现出了诸如Flink,Impala,Presto,Spark等多种计算引擎。这些引擎均提供了分布式计算的功能,将存储在分布式存储系统中的数据读取出来,同时将计算任务分发到不同计算节点上进行计算。比如,在MapReduce(一种用于对大规模数据集进行并行计算的编程模型)的实现中,对于社区版的数据混洗技术(shuffle技术)而言,往往直接采用拉传输模式来连接Map(映射)和Reduce(归约)两个阶段。比如,若某一计算节点(例如,节点A)存储包括数据1和数据2的原始数据,那么在多个计算节点将用于拉取数据的业务请求发送给节点A时,往往节点A需要一会读取原始数据中的数据1,一会读取原始数据中的数据2,这将导致节点A产生大量的随机读写数据,而随机读写数据会使得操作系统缓存失效,甚至导致读取速度较慢。
[0003]此外,由于数据分布所在节本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:从数据传输模式集合中确定待调度任务对应的目标传输模式;所述数据传输模式集合包括推传输模式和拉传输模式;在获取到N个计算节点中的每个计算节点上报的节点信息时,基于所述待调度任务对应的任务数据量、所述待调度任务对应的数据分布信息以及N个节点信息,对所述N个计算节点进行排序处理,得到排序结果;N为正整数;若所述排序结果指示所述N个计算节点中不存在满足任务执行条件的第一类型节点,则进行延时等待;所述第一类型节点为满足数据本地性的计算节点;若在延时等待过程中出现满足所述任务执行条件的第一类型节点,则将满足所述任务执行条件的第一类型节点作为目标计算节点;所述延时等待过程对应的延时上限时长阈值是基于针对所述待调度任务所配置的等待轮数上限阈值所确定的;将所述待调度任务调度到所述目标计算节点,以使所述目标计算节点基于所述目标传输模式,执行所述待调度任务。2.根据权利要求1所述的方法,其特征在于,所述从数据传输模式集合中确定待调度任务对应的目标传输模式,包括:在接收到计算作业时,对所述计算作业进行拆分,得到M个子任务;M为正整数;将所述M个子任务中的子任务R
i
确定为待调度任务,获取所述待调度任务的任务时序类型;i为小于或者等于M的正整数;获取包括推传输模式和拉传输模式的数据传输模式集合;基于所述待调度任务的任务时序类型以及与所述待调度任务相关联的模式筛选条件,从所述数据传输模式集合中确定所述待调度任务对应的目标传输模式。3.根据权利要求2所述的方法,其特征在于,所述模式筛选条件包括第一筛选条件;所述第一筛选条件包括第一阈值;所述第一阈值是指启动所述推传输模式所配置的最小数据量;所述基于所述待调度任务的任务时序类型以及与所述待调度任务相关联的模式筛选条件,从所述数据传输模式集合中确定所述待调度任务对应的目标传输模式,包括:若所述待调度任务的任务时序类型指示所述待调度任务为计算作业中的首个子任务,则确定所述待调度任务的任务数据量;若所述任务数据量大于所述第一阈值,则确定满足所述第一筛选条件,将所述数据传输模式集合中的推传输模式确定为所述待调度任务对应的目标传输模式;若所述任务数据量小于或者等于所述第一阈值,则确定不满足所述第一筛选条件,将所述数据传输模式集合中的拉传输模式确定为所述待调度任务对应的目标传输模式。4.根据权利要求2所述的方法,其特征在于,所述模式筛选条件包括第一筛选条件和第二筛选条件;所述第一筛选条件包括第一阈值;所述第一阈值是指启动所述推传输模式所配置的最小数据量;所述第二筛选条件包括第二阈值;所述第二阈值是指启动所述推传输模式所配置的最小耗时占比;所述基于所述待调度任务的任务时序类型以及与所述待调度任务相关联的模式筛选条件,从所述数据传输模式集合中确定所述待调度任务对应的目标传输模式,包括:若所述待调度任务的任务时序类型指示所述待调度任务为计算作业中的非首个子任
务,则确定所述待调度任务的历史调度任务对应的平均数据量;所述历史调度任务是指在所述计算作业中所述待调度任务的前(i

1)个非本地性计算的子任务;基于所述计算作业对应的整体任务消耗时长以及所述历史调度任务对应的历史调度任务消耗时长,确定所述历史调度任务对应的任务耗时占比;若所述平均数据量大于所述第一阈值,或所述任务耗时占比大于所述第二阈值,则确定满足所述模式筛选条件,将所述数据传输模式集合中的推传输模式确定为所述待调度任务对应的目标传输模式。5.根据权利要求1所述的方法,其特征在于,所述在获取到N个计算节点中的每个计算节点上报的节点信息时,基于所述待调度任务对应的任务数据量、所述待调度任务对应的数据分布信息以及N个节点信息,对所述N个计算节点进行排序处理,得到排序结果,包括:在获取到N个计算节点中的每个计算节点上报的节点信息时,基于所述待调度任务对应的数据分布信息以及N个节点信息,对所述N个计算节点进行第一排序处理,得到第一排序结果;所述第一排序结果包括第一节点集合和第二节点集合;所述第一节点集合包括满足数据本地性的第一类型节点;所述第二节点集合包括不满足数据本地性的第二类型节点;从所述N个节点信息中获取所述第一节点集合中的每个第一类型节点对应的节点信息,基于获取到的节点信息,分别确定每个第一类型节点对应的任务中断代价;基于所述每个第一类型节点对应的任务中断代价,对所述第一节点集合进行第二排序处理,得到第二排序结果;将所述第一排序结果中的第二节点集合排列在所述第二排序结果之后,得到排序结果。6.根据权利要求5所述的方法,其特征在于,所述在获取到N个计算节点中的每个计算节点上报的节点信息时,基于所述待调度任务对应的数据分布信息以及N个节点信息,对所述N个计算节点进行第一排序处理,得到第一排序结果,包括:在获取到N个计算节点中的每个计算节点上报的节点信息时,基于所述待调度任务对应的数据分布信息以及N个节点信息,将所述N个计算节点中的满足数据本地性的计算节点确定为第一类型节点,得到第一节点集合;将所述N个计算节点中除所述第一类型节点之外的计算节点确定为第二类型节点,得到第二节点集合;所述第一类型节点的调度顺序优于所述第二类型节点的调度顺序;基于所述第一排序处理所指示的降序处理,将所述第二节点集合排列在所述第一节点集合之后,得到第一排序结果。7.根据权利要求6所述的方法,其特征在于,所述在获取到N个计算节点中的每个计算节点上报的节点信息时,基于所述待调度任务对应的数据分布信息以及N个节点信息,将所述N个计算节点中的满足数据本地性的计算节点确定为第一类型节点,得到第一节点集合,包括:在获取到N个计算节点中的每个计算节点上报的节点信息时,基于所述待调度任务对应的数据分布信息,将所述N个计算节点中的所述待调度任务的数据源所在计算节点确定为第一优选节点;基于N个节点信息,将所述N个计算节点中的与所述第一优选节点属于同机架的计算节
点确定为第二优选节点;所述第一优选节点的调度顺序优于所述第二优选节点的调度顺序;将所述第一优选节点和所述第二优选节点均确定为满足数据本地性的第一类型节点,且基于所述第一排序处理所指示的降序处理,将所述第二优选节点排列在所述第一优选节点之后,得到第一节点集合。8.根据权利要求5所述的方法,其特征在于,所述从所述N个节点信息中获取所述第一节点集合中的每个第一类型节点对应的节点信息,基于获取到的节点信息,分别确定每个第一类型节点对应的任务中断代价,包括:将所述第一节点集合中的每个第一类型节点分别确定为待评估节点,从所述N个节点信息中确定所述待评估节点的节点信息;所述待评估节点部署有H个计算组件;H为正整数;从所述待评估节点的节点信息中,获取所述待评估节点中的每个计算组件所执行的当前任务分别对应的任务辅助参数;所述任务辅助参数包括任务进度参数、进度耗时以及进度消耗资源;基于H个所述任务辅助参数,确定所述待评估节点中的每个计算组件分别对应的任务中断代价,从所述H个...

【专利技术属性】
技术研发人员:孙武
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1