【技术实现步骤摘要】
计算任务的调度方法和计算任务的执行方法
[0001]本公开涉及人工智能
,尤其涉及云计算、大数据和分布式计算技术,可应用于智能云场景。
技术介绍
[0002]随着大数据技术的发展,业界出现了越来越多的分布式计算引擎,这些引擎处理的数据绝大部分来自分布式存储系统中。分布式存储系统与分布式计算引擎通常不在同一服务器(如,典型的云计算场景)。在执行数据处理作业时,需要首先从分布式存储系统中按需将数据读取到引擎所在主机,才能进行后续处理。这一过程会大量消耗网络I/O(输入/输出,Input/Output)。为了降低网络I/O的消耗,引入了缓存技术。
技术实现思路
[0003]本公开提供了一种计算任务的调度方法和计算任务的执行方法。
[0004]根据本公开的一方面,提供了一种计算任务的调度方法,包括:
[0005]在接收到任务请求的情况下,运行工作进程;
[0006]在工作进程中,利用本地的第一缓存框架的第一缓存文件系统,确定目标数据的多个数据分片与分布式计算引擎的多个工作节点的映射关系; ...
【技术保护点】
【技术特征摘要】
1.一种计算任务的调度方法,应用于分布式计算引擎的主节点,包括:在接收到任务请求的情况下,运行工作进程;在所述工作进程中,利用本地的第一缓存框架的第一缓存文件系统,确定目标数据的多个数据分片与所述分布式计算引擎的多个工作节点的映射关系;其中,所述目标数据为执行所述任务请求所需的数据;根据所述映射关系,生成多个计算任务;以及将所述多个计算任务调度至所述多个工作节点。2.根据权利要求1所述的方法,其中,所述在所述工作进程中,利用本地的第一缓存框架的第一缓存文件系统,确定目标数据的多个数据分片与所述分布式计算引擎的多个工作节点的映射关系,之前,还包括:根据所述任务请求,确定执行所述任务请求所需的目标数据;根据所述目标数据的元数据信息和预设分片规则,将所述目标数据预划分为多个数据分片。3.根据权利要求1或2所述的方法,其中,所述在所述工作进程中,利用本地的第一缓存框架的第一缓存文件系统,确定目标数据的多个数据分片与所述分布式计算引擎的多个工作节点的映射关系,包括:在所述工作进程中,利用本地的第一缓存框架的第一缓存文件系统,获取所述分布式计算引擎对应的工作节点信息;根据所述工作节点信息,确定目标数据的多个数据分片与所述分布式计算引擎的多个工作节点的映射关系。4.根据权利要求3所述的方法,其中,所述在所述工作进程中,利用本地的第一缓存框架的第一缓存文件系统,获取所述分布式计算引擎对应的工作节点信息,包括:在所述工作进程中,利用本地的第一缓存框架的第一缓存文件系统,通过所述第一缓存框架的引擎插件,获取所述分布式计算引擎对应的工作节点信息。5.根据权利要求3所述的方法,其中,所述根据所述工作节点信息,确定目标数据的多个数据分片与所述分布式计算引擎的多个工作节点的映射关系,包括:根据所述工作节点信息,确定所述分布式计算引擎的多个工作节点;根据一致性哈希算法,确定目标数据的多个数据分片与所述多个工作节点的映射关系。6.根据权利要求1或2所述的方法,其中,所述在所述工作进程中,利用本地的第一缓存框架的第一缓存文件系统,确定目标数据的多个数据分片与所述分布式计算引擎的多个工作节点的映射关系,包括:在所述工作进程中,利用本地的第一缓存框架的第一缓存文件系统,从本地缓存中获取工作节点缓存信息;根据所述工作节点缓存信息中的所述分布式计算引擎的多个工作节点的缓存数据信息,确定目标数据的多个数据分片与所述多个工作节点的映射关系。7.一种计算任务的执行方法,应用于分布式计算引擎的工作节点,包括:在接收到所述分布式计算引擎的主节点调度的计算任务的情况下,运行工作线程;在所述工作线程中,利用本地的第二缓存框架的第二缓存文件系统,查找所述计算任
务对应的数据分片在本地缓存的存储位置;在查找到所述存储位置的情况下,从所述存储位置获取与所述数据分片对应的缓存数据;以及根据所述计算任务,对所述缓存数据进行计算。8.根据权利要求7所述的方法,还包括:在未查找到所述存储位置的情况下,根据所述数据分片的信息,确定所述数据分片的远端存储地址信息;根据所述远端存储地址信息,利用所述第二缓存文件系统,从远端获取所述数据分片对应的存储数据;根据所述计算任务,对所述存储数据进行计算。9.根据权利要求8所述的方法,其中,所述根据所述远端存储地址信息,利用所述第二缓存文件系统,从远端获取所述数据分片对应的存储数据,包括:根据所述远端存储地址信息,利用所述第二缓存文件系统,通过所述第二缓存框架的引擎插件和远端存储客户端,从远端获取所述数据分片对应的存储数据。10.根据权利要求8所述的方法,还包括:将所述存储数据存入所述本地缓存。11.根据权利要求7至10任一项所述的方法,其中,所述在所述工作线程中,利用本地的第二缓存框架的第二缓存文件系统,查找所述计算任务对应的数据分片在本地缓存的存储位置,包括:在所述工作线程中,利用本地的第二缓存框架的第二缓存文件系统,确定所述数据分片的缓存地址信息;根据所述数据分片的缓存地址信息,查找所述计算任务对应的数据分片在本地缓存的存储位置。12.根据权利要求7至10任一项所述的方法,其中,所述在所述工作线程中,利用本地的第二缓存框架的第二缓存文件系统,查找所述计算任务对应的数据分片在本地缓存的存储位置,包括:在所述工作线程中,利用本地的第二缓存框架的第二缓存文件系统,通过所述第二缓存框架的缓存元数据服务,查找所述计算任务对应的数据分片在本地缓存的存储位置。13.一种计算任务的调度装置,应用于分布式计算引擎的主节点,包括:进程模块,用于在接收到任务请求的情况下,运行工作进程;第一确定模块,用于在所述工作进程中,利用本地的第一缓存框架的第一缓存文件系统,确定目标数据的多个数据分片与所述分布式计算引擎的多个工作节点的映射关系;其中,所述目标数据为执行所述任务请求所需的数据;生成模块,用于根据所述映射关系,生成多个计算任务;以及调度...
【专利技术属性】
技术研发人员:张奇伟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。