集群调度方法及装置制造方法及图纸

技术编号:35519650 阅读:22 留言:0更新日期:2022-11-09 14:38
本说明书涉及集群调度技术领域,具体地公开了一种集群调度方法及装置,其中,该方法包括:接收用户端提交的分布式运算任务;在节点池标识对应的目标节点池中查找请求任务的第一工作节点;向第一工作节点发送第一启动指令以在第一工作节点中启动分布式运算任务类型对应的管理端进程;在启动成功的情况下,将分布式运算任务发送至第一工作节点;响应于目标节点池中的第二工作节点发送的任务请求,向第二工作节点发送第二启动指令以在第二工作节点中启动分布式运算任务类型对应的客户端进程;第一工作节点根据预设调度规则对第二工作节点进行节点调度和任务分配,以执行分布式运算任务。上述方案能够提升调度能力,增加集群调度的扩展性和兼容性。调度的扩展性和兼容性。调度的扩展性和兼容性。

【技术实现步骤摘要】
集群调度方法及装置


[0001]本说明书涉及集群调度
,特别涉及一种集群调度方法及装置。

技术介绍

[0002]目前,存在很多需要集群处理的应用,自身已经形成了一种集群化的处理方式,这种集群往往有自己的调度逻辑,通过某种自主发现模式或者手动添加模式,可以给这种集群的管理节点里面添加工作节点。类似的系统有Vray分布式渲染系统和Context Capture集群调度系统。
[0003]在渲染农场集群调度系统中,即Goldenfarm集群调度系统中,管理着大批量的工作节点,需支持多种渲染软件或者渲染器,以及其他非渲染的工作任务。虽然渲染农场集群调度系统可以采用分块渲染的方式来在一定程度上代替Vray分布式渲染,但是这种分块渲染有一些和Vray分布式渲染差异的地方,比如可能在分块渲染之后的缝合阶段,精度上很难达到Vray分布式渲染的结果。另外,对于Context Capture集群调度系统,不能在Goldenfarm集群调度系统中直接调用工作节点来进行Context Capture的三维重建。这种情况下,必须用Context Capture集群调度系统来进行工作节点的管理工作,从而达到使用集群做三维重建的工作。
[0004]针对上述问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本说明书实施例提供了一种集群调度方法及装置,以解决现有技术中渲染农场集群调度系统中无法实现分布式运算任务的调度的问题。
[0006]本说明书实施例提供了一种集群调度方法,应用于渲染农场集群调度系统中的调度节点,所述渲染农场集群调度系统还包括多个工作节点;所述调度节点中存储有多个节点池中各节点池对应的节点列表,所述各节点池对应的节点列表中存储有适用于指定类型的分布式运算的工作节点的节点信息;所述方法包括:
[0007]接收用户端提交的分布式运算任务;所述分布式运算任务中携带有节点池标识以及分布式运算任务类型;
[0008]在所述节点池标识对应的目标节点池中查找请求任务的第一工作节点;向所述第一工作节点发送第一启动指令,以在所述第一工作节点中启动所述分布式运算任务类型对应的管理端进程;在所述管理端进程启动成功的情况下,将所述分布式运算任务发送至所述第一工作节点;
[0009]响应于所述目标节点池中的第二工作节点发送的任务请求,向所述第二工作节点发送第二启动指令,以在所述第二工作节点中启动所述分布式运算任务类型对应的客户端进程;所述第一工作节点根据预设调度规则对所述第二工作节点进行节点调度和任务分配,以执行所述分布式运算任务。
[0010]在一个实施例中,所述方法还包括:
[0011]接收所述第一工作节点返回的第一日志数据以及所述第二工作节点返回的第二日志数据;
[0012]对所述第一日志数据和所述第二日志数据进行分析,以根据分析结果对所述第一工作节点和所述第二工作节点进行调度。
[0013]在一个实施例中,对所述第一日志数据和所述第二日志数据进行分析,以根据分析结果对所述第一工作节点和所述第二工作节点进行调度,包括:
[0014]基于所述第二工作节点返回的第二日志数据,确定所述第二工作节点是否完成分配的任务;
[0015]在确定所述第二工作节点已完成分配的任务的情况下,向所述第二工作节点发送结束指令,以结束所述第二工作节点中运行的客户端进程,并断开所述第二工作节点与所述第一工作节点之间的通信连接。
[0016]在一个实施例中,对所述第一日志数据和所述第二日志数据进行分析,以根据分析结果对所述第一工作节点和所述第二工作节点进行调度,包括:
[0017]基于所述第一工作节点返回的第一日志数据,确定所述分布式运算任务是否执行成功;
[0018]在确定所述分布式运算任务执行成功的情况下,向所述第一工作节点发送结束指令,以结束所述第一工作节点中运行的管理端进程。
[0019]在一个实施例中,对所述第一日志数据和所述第二日志数据进行分析,以根据分析结果对所述第一工作节点和所述第二工作节点进行调度,包括:
[0020]基于所述第一工作节点返回的第一日志数据和第二工作节点返回的第二工作日志,确定是否需要新增第二工作节点;
[0021]在确定需要新增第二工作节点的情况下,响应于第二工作节点发送的任务请求,向所述第二工作节点发送第二启动指令,以在所述第二工作节点中启动所述分布式运算任务类型对应的客户端进程。
[0022]在一个实施例中,所述方法还包括:
[0023]监控所述第一工作节点的运行状态;
[0024]在所述管理端进程启动失败的情况下,重新启动所述第一工作节点中的管理端进程,直至启动成功或者启动次数超过预设次数。
[0025]在一个实施例中,所述分布式运算任务包括以下至少之一:分布式渲染任务、三维重建任务。
[0026]本说明书实施例还提供了一种集群调度装置,应用于渲染农场集群调度系统中的调度节点,所述渲染农场集群调度系统还包括多个工作节点;所述调度节点中存储有多个节点池中各节点池对应的节点列表,所述各节点池对应的节点列表中存储有适用于指定类型的分布式运算的工作节点的节点信息;所述装置包括:
[0027]接收模块,用于接收用户端提交的分布式运算任务;所述分布式运算任务中携带有节点池标识以及分布式运算任务类型;
[0028]第一启动模块,用于在所述节点池标识对应的目标节点池中查找请求任务的第一工作节点;向所述第一工作节点发送第一启动指令,以在所述第一工作节点中启动所述分布式运算任务类型对应的管理端进程;在所述管理端进程启动成功的情况下,将所述分布
式运算任务发送至所述第一工作节点;
[0029]第二启动模块,用于响应于所述目标节点池中的第二工作节点发送的任务请求,向所述第二工作节点发送第二启动指令,以在所述第二工作节点中启动所述分布式运算任务类型对应的客户端进程;所述第一工作节点根据预设调度规则对所述第二工作节点进行节点调度和任务分配,以执行所述分布式运算任务。
[0030]本说明书实施例还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述任意实施例中所述的集群调度方法的步骤。
[0031]本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意实施例中所述的集群调度方法的步骤。
[0032]在本说明书实施例中,提供了一种集群调度方法,应用于渲染农场集群调度系统中的调度节点,所述渲染农场集群调度系统还包括多个工作节点,所述调度节点中存储有多个节点池中各节点池对应的节点列表,所述各节点池对应的节点列表中存储有适用于指定类型的分布式运算的工作节点的节点信息,调度节点可以接收用户端提交的分布式运算任务,所述分布式运算任务中携带有节点池标识以及分布式运算任务类型,调度节点可以在所述节点池标识对应的目标节点池中查找请求任务的第一工作节点,向所述第一工本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种集群调度方法,其特征在于,应用于渲染农场集群调度系统中的调度节点,所述渲染农场集群调度系统还包括多个工作节点;所述调度节点中存储有多个节点池中各节点池对应的节点列表,所述各节点池对应的节点列表中存储有适用于指定类型的分布式运算的工作节点的节点信息;所述方法包括:接收用户端提交的分布式运算任务;所述分布式运算任务中携带有节点池标识以及分布式运算任务类型;在所述节点池标识对应的目标节点池中查找请求任务的第一工作节点;向所述第一工作节点发送第一启动指令,以在所述第一工作节点中启动所述分布式运算任务类型对应的管理端进程;在所述管理端进程启动成功的情况下,将所述分布式运算任务发送至所述第一工作节点;响应于所述目标节点池中的第二工作节点发送的任务请求,向所述第二工作节点发送第二启动指令,以在所述第二工作节点中启动所述分布式运算任务类型对应的客户端进程;所述第一工作节点根据预设调度规则对所述第二工作节点进行节点调度和任务分配,以执行所述分布式运算任务。2.根据权利要求1所述的集群调度方法,其特征在于,还包括:接收所述第一工作节点返回的第一日志数据以及所述第二工作节点返回的第二日志数据;对所述第一日志数据和所述第二日志数据进行分析,以根据分析结果对所述第一工作节点和所述第二工作节点进行调度。3.根据权利要求2所述的集群调度方法,其特征在于,对所述第一日志数据和所述第二日志数据进行分析,以根据分析结果对所述第一工作节点和所述第二工作节点进行调度,包括:基于所述第二工作节点返回的第二日志数据,确定所述第二工作节点是否完成分配的任务;在确定所述第二工作节点已完成分配的任务的情况下,向所述第二工作节点发送结束指令,以结束所述第二工作节点中运行的客户端进程,并断开所述第二工作节点与所述第一工作节点之间的通信连接。4.根据权利要求2所述的集群调度方法,其特征在于,对所述第一日志数据和所述第二日志数据进行分析,以根据分析结果对所述第一工作节点和所述第二工作节点进行调度,包括:基于所述第一工作节点返回的第一日志数据,确定所述分布式运算任务是否执行成功;在确定所述分布式运算任务执行成功的情况下,向所述第一工作节点发送结束指令,以结束所述第一工作节点中运行的管理端进程。5.根据权利要求2所述的集群调度方法,其特征...

【专利技术属性】
技术研发人员:鲁永泉穆凯辉
申请(专利权)人:苏州创意云网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1