【技术实现步骤摘要】
一种任务处理方法、装置、设备及存储介质
[0001]本公开涉及计算机
,具体而言,涉及一种用于强化学习任务的任务处理方法、装置、设备及存储介质。
技术介绍
[0002]继工业化时代和信息化时代之后,人们已经完全步入了信息化时代,而随着计算机技术的不断发展,强化学习(Reinforcement Learning,RL)逐渐成为集群管理中不可或缺的工作方法,通过部署强化学习任务的模式,可以利用智能体与环境的交互训练得到能够辅助人类进行决策的模型。目前,一般采用决策智能(Decision Intelligence,DI)引擎来处理强化学习任务,决策智能引擎是一种运行强化学习算法的基础框架,可以快速地处理强化学习任务。
[0003]目前,针对强化学习任务的处理,大多是搭建决策智能引擎,并通过在决策智能引擎中植入编排与管理系统(Slurm)的方式,以对强化学习任务进行部署和管理,这就导致需要对决策智能引擎的底层代码进行修改和植入,对决策智能引擎有较大的代码入侵性,稳定性较差,并且不同强化学习任务之间易发生影响,导致决策智
【技术保护点】
【技术特征摘要】
1.一种用于强化学习任务的任务处理方法,其特征在于,所述方法包括:在接收到强化学习任务的情况下,基于所述强化学习任务的任务描述信息,确定用于处理所述强化学习任务所需的配置资源;基于所述配置资源,生成针对所述强化学习任务的第一容器;在所述第一容器中创建用于处理所述强化学习任务的任务处理引擎,所述任务处理引擎包括用于任务处理中进行任务统筹的第一组件;基于所述任务处理引擎处理所述强化学习任务。2.根据权利要求1所述的方法,其特征在于,在所述基于所述强化学习任务的任务描述信息,确定用于处理所述强化学习任务的所需的配置资源之前,所述方法包括:在接收到强化学习任务的情况下,拦截所述强化学习任务;基于预设的准入条件,对所述强化学习任务进行校验;在确定所述强化学习任务满足所述准入条件的情况下,确定接收到所述强化学习任务。3.根据权利要求1所述的方法,其特征在于,所述基于所述配置资源,生成针对所述强化学习任务的第一容器,包括:获取当前可用的至少一个资源节点,并确定各资源节点中当前可用的剩余资源,其中,所述剩余资源包括所述资源节点中当前可用的图形处理单元的数量;从至少一个资源节点中确定第一资源节点,其中,所述第一资源节点中的剩余资源满足处理所述强化学习任务所需的配置资源;在所述第一资源节点中生成针对所述强化学习任务的第一容器。4.根据权利要求3所述的方法,其特征在于,所述在所述第一容器中创建用于处理所述强化学习任务的任务处理引擎,包括:基于所述任务描述信息指示的所述配置资源,在所述强化学习任务需要在所述第一资源节点进行处理的情况下,在所述第一容器中创建第一组件,以搭建用于处理所述强化学习任务的任务处理引擎。5.根据权利要求3所述的方法,其特征在于,所述基于所述任务处理引擎处理所述强化学习任务,包括:在所述强化学习任务的各任务环节需要在所述第一资源节点进行处理的情况下,控制所述第一组件运行任务处理逻辑,以处理所述强化学习任务。6.根据权利要求3所述的方法,其特征在于,所述基于所述任务处理引擎处理所述强化学习任务,包括:在所述强化学习任务的各任务环节需要在不同资源节点中处理的情况下,在接收到所述第一组件发送的组件创建请求后,基于所述配置资源指示的所述强化学习任务所需的计算资源和存储资源,分别从所述至少一个资源节点中除所述第一资源节点之外的其他资源节点中确定出满足所述强化学习任务所需的配置资源的至少一个第二资源节点和至少一个第三资源节点;基于所述存储资源,在所述至少一个第二资源节点中生成至少一个第二容器,并在所述第二容器中创建第二组件;所述任务处理引擎包括创建的至少一个第二组件;基于所述计算资源,在所述至少一个第三资源节点中生成至少一个第三容器,并在所
述第三容器中创建第三组件;所述任务处理引擎包括创建的至少一个第三组件;基于所述第一组件、所述至少一个第二组件和所述至少一个第三组件,处理所述强化学习任务。7.根据权利要求6所述的方法,其特征在于,所述在所述第二容器中创建第二组件,并在所述第三容器中创建第三组件之后,所述方法包括:将每个所述第二组件的地址和端口,以及每个所述第三组件的地址和端口发送给所述第一组件。8.根据权利要求6所述的方法,其特征在于,所述方法包括:在接收到所述第一组件发送的针对所述至少一个第二组件和/或所述至少一个第三组件的组件处理请求的情况下,针对所述至少一个第二组件和/或所述至少一个第三组件,执行与所...
【专利技术属性】
技术研发人员:李青坪,李健文,吴保东,牛雅哲,刘宇,翟季冬,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。