一种任务处理方法、装置、设备及存储介质制造方法及图纸

技术编号：33621179 阅读：23 留言：0更新日期：2022-06-02 00:44

本公开提供了一种用于强化学习任务的任务处理方法、装置、设备及存储介质，可以通过强化学习任务的任务描述信息，通过解析出所需的配置资源，进而生成针对强化学习任务的第一容器，在第一容器中创建用于处理强化学习任务的任务处理引擎，任务处理引擎包括用于任务处理中进行任务统筹的第一组件，以实现处理强化学习任务。这样，通过容器搭建任务处理引擎，将任务处理引擎置于容器中，依托于容器的单一性和隔离性，使得各任务使用的资源之间无干扰，保证任务处理的性能，而且对于任务处理引擎的维护和检测等，可以通过容器的配置等方面进行实现，在决策智能引擎之外即可完成，有效降低对于引擎底层代码的变动和入侵，降低决策智能引擎的负担。擎的负担。擎的负担。

全部详细技术资料下载

【技术实现步骤摘要】
一种任务处理方法、装置、设备及存储介质

[0001]本公开涉及计算机
，具体而言，涉及一种用于强化学习任务的任务处理方法、装置、设备及存储介质。

技术介绍

[0002]继工业化时代和信息化时代之后，人们已经完全步入了信息化时代，而随着计算机技术的不断发展，强化学习(Reinforcement Learning，RL)逐渐成为集群管理中不可或缺的工作方法，通过部署强化学习任务的模式，可以利用智能体与环境的交互训练得到能够辅助人类进行决策的模型。目前，一般采用决策智能(Decision Intelligence，DI)引擎来处理强化学习任务，决策智能引擎是一种运行强化学习算法的基础框架，可以快速地处理强化学习任务。
[0003]目前，针对强化学习任务的处理，大多是搭建决策智能引擎，并通过在决策智能引擎中植入编排与管理系统(Slurm)的方式，以对强化学习任务进行部署和管理，这就导致需要对决策智能引擎的底层代码进行修改和植入，对决策智能引擎有较大的代码入侵性，稳定性较差，并且不同强化学习任务之间易发生影响，导致决策智

【技术保护点】

【技术特征摘要】
1.一种用于强化学习任务的任务处理方法，其特征在于，所述方法包括：在接收到强化学习任务的情况下，基于所述强化学习任务的任务描述信息，确定用于处理所述强化学习任务所需的配置资源；基于所述配置资源，生成针对所述强化学习任务的第一容器；在所述第一容器中创建用于处理所述强化学习任务的任务处理引擎，所述任务处理引擎包括用于任务处理中进行任务统筹的第一组件；基于所述任务处理引擎处理所述强化学习任务。2.根据权利要求1所述的方法，其特征在于，在所述基于所述强化学习任务的任务描述信息，确定用于处理所述强化学习任务的所需的配置资源之前，所述方法包括：在接收到强化学习任务的情况下，拦截所述强化学习任务；基于预设的准入条件，对所述强化学习任务进行校验；在确定所述强化学习任务满足所述准入条件的情况下，确定接收到所述强化学习任务。3.根据权利要求1所述的方法，其特征在于，所述基于所述配置资源，生成针对所述强化学习任务的第一容器，包括：获取当前可用的至少一个资源节点，并确定各资源节点中当前可用的剩余资源，其中，所述剩余资源包括所述资源节点中当前可用的图形处理单元的数量；从至少一个资源节点中确定第一资源节点，其中，所述第一资源节点中的剩余资源满足处理所述强化学习任务所需的配置资源；在所述第一资源节点中生成针对所述强化学习任务的第一容器。4.根据权利要求3所述的方法，其特征在于，所述在所述第一容器中创建用于处理所述强化学习任务的任务处理引擎，包括：基于所述任务描述信息指示的所述配置资源，在所述强化学习任务需要在所述第一资源节点进行处理的情况下，在所述第一容器中创建第一组件，以搭建用于处理所述强化学习任务的任务处理引擎。5.根据权利要求3所述的方法，其特征在于，所述基于所述任务处理引擎处理所述强化学习任务，包括：在所述强化学习任务的各任务环节需要在所述第一资源节点进行处理的情况下，控制所述第一组件运行任务处理逻辑，以处理所述强化学习任务。6.根据权利要求3所述的方法，其特征在于，所述基于所述任务处理引擎处理所述强化学习任务，包括：在所述强化学习任务的各任务环节需要在不同资源节点中处理的情况下，在接收到所述第一组件发送的组件创建请求后，基于所述配置资源指示的所述强化学习任务所需的计算资源和存储资源，分别从所述至少一个资源节点中除所述第一资源节点之外的其他资源节点中确定出满足所述强化学习任务所需的配置资源的至少一个第二资源节点和至少一个第三资源节点；基于所述存储资源，在所述至少一个第二资源节点中生成至少一个第二容器，并在所述第二容器中创建第二组件；所述任务处理引擎包括创建的至少一个第二组件；基于所述计算资源，在所述至少一个第三资源节点中生成至少一个第三容器，并在所
述第三容器中创建第三组件；所述任务处理引擎包括创建的至少一个第三组件；基于所述第一组件、所述至少一个第二组件和所述至少一个第三组件，处理所述强化学习任务。7.根据权利要求6所述的方法，其特征在于，所述在所述第二容器中创建第二组件，并在所述第三容器中创建第三组件之后，所述方法包括：将每个所述第二组件的地址和端口，以及每个所述第三组件的地址和端口发送给所述第一组件。8.根据权利要求6所述的方法，其特征在于，所述方法包括：在接收到所述第一组件发送的针对所述至少一个第二组件和/或所述至少一个第三组件的组件处理请求的情况下，针对所述至少一个第二组件和/或所述至少一个第三组件，执行与所...

【专利技术属性】
技术研发人员：李青坪，李健文，吴保东，牛雅哲，刘宇，翟季冬，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人