深度学习训练任务生命周期管理平台及计算机设备制造技术

技术编号:38586269 阅读:13 留言:0更新日期:2023-08-26 23:28
本发明专利技术涉及深度学习技术领域,公开了深度学习训练任务生命周期管理平台,包括:图管理子模块、集群调度系统、任务运行节点,集群调度系统用于接收训练任务,将训练任务发送至任务运行节点,以使任务运行节点执行训练任务,训练任务划分有多个运行阶段,每个运行阶段对应有任务状态更新操作,任务状态更新操作用于触发状态图管理子模块更新任务状态图;状态图管理子模块中包含训练任务的任务状态图,根据任务状态更新操作对训练任务的任务状态图进行更新。本发明专利技术丰富了训练任务的状态,支持定义状态图的方式,可以自定义新的状态流程,保持了一定的业务兼容性,可以满足定制化需求。可以满足定制化需求。可以满足定制化需求。

【技术实现步骤摘要】
深度学习训练任务生命周期管理平台及计算机设备


[0001]本专利技术涉及深度学习
,具体涉及深度学习训练任务生命周期管理平台及计算机设备。

技术介绍

[0002]人工智能技术飞速发展,各个行业正迅速的进行智能化改造。作为人工智能代表的深度学习技术,各个领域产生了大量的、不断变化的、迅猛发展的深度学习训练的需求。更大的训练集群,更大规模、更频繁的训练会显著提高深度学习训练的效果。但同时带来了更高的故障发生频次和任务更高的失败率,开发和运维人员需要采用任务生命周期管理工具跟踪训练任务状态和运行细节,无疑为深度学习平台训练任务生命周期管理提出了更高的挑战。
[0003]目前,相关技术中深度学习训练平台在对训练任务的状态进行跟踪时,仅对几个有限的任务状态进行跟踪,无法完全覆盖任务真实的运行状态。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种深度学习训练任务生命周期管理平台方法及计算机设备,以解决现有技术中深度学习训练平台无法完全覆盖训练任务真实的运行状态的问题。
[0005]第一方面,本专利技术提供了一种深度学习训练任务生命周期管理平台,包括:作业生命周期管理模块、依赖模块、任务运行节点,作业生命周期管理模块中包括状态图管理子模块,依赖模块中包括集群调度系统,集群调度系统用于接收训练任务,将训练任务发送至至少一个任务运行节点,以使任务运行节点执行训练任务,训练任务划分有多个运行阶段,每个运行阶段对应有任务状态更新操作,任务状态更新操作用于触发状态图管理子模块更新任务状态图;状态图管理子模块中包含有各训练任务的任务状态图,根据任务状态更新操作对训练任务的任务状态图进行更新,任务状态图定义了训练任务生命周期中的多个状态,以及各状态之间的流转过程。
[0006]本专利技术提供的深度学习训练任务生命周期管理平台,丰富了训练任务的状态,能够涵盖深度学习训练任务的一般化场景,并且,上述实施例中将训练任务划分为多个不同的运行阶段,不同的对应节点对应有不同的任务状态更新操作,当执行训练任务的过程中,执行任务状态更新操作后,能够完成对状态图的更新,可见,本专利技术实施例支持定义状态图的方式,可以自定义新的状态流程,保持了一定的业务兼容性,可以满足定制化需求。通过任务状态更新操作通知状态图管理子模块更新任务状态图的方式,弥补了原生集群管理作业状态的局限性,能够准实时的进行业务状态通知。
[0007]在一可选实施例中,依赖模块中还包括监控系统,任务运行节点中部署有监控代理节点,监控代理节点用于监控任务运行节点中处于运行状态的训练任务,以及训练任务运行节点中的资源使用状态,向监控系统发送资源使用状态。
[0008]本专利技术实施例提供的深度学习训练任务生命周期管理平台,通过监控代理节点获取任务运行节点中处于运行状态的训练任务的资源使用状态,使得用户可以实时了解训练任务对任务运行节点的资源使用情况,便于根据资源使用情况对训练任务或运行训练任务的任务运行节点作出调整,当训练任务发生异常时,可以将资源使用情况作为排查和定位异常的参考依据,提高了模型训练效率。
[0009]在一可选实施例中,任务运行节点中还部署有集群任务代理节点,集群任务代理节点用于根据任务运行节点中处于运行状态的训练任务,生成任务运行节点和训练任务的关联关系,向集群调度系统发送关联关系;集群调度系统还用于接收各任务运行节点中的集群任务代理节点所发送的关联关系,根据关联关系确定各训练任务对应的一个或多个任务运行节点。
[0010]在本专利技术实施例中,每个任务运行节点中的集群任务代理节点扫描该任务运行节点中处于运行状态的训练任务,并将处于运行状态的训练任务发送给集训调度系统,集群调度系统可以确定任一训练任务在哪个任务运行节点中运行,或,在哪些任务运行节点中运行,便于集群调度系统对该训练任务进行维护。
[0011]在一可选实施例中,作业生命周期管理模块还包括资源管理子模块,资源管理子模块用于接收数据查询请求,数据查询请求中包含待查询数据;调用监控系统,和/或,集群调度系统,获取待查询数据。
[0012]在一可选实施例中,作业生命周期管理模块还包括可视化子模块,可视化子模块用于接收第一可视化请求,第一可视化请求中包含待展示模型;确定待展示模型对应的训练任务;通过集群调度系统确定训练任务对应的一个或多个节点,向训练任务对应的任务运行节点发起第二可视化请求,以使任务运行节点输出待展示模型的可视化数据。
[0013]本专利技术实施例中,集群任务代理节点将各运行任务节点中所运行的训练任务发送给集群调度系统,因此,用户发起第一可视化请求后,可视化子模块可以根据集群调度系统快速确定运行该系训练任务的任务运行节点,从而向任务运行节点发起第二可视化请求,实现了可视化能够定位模型信息,正确地展示模型结构信息,供用户排查。
[0014]在一可选实施例中,作业生命周期管理模块还包括事件管理子模块,事件管理子模块包括事件录入单元,事件管理子模块通过事件录入单元分别与状态图管理子模块、监控系统、集群调度系统连接,以使状态图管理子模块、监控系统、集群调度系统通过事件录入单元向事件管理子模块传输事件信息。
[0015]在一可选实施例中,事件管理子模块还包括存储单元,存储单元用于存储事件信息。
[0016]在一可选实施例中,事件管理子模块还包括国际单元,国际单元用于将事件信息生成多条对应的国际化事件信息,不同的国际化事件信息是结合不同的语言生成的。
[0017]本专利技术实施例提供的深度学习训练任务生命周期管理平台,通过事件管理子模块,相关工作人员能够查看任务生命周期中发生的主要事件,从而可以全面了解任务信息,方便问题定位和故障排查。
[0018]在一可选实施例中,若训练任务的生命周期中,各状态之间的流转过程与预设流转规则不同,判定训练任务运行异常。
[0019]本专利技术第二方面提供了一种计算机设备,包括:存储器和处理器,存储器和处理器
之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而运行上述实施例中提供的深度学习训练任务生命周期管理平台。
附图说明
[0020]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是根据本专利技术实施例的深度学习训练任务生命周期管理平台的框架示意图(一);
[0022]图2是根据本专利技术实施例的任务状态图;
[0023]图3是根据本专利技术实施例的深度学习训练任务生命周期管理平台的框架示意图(二);
[0024]图4是根据本专利技术实施例的深度学习训练任务生命周期管理平台的框架示意图(三);
[0025]图5是根据本专利技术实施例的深度学习训练任务生命周期管理平台的框架示意图(四);
[0026本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度学习训练任务生命周期管理平台,其特征在于,包括:作业生命周期管理模块、依赖模块、任务运行节点,所述作业生命周期管理模块中包括状态图管理子模块,所述依赖模块中包括集群调度系统,所述集群调度系统用于接收训练任务,将所述训练任务发送至至少一个任务运行节点,以使所述任务运行节点执行所述训练任务,所述训练任务划分有多个运行阶段,每个运行阶段对应有任务状态更新操作,所述任务状态更新操作用于触发所述状态图管理子模块更新任务状态图;所述状态图管理子模块中包含有各训练任务的任务状态图,根据所述任务状态更新操作对所述训练任务的任务状态图进行更新,所述任务状态图定义了所述训练任务生命周期中的多个状态,以及各状态之间的流转过程。2.根据权利要求1所述的平台,其特征在于,所述依赖模块中还包括监控系统,所述任务运行节点中部署有监控代理节点,所述监控代理节点用于监控所述任务运行节点中处于运行状态的训练任务,以及所述训练任务所述任务运行节点中的资源使用状态,向所述监控系统发送所述资源使用状态。3.根据权利要求2所述的平台,其特征在于,所述任务运行节点中还部署有集群任务代理节点,所述集群任务代理节点用于根据所述任务运行节点中处于运行状态的训练任务,生成任务运行节点和训练任务的关联关系,向所述集群调度系统发送所述关联关系;所述集群调度系统还用于接收各任务运行节点中的集群任务代理节点所发送的关联关系,根据所述关联关系确定各训练任务对应的一个或多个任务运行节点。4.根据权利要求3所述的平台,其特征在于,所述作业生命周期管理模块还包括资源管理子模块,所述资源管理子模块用于接收数据查询请求,所述数据查询请求中包含待查询数据;调用...

【专利技术属性】
技术研发人员:荆荣讯王斌
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1