一种处理分布式训练任务的方法、系统、设备及介质技术方案

技术编号:28622469 阅读:10 留言:0更新日期:2021-05-28 16:18
本发明专利技术公开了一种处理分布式训练任务的方法、系统、设备和存储介质,方法包括:监听分布式节点中每个节点的任务状态;响应于存在节点的任务状态发生变化,根据节点最新的任务状态映射生成分布式训练任务状态;将分布式训练任务状态装载为事件,并将事件放入同步事件队列的队尾;以及按照顺序依次接收同步事件队列中的每个事件,并根据事件的事件信息执行相应的任务。本发明专利技术通过将任务状态映射为整体的分布式训练任务状态,然后将分布式训练任务状态抽象并组装成事件放到同步事件队列中,能够对同步事件队列进行同步控制,极大地增加了人工智能平台的易用性。

【技术实现步骤摘要】
一种处理分布式训练任务的方法、系统、设备及介质
本专利技术涉及人工智能平台领域,更具体地,特别是指一种处理分布式训练任务的方法、系统、计算机设备及可读介质。
技术介绍
近几年,随着计算机硬件算力的升级和一些深度学习算法的迭代研发,人工智能领域再一次迎来了自己的蓬勃发展期,许多公司和研究院所为了能够赶上这一次的人工智能热潮,都成立了自己的人工智能部门,并且配置了大量的人工智能服务器供算法人员去使用。渐渐地,资源配置矛盾就出现了,很多算法人员为了实现自己的实验,都会去人工智能服务器申请资源去训练自己的任务,但是如果资管管控调度不合理,很容易造成一人占用服务器,其他人都得等待使用的情况。特别是针对一些分布式训练任务,单纯的靠人工运维很难实现资源的合理分配,所以非常有必要创建一种建立于人工智能服务器之上的人工智能资源管控平台,算法人员每次获取资源都需要从平台申请,并且统一调度,最大限度的满足算法人员的资源需要,提升工作效率与资源使用率。在人工智能平台规划好后,又会面临很多问题,比如如何进行分布式训练任务的资源申请;训练任务的状态该怎么维护,特别地,对于一些分布式训练任务,该怎么通过不同的训练节点信息去映射整个的训练任务状态;训练任务完成后,需要执行什么逻辑,该怎么释放资源;用什么方式维护整个分布式训练任务的生命周期等等,这些都是需要考虑的问题。如果这些问题没有得到妥善的解决,就算一个平台构建成功,也不会得到算法工程师的青睐,最终会被市场环境所淘汰。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种处理分布式训练任务的方法、系统、计算机设备及计算机可读存储介质,基于同步事件队列的分布式训练任务状态监听更新机制,通过监听获取节点的任务状态,将任务状态映射为整体的分布式训练任务状态,然后将分布式训练任务状态抽象并组装成事件放到同步事件队列中,事件驱动引擎不间断的从同步事件队列获取最早进入队列的事件并进行处理,有条不紊的记录并处理分布式训练任务的各个状态,极大地增加了人工智能平台的易用性。基于上述目的,本专利技术实施例的一方面提供了一种处理分布式训练任务的方法,包括如下步骤:监听分布式节点中每个节点的任务状态;响应于存在节点的任务状态发生变化,根据所述节点最新的任务状态映射生成分布式训练任务状态;将所述分布式训练任务状态装载为事件,并将所述事件放入同步事件队列的队尾;以及按照顺序依次接收所述同步事件队列中的每个事件,并根据所述事件的事件信息执行相应的任务。在一些实施方式中,所述将所述分布式训练任务状态装载为事件包括:为所述事件创建对应的标识,并将所述标识与所述事件和对应的任务进行绑定。在一些实施方式中,所述将所述事件放入同步事件队列的队尾包括:判断所述事件绑定的标识是否已经存在;响应于所述标识不存在,新建一个同步事件队列,并将所述事件放入所述新建的同步事件队列的队尾。在一些实施方式中,所述将所述事件放入同步事件队列的队尾包括:响应于所述标识存在,根据所述标识确定所述任务对应的同步事件队列,并将所述事件放入所述对应的同步事件队列的队尾。本专利技术实施例的另一方面,提供了一种处理分布式训练任务的系统,包括:监听模块,配置用于监听分布式节点中每个节点的任务状态;映射模块,配置用于响应于存在节点的任务状态发生变化,根据所述节点最新的任务状态映射生成分布式训练任务状态;装载模块,配置用于将所述分布式训练任务状态装载为事件,并将所述事件放入同步事件队列的队尾;以及执行模块,配置用于按照顺序依次接收所述同步事件队列中的每个事件,并根据所述事件的事件信息执行相应的任务。在一些实施方式中,所述装载模块配置用于:为所述事件创建对应的标识,并将所述标识与所述事件和对应的任务进行绑定。在一些实施方式中,所述装载模块配置用于:判断所述事件绑定的标识是否已经存在;响应于所述标识不存在,新建一个同步事件队列,并将所述事件放入所述新建的同步事件队列的队尾。在一些实施方式中,所述装载模块配置用于:响应于所述标识存在,根据所述标识确定所述任务对应的同步事件队列,并将所述事件放入所述对应的同步事件队列的队尾。本专利技术实施例的又一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现如上方法的步骤。本专利技术实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。本专利技术具有以下有益技术效果:基于同步事件队列的分布式训练任务状态监听更新机制,通过监听获取节点的任务状态,将任务状态映射为整体的分布式训练任务状态,然后将分布式训练任务状态抽象并组装成事件放到同步事件队列中,事件驱动引擎不间断的从同步事件队列获取最早进入队列的事件并进行处理,有条不紊的记录并处理分布式训练任务的各个状态,极大地增加了人工智能平台的易用性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。图1为本专利技术提供的处理分布式训练任务的方法的实施例的示意图;图2为本专利技术提供的处理分布式训练任务的计算机设备的实施例的硬件结构示意图;图3为本专利技术提供的处理分布式训练任务的计算机存储介质的实施例的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。基于上述目的,本专利技术实施例的第一个方面,提出了一种处理分布式训练任务的方法的实施例。图1示出的是本专利技术提供的处理分布式训练任务的方法的实施例的示意图。如图1所示,本专利技术实施例包括如下步骤:S1、监听分布式节点中每个节点的任务状态;S2、响应于存在节点的任务状态发生变化,根据节点最新的任务状态映射生成分布式训练任务状态;S3、将分布式训练任务状态装载为事件,并将事件放入同步事件队列的队尾;以及S4、按照顺序依次接收同步事件队列中的每个事件,并根据事件的事件信息执行相应的任务。本专利技术实施例可以设置多个组件,具体包括分布式节点状态监听组件、状态映射组件、事件抽象组件、同步事件队列组件、事件发现驱动引擎组件和事件处理组件。分布式节点状态监听组件负责监听每个节点上的任务状态,当任务状态发生变化时,实时进行上报;状态映射组件负责收集分布式节点状态监听组件传过来的各个节点的任务状态信息,并根据各个节点的任务状态映射生成整个分布式训练任务状本文档来自技高网...

【技术保护点】
1.一种处理分布式训练任务的方法,其特征在于,包括以下步骤:/n监听分布式节点中每个节点的任务状态;/n响应于存在节点的任务状态发生变化,根据所述节点最新的任务状态映射生成分布式训练任务状态;/n将所述分布式训练任务状态装载为事件,并将所述事件放入同步事件队列的队尾;以及/n按照顺序依次接收所述同步事件队列中的每个事件,并根据所述事件的事件信息执行相应的任务。/n

【技术特征摘要】
1.一种处理分布式训练任务的方法,其特征在于,包括以下步骤:
监听分布式节点中每个节点的任务状态;
响应于存在节点的任务状态发生变化,根据所述节点最新的任务状态映射生成分布式训练任务状态;
将所述分布式训练任务状态装载为事件,并将所述事件放入同步事件队列的队尾;以及
按照顺序依次接收所述同步事件队列中的每个事件,并根据所述事件的事件信息执行相应的任务。


2.根据权利要求1所述的方法,其特征在于,所述将所述分布式训练任务状态装载为事件包括:
为所述事件创建对应的标识,并将所述标识与所述事件和对应的任务进行绑定。


3.根据权利要求2所述的方法,其特征在于,所述将所述事件放入同步事件队列的队尾包括:
判断所述事件绑定的标识是否已经存在;
响应于所述标识不存在,新建一个同步事件队列,并将所述事件放入所述新建的同步事件队列的队尾。


4.根据权利要求3所述的方法,其特征在于,所述将所述事件放入同步事件队列的队尾包括:
响应于所述标识存在,根据所述标识确定所述任务对应的同步事件队列,并将所述事件放入所述对应的同步事件队列的队尾。


5.一种处理分布式训练任务的系统,其特征在于,包括:
监听模块,配置用于监听分布式节点中每个节点的任务状态;
映射模块,配置用于响应于存在节点的任务状态发生变化,根据所述节...

【专利技术属性】
技术研发人员:王文潇
申请(专利权)人:山东英信计算机技术有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1