一种机器学习任务的恢复方法、装置、电子设备及介质制造方法及图纸

技术编号:33456331 阅读:10 留言:0更新日期:2022-05-19 00:38
本申请提供了一种机器学习任务的恢复方法、装置、电子设备及介质,其中,机器学习任务划分为多个机器学习子任务,该方法包括:当多个机器学习子任务分别在各自的任务运行环境中正常运行时,对多个任务运行环境的状态信息和多个机器学习子任务的上下文信息进行细粒度保存;通过任务状态机对多个机器学习子任务的状态信息进行保存;若机器学习任务运行失败,则从保存的多个任务运行环境的状态信息和多个机器学习子任务的上下文信息的最小粒度开始恢复机器学习任务,同时对保存的多个机器学习子任务的状态信息的总和校验码进行校验,以保证机器学习任务的状态信息的一致性。本申请实现了机器学习任务运行失败后的自动恢复,可以节约计算资源和时间。可以节约计算资源和时间。可以节约计算资源和时间。

【技术实现步骤摘要】
一种机器学习任务的恢复方法、装置、电子设备及介质


[0001]本申请涉及机器学习
,尤其是涉及一种机器学习任务的恢复方法、装置、电子设备及介质。

技术介绍

[0002]目前,机器学习任务的训练和计算时间会比较长,如果机器学习任务在训练过程或计算过程中运行失败了,则需要重新开始运行机器学习任务。尤其是机器学习任务训练或计算到末尾阶段,机器学习任务运行失败,之前的训练或计算则可能前功尽弃,需要重新再来,非常浪费计算资源和时间,这种成本付出是很多企业和个人无法忍受的。
[0003]现有的机器学习包括分布式计算方案和K8S管理方案,这两种方案均无法实现机器学习任务运行失败后的自动恢复和继续执行。因此,亟需研发一种器学习任务的恢复方案。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种机器学习任务的恢复方法、装置、电子设备及介质,以实现机器学习任务运行失败后的自动恢复和继续执行,节约计算资源和时间。
[0005]第一方面,本申请实施例提供了一种机器学习任务的恢复方法,所述机器学习任务划分为多个机器学习子任务,所述方法包括:
[0006]当所述多个机器学习子任务分别在各自的任务运行环境中正常运行时,对多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息进行细粒度保存;
[0007]通过任务状态机对所述多个机器学习子任务的状态信息进行保存;
[0008]若所述机器学习任务运行失败,则从保存的多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息的最小粒度开始恢复所述机器学习任务,同时对保存的所述多个机器学习子任务的状态信息的总和校验码进行校验,以保证所述机器学习任务的状态信息的一致性。
[0009]在一种可能的实施方式中,所述任务运行环境为容器或虚拟机。
[0010]在一种可能的实施方式中,所述任务运行环境的状态信息包括以下至少一项:系统资源的状态信息、所述多个机器学习子任务分别在各自的任务运行环境中实际运行的状态信息和所述多个机器学习子任务的任务进程信息,所述系统资源包括CPU、GPU、NPU和内存中的至少一种。
[0011]在一种可能的实施方式中,所述多个机器学习子任务的上下文信息包括所述多个机器学习子任务在运行时的全部状态信息。
[0012]在一种可能的实施方式中,若所述机器学习任务运行失败,则从保存的多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息的最小粒度开始恢复所述机器学习任务,包括:
[0013]若多个所述任务运行环境异常导致所述机器学习任务运行失败,则重新启动多个
所述任务运行环境;
[0014]若多个所述任务运行环境恢复正常,则从保存的多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息的最小粒度开始恢复所述机器学习任务。
[0015]在一种可能的实施方式中,若所述机器学习任务运行失败,则从保存的多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息的最小粒度开始恢复所述机器学习任务,包括:
[0016]若多个所述任务运行环境正常且所述机器学习任务运行失败,则从保存的多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息的最小粒度开始恢复所述机器学习任务。
[0017]在一种可能的实施方式中,所述方法还包括:若所述机器学习任务恢复正常,则从所述机器学习任务运行失败的断点处继续运行。
[0018]第二方面,本申请实施例还提供一种机器学习任务的恢复装置,所述机器学习任务划分为多个机器学习子任务,所述装置包括:
[0019]第一保存模块,用于当所述多个机器学习子任务分别在各自的任务运行环境中正常运行时,对多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息进行细粒度保存;
[0020]第二保存模块,用于通过任务状态机对所述多个机器学习子任务的状态信息进行保存;
[0021]自动恢复模块,用于若所述机器学习任务运行失败,则从保存的多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息的最小粒度开始恢复所述机器学习任务,同时对保存的所述多个机器学习子任务的状态信息的总和校验码进行校验,以保证所述机器学习任务的状态信息的一致性。
[0022]第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0023]第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0024]本申请实施例提供的一种机器学习任务的恢复方法,所述机器学习任务划分为多个机器学习子任务,分别在各自的任务运行环境中运行。当所述多个机器学习子任务分别在各自的任务运行环境中正常运行时,对多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息进行细粒度保存;并且,通过任务状态机对所述多个机器学习子任务的状态信息进行保存。如果所述机器学习任务运行失败,则从保存的多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息的最小粒度开始恢复所述机器学习任务,同时对保存的所述多个机器学习子任务的状态信息的总和校验码进行校验,以保证所述机器学习任务的状态信息的一致性。本申请实施例实现了机器学习任务运行失败后的自动恢复,保证了机器学习任务训练或计算的可持续性,可以节约计算资源和时间。
[0025]进一步,本申请实施例提供的一种机器学习任务的恢复方法,还可以在所述机器学习任务恢复正常时,从所述机器学习任务运行失败的断点处继续运行。本申请实施例在所述机器学习任务运行失败后,可以迅速恢复并且从运行失败的断点处继续运行,无需重新开始运行所述机器学习任务,实现了机器学习任务运行失败后的自动恢复和继续运行,保证了机器学习任务训练或计算的可持续性,可以节约计算资源和时间。
[0026]为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0027]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0028]图1示出了本申请实施例所提供的一种机器学习任务的恢复方法的流程图;
[0029]图2示出了一种机器学习任务的恢复方法的信号流图;
[0030]图3示出了本申请实施例所提供的一种机器学习任务的恢复装置的结构示意图;
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器学习任务的恢复方法,其特征在于,所述机器学习任务划分为多个机器学习子任务,所述方法包括:当所述多个机器学习子任务分别在各自的任务运行环境中正常运行时,对多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息进行细粒度保存;通过任务状态机对所述多个机器学习子任务的状态信息进行保存;若所述机器学习任务运行失败,则从保存的多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息的最小粒度开始恢复所述机器学习任务,同时对保存的所述多个机器学习子任务的状态信息的总和校验码进行校验,以保证所述机器学习任务的状态信息的一致性。2.根据权利要求1所述的方法,其特征在于,所述任务运行环境为容器或虚拟机。3.根据权利要求1所述的方法,其特征在于,所述任务运行环境的状态信息包括以下至少一项:系统资源的状态信息、所述多个机器学习子任务分别在各自的任务运行环境中实际运行的状态信息和所述多个机器学习子任务的任务进程信息,所述系统资源包括CPU、GPU、NPU和内存中的至少一种。4.根据权利要求1所述的方法,其特征在于,所述多个机器学习子任务的上下文信息包括所述多个机器学习子任务在运行时的全部状态信息。5.根据权利要求1所述的方法,其特征在于,若所述机器学习任务运行失败,则从保存的多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息的最小粒度开始恢复所述机器学习任务,包括:若多个所述任务运行环境异常导致所述机器学习任务运行失败,则重新启动多个所述任务运行环境;若多个所述任务运行环境恢复正常,则从保存的多个所述任务运行环境的状态信息和所述多个机器学习子任务的上下文信息的最小粒度开始恢复所述机器学习任务。6.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:卢亿雷
申请(专利权)人:北京白海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1