一种基于检查点的应用转储和恢复方法、设备及存储介质技术

技术编号:38572385 阅读:9 留言:0更新日期:2023-08-22 21:06
本申请实施例提供一种基于检查点的应用转储和恢复方法、设备及存储介质。开拓性地提出了为计算节点上装配的目标特定设备整合出在目标应用下的状态描述信息,并将该状态描述信息添加到为目标应用构建的检查点文件中。在此基础上,在基于检查点对目标应用进行恢复的过程中,可从检查点文件中读取到该状态描述信息,并基于该状态描述信息将目标特定设备在目标应用下的设备状态恢复至指定检查点,这可为目标应用提供正确的设备状态,从而保证目标应用的正常恢复。因此,本申请实施例中,通过对转储过程和恢复过程的改造,可保证目标应用在使用到有状态的特定设备的情况下,依然可以正常恢复。恢复。恢复。

【技术实现步骤摘要】
一种基于检查点的应用转储和恢复方法、设备及存储介质


[0001]本申请涉及云计算
,尤其涉及一种基于检查点的应用转储和恢复方法、设备及存储介质。

技术介绍

[0002]公共云面向多租户环境,对客户的各种突发性需求提供弹性供给的计算能力。通常许多HPC(High performance computing,高性能计算)应用都属于重载型应用,对计算资源的负载压力很大,并且很多应用需要多节点并行计算,因此,在云环境下,支持HPC应用弹性使用计算资源,是降低客户的总体拥有成本的一种重要手段。
[0003]目前,云环境中计算节点的结构不断多样化,在计算节点上支持应用运行的底层逻辑也不断多样化,这导致按照传统的检查点和恢复(checkpoint and restart,CR)方案将HPC应用的内存数据简单地进行拷贝后,经常出现HPC应用无法恢复的问题,从而无法支持HPC应用弹性使用计算资源。

技术实现思路

[0004]本申请的多个方面提供一种基于检查点的应用转储和恢复方法、设备及存储介质,用以更好地支持应用的转储和恢复。
[0005]本申请实施例提供一种基于检查点的应用转储方法,适用于计算节点,所述计算节点上装配有目标特定设备,所述方法包括:
[0006]响应于针对目标应用的检查点创建指令,获取所述目标特定设备在所述目标应用下的状态描述信息,所述状态描述信息用于支持将所述目标特定设备在所述目标应用下的设备状态恢复至当前检查点;
[0007]将所述状态描述信息添加至为所述目标应用构建的检查点文件中;
[0008]对所述检查点文件进行转储,以在将所述目标应用恢复至所述当前检查点时基于所述状态描述信息对所述目标特定设备的设备状态进行恢复。
[0009]本申请实施例还提供一种基于检查点的应用恢复方法,适用于计算节点,所述计算节点上装配有目标特定设备,所述方法包括:
[0010]响应于将目标应用恢复至指定检查点的恢复指令,获取所述目标应用在所述指定检查点对应的检查点文件;
[0011]从所述检查点文件中读取所述目标特定设备在所述目标应用下的状态描述信息;
[0012]根据所述状态描述信息,将所述目标特定设备在所述目标应用下的设备状态恢复至所述指定检查点,以将所述目标应用恢复至所述指定检查点。
[0013]本申请实施例还提供一种计算节点,包括存储器、处理器和通信组件;
[0014]所述存储器用于存储一条或多条计算机指令;
[0015]所述处理器与所述存储器和所述通信组件耦合,用于执行所述一条或多条计算机指令,以用于执行前述的基于检查点的应用转储方法或前述的基于检查点的应用恢复方
法。
[0016]本申请实施例还一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的基于检查点的应用转储方法或前述的基于检查点的应用恢复方法。
[0017]在本申请实施例中,在基于检查点对目标应用进行转储的过程中,开拓性地提出了为计算节点上装配的目标特定设备整合出在目标应用下的状态描述信息,并将该状态描述信息添加到为目标应用构建的检查点文件中,这样,检查点文件中除了包含传统的应用恢复所需内容外,还增加了用于支持将目标特定设备在目标应用下的设备状态恢复至指定检查点的状态描述信息。在此基础上,在基于检查点对目标应用进行恢复的过程中,可从检查点文件中读取到该状态描述信息,并基于该状态描述信息将目标特定设备在目标应用下的设备状态恢复至指定检查点,这可为目标应用提供正确的设备状态,从而保证目标应用的正常恢复。因此,本申请实施例中,通过对转储过程和恢复过程的改造,可保证目标应用在使用到有状态的特定设备的情况下,依然可以正常恢复。
附图说明
[0018]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0019]图1为本申请一示例性实施例提供的一种基于检查点的应用转储方法的流程示意图;
[0020]图2为本申请一示例性实施例提供的一种基于检查点的应用转储方法的逻辑示意图;
[0021]图3为本申请一示例性实施例提供的一种基于检查点的应用恢复方法的流程示意图;
[0022]图4为本申请一示例性实施例提供的一种基于检查点的应用恢复方法的逻辑示意图;
[0023]图5为本申请另一示例性实施例提供的一种计算节点的结构示意图。
具体实施方式
[0024]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]目前,经常出现HPC应用无法恢复的问题,从而无法支持HPC应用弹性使用计算资源。为此,本申请的一些实施例中:在基于检查点对目标应用进行转储的过程中,开拓性地提出了为计算节点上装配的目标特定设备整合出在目标应用下的状态描述信息,并将该状态描述信息添加到为目标应用构建的检查点文件中,这样,检查点文件中除了包含传统的应用恢复所需内容外,还增加了用于支持将目标特定设备在目标应用下的设备状态恢复至指定检查点的状态描述信息。在此基础上,在基于检查点对目标应用进行恢复的过程中,可从检查点文件中读取到该状态描述信息,并基于该状态描述信息将目标特定设备在目标应
用下的设备状态恢复至指定检查点,这可为目标应用提供正确的设备状态,从而保证目标应用的正常恢复。因此,本申请实施例中,通过对转储过程和恢复过程的改造,可保证目标应用在使用到有状态的特定设备的情况下,依然可以正常恢复。
[0026]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0027]图1为本申请一示例性实施例提供的一种基于检查点的应用转储方法的流程示意图,图2为本申请一示例性实施例提供的一种基于检查点的应用转储方法的逻辑示意图。该方法可由数据处理装置执行,该数据处理装置可实现为软件、硬件或软件与硬件的结合,该数据处理装置可集成在计算节点中。参考图1,该方法可包括:
[0028]步骤100、响应于针对目标应用的检查点创建指令,获取目标特定设备在目标应用下的状态描述信息,状态描述信息用于支持将目标特定设备在目标应用下的设备状态恢复至当前检查点;
[0029]步骤101、将状态描述信息添加至为目标应用构建的检查点文件中;
[0030]步骤102、对检查点文件进行转储,以在将目标应用恢复至当前检查点时基于状态描述信息对目标特定设备的设备状态进行恢复。
[0031]本实施例提供的应用转储方法,可适用于需要对应用进行转储

恢复的场景中。例如,在云环境中支持应用弹性使用资源的场本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于检查点的应用转储方法,适用于计算节点,所述计算节点上装配有目标特定设备,所述方法包括:响应于针对目标应用的检查点创建指令,获取所述目标特定设备在所述目标应用下的状态描述信息,所述状态描述信息用于支持将所述目标特定设备在所述目标应用下的设备状态恢复至当前检查点;将所述状态描述信息添加至为所述目标应用构建的检查点文件中;对所述检查点文件进行转储,以在将所述目标应用恢复至所述当前检查点时基于所述状态描述信息对所述目标特定设备的设备状态进行恢复。2.根据权利要求1所述的方法,所述状态描述信息中包含所述目标特定设备在所述目标应用中至少一个进程下的状态描述数据,在响应于针对目标应用的检查点创建指令之前,所述方法还包括:在所述当前检查点对应的时刻之前,若监听到所述目标应用中的目标进程发起针对所述目标特定设备的状态访问操作,则获取所述状态访问操作对应的状态描述数据,所述状态访问操作对应的状态描述数据用于计算需返回所述目标进程的设备状态;将所述目标特定设备在所述目标进程下的状态描述数据,更新为所述状态访问操作对应的状态描述数据;其中,所述目标进程为所述目标应用中运行在所述计算节点上的任意进程。3.根据权利要求2所述的方法,所述获取所述状态访问操作对应的状态描述数据,包括:确定所述目标特定设备对应的目标设备类型;调用所述目标设备类型所适配的数据采集接口,采集所述状态访问操作对应的状态描述信息;其中,不同设备类型适配不同的数据采集接口,数据采集接口中定义有其支持的设备类型下所需采集的信息项及采集逻辑。4.根据权利要求2所述的方法,还包括:拦截所述状态访问操作;利用预置的守护进程基于获取到的所述状态描述数据,计算需返回所述目标进程的设备状态;利用所述守护进程将计算出的所述设备状态返回至所述目标进程,作为对所述状态访问操作的响应。5.根据权利要求1

4任一项所述的方法,所述状态描述信息包括所述目标特定设备中设备寄存器的标识、设备寄存器的属性、设备寄存器的状态值、设备内存的状态值、设备驱动软件的状态值、用于支持状态转换的上下文信息和用于支持状态映射的映射关系中的一种或多种。6.根据权利要求2所述的方法,所述状态描述信息存储在为所述目标应用分配的指定内存区域中,将所述目标特定设备在所述目标进程下的状态描述数据,更新为所述状态访问操作对应的状态描述数据息,包括:将所述指定内存区域中,将所述目标特定设备在所述目标进程下的状态描述数据,更新为所述状态访问操作对应的状态描述数据。
7.根据权利要求1所述的方法,还包括:响应于将所述目标应用恢复至所述当前检查...

【专利技术属性】
技术研发人员:林沐晖
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1