任务迁移系统技术方案

技术编号:5295430 阅读:202 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种任务迁移系统和方法,该系统包括:参数设置模块,用于设置任务迁移参数;任务提交和运行模块,用于提交并行任务并且运行并行任务;作业状态检测模块,用于检测任务运行状态,并将任务运行状态通知给任务迁移模块;以及任务迁移模块,用于在故障检测模块检测到故障的情况下,根据所设置的任务迁移参数调度出现异常中断的并行任务并使其继续运行。本发明专利技术通过利用断点/重启功能,实现了在任务由于异常被中断后利用保存的断点信息重新启动并行任务运行,并且实现了并行任务重启后无需手工干预运行。

【技术实现步骤摘要】

本专利技术涉及气象处理领域,尤其涉及一种任务迁移系统
技术介绍
数值天气预报水平的高低目前已经成为了衡量世界各国气象事业现代化程度的 重要标志,而气象预报也已经从传统的建立在天气气候定性理论、数值统计与预报员经 验基础上的半经验半理论的定性方法,发展到了以大气科学理论为基础,综合运用科技 最新成就,在高性能计算机平台上完成的现代气象数值预报。因此,进一步研发中国的 气象数值预报创新技术,是提高我国气象预测水平、使之满足国家多方面对气象服务需 求的最根本的科学途径。目前,气象业务处理系统通常采用并行处理。并行任务的完成通常需要多个计 算节点协作完成,在任务量比较大的情况下,并行任务的完成通常需要较多的时间,大 多数的并行任务如果出现异常被中断,那么只能从头开始运行,这对计算资源和时间有 要求的任务是重要影响。部分并行任务采用修改自身结构,利用定时保存运行结果,以实现从保存处重 新启动任务。这种情况通常工作量较大,而且需要针对每个任务修改其结构,不具备通 用性。目前运行业务系统并行任务过程中如果某个计算节点出现问题而导致业务被中 断那么业务必须重新从头开始运行,在任务运行时间较长情况下极其损耗资源,无法保 证业务系统顺利完成,需要实现一种通用的可中途启动作业的系统。如果业务系统被中断,需要人工手动重新修改运行参数来启动业务运行;在实 际业务系统要求每天定时运行情况下维护成本太大。
技术实现思路
针对相关技术中存在的一个或多个问题,本专利技术的目的在于提供一种,以解决 上述问题中的至少之一。为实现上述目的,根据本专利技术的一个方面,提供了一种任务迁移系统,该系统 包括参数设置模块,用于设置任务迁移参数;任务提交和运行模块,用于提交并行任 务并且运行并行任务;作业状态检测模块,用于检测任务运行状态,并将任务运行状态 通知给任务迁移模块;以及任务迁移模块,用于在故障检测模块检测到故障的情况下, 根据所设置的任务迁移参数调度出现异常中断的并行任务并使其继续运行。优选地,任务迁移参数包括断点信息。优选地,任务迁移模块包括迁移模块,用于根据与出现异常中断的并行任务 最近的断点的断点信息调度出现异常中断的并行任务;以及作业重启模块,用于将断点 信息通知给任务提交和运行模块,并指示任务提交和运行模块从断点重启出现异常中断 的并行任务。优选地,断点信息包括断点间隔和保存位置。优选地,该任务迁移系统用于气象业务处理。为实现上述目的,根据本专利技术的另一个方面,提供了一种任务迁移方法,该方 法包括通过参数设置模块设置任务迁移参数;通过任务提交和运行模块提交并行任务 并且运行并行任务;在运行并行任务期间,通过作业状态检测模块检测任务运行状态; 以及在故障检测模块检测到故障的情况下,根据所设置的任务迁移参数通过任务迁移模 块调度出现异常中断的并行任务并使其继续运行。优选地,任务迁移参数包括断点信息。优选地,任务迁移的处理包括根据与出现异常中断的并行任务最近的断点的 断点信息,通过任务迁移模块调度出现异常中断的并行任务;以及根据断点信息通过任 务提交和运行模块从断点重启出现异常中断的并行任务。优选地,断点信息包括断点间隔和保存位置。优选地,该任务迁移方法用于气象业务处理。本专利技术通过利用断点/重启功能,实现了在任务由于异常被中断后利用保存的 断点信息重新启动并行任务运行,并且实现了并行任务重启后无需手工干预运行。附图说明图1是根据本专利技术的实施例的任务迁移系统的框图;图2是根据本专利技术的实施例的任务迁移模块的框图;图3是根据本专利技术的实施例的任务迁移方法的流程图;以及图4是根据本专利技术的实施例的上述任务迁移的处理的流程图。具体实施例方式图1是根据本专利技术的实施例的任务迁移系统的框图。如图1所示,根据本专利技术 的实施例的任务迁移系统包括参数设置模块102,用于设置任务迁移参数;任务提交 和运行模块104,用于提交并行任务并且运行并行任务;作业状态检测模块106,用于检 测任务运行状态,并将任务运行状态通知给任务迁移模块;以及任务迁移模块108,用 于在故障检测模块检测到故障的情况下,根据所设置的任务迁移参数调度出现异常中断 的并行任务并使其继续运行。其中,任务迁移参数包括断点信息。图2是根据本专利技术的实施例的任务迁移模块的框图。如图2所示,该任务迁移 模块102包括迁移模块1022,用于根据与出现异常中断的并行任务最近的断点的断点 信息调度出现异常中断的并行任务;以及作业重启模块1024,用于将断点信息通知给任 务提交和运行模块,并指示任务提交和运行模块从断点重启出现异常中断的并行任务。其中,断点信息包括断点间隔和保存位置。根据本专利技术的实施例的上述任务迁移系统可以用于气象业务处理。图3是根据本专利技术的实施例的任务迁移方法的流程图。如图3所示,根据本发 明的实施例的任务迁移方法包括步骤S302,通过参数设置模块设置任务迁移参数;步骤S304,通过任务提交和运行模块提交并行任务并且运行并行任务;步骤S306,在运行并行任务期间,通过作业状态检测模块检测任务运行状态; 以及步骤S308,在故障检测模块检测到故障的情况下,根据所设置的任务迁移参数 通过任务迁移模块调度出现异常中断的并行任务并使其继续运行。其中,任务迁移参数包括断点信息。图4是根据本专利技术的实施例的上述任务迁移的处理的流程图。如图4所示,该 处理包括步骤S402,根据与出现异常中断的并行任务最近的断点的断点信息,通过任务 迁移模块调度出现异常中断的并行任务;以及步骤S404,根据断点信息通过任务提交和运行模块从断点重启出现异常中断的 并行任务。其中,断点信息包括断点间隔和保存位置。根据本专利技术的实施例的上述任务迁移方法可以用于气象业务处理。本专利技术通过利用Checkpoint/Restart (断点/重启)功能,实现了在任务由于异常 被中断后利用保存的断点信息重新启动并行任务运行,并且实现了并行任务重启后无需 手工干预运行。以上所述仅为本专利技术的优选实施例而已,并不用于限制本专利技术,对于本领域的 技术人员来说,本专利技术可以有各种更改和变化。凡在本专利技术的精神和原则之内,所作的 任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。权利要求1.一种任务迁移系统,其特征在于,所述系统包括 参数设置模块,用于设置任务迁移参数;任务提交和运行模块,用于提交并行任务并且运行所述并行任务; 作业状态检测模块,用于检测任务运行状态,并将任务运行状态通知给任务迁移模 块;以及任务迁移模块,用于在所述故障检测模块检测到故障的情况下,根据所设置的任务 迁移参数调度出现异常中断的并行任务并使其继续运行。2.根据权利要求1所述的系统,其特征在于,所述任务迁移参数包括断点信息。3.根据权利要求2所述的系统,其特征在于,所述任务迁移模块包括迁移模块,用于根据与出现异常中断的并行任务最近的断点的断点信息调度所述出 现异常中断的并行任务;以及作业重启模块,用于将所述断点信息通知给所述任务提交和运行模块,并指示所述 任务提交和运行模块从所述断点重启所述出现异常中断的并行任务。4.根据权利要求3所述的系统,其特征在于,所述断点信息包括断点间隔和保存 位置。5.根据权利要求1至4中任一项所述的系统,其特征在于,所述任务迁移系统用于气 象业务本文档来自技高网...

【技术保护点】
一种任务迁移系统,其特征在于,所述系统包括:参数设置模块,用于设置任务迁移参数;任务提交和运行模块,用于提交并行任务并且运行所述并行任务;作业状态检测模块,用于检测任务运行状态,并将任务运行状态通知给任务迁移模块;以及任务迁移模块,用于在所述故障检测模块检测到故障的情况下,根据所设置的任务迁移参数调度出现异常中断的并行任务并使其继续运行。

【技术特征摘要】

【专利技术属性】
技术研发人员:秦东明曹振南吴宏文马少杰陈伟
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1