一种基于LSF平台的集群管理系统查错方法及装置制造方法及图纸

技术编号:14412585 阅读:126 留言:0更新日期:2017-01-12 00:34
本发明专利技术公开了一种基于LSF平台的集群管理系统查错方法及装置,该方法包括:获取计算任务管理主机中的计算任务;从计算任务中实时查找错误提示信息;藉由RSLIB系统并依据错误提示信息查找错误内容的位置;藉由RSLIB系统修改并反馈错误内容。该发明专利技术的有益效果为:可与现有负载均衡软件LSF进行兼容,使集群计算与商用软件对接,实现用户在实际应用时的实时快速反馈,并具有可以对用户的计算情况实现快速反馈的优点,能够解决用户使用时的错误修正问题,提高集群用户的使用效率;通过分类处理计算任务提高了同类问题的处理效率。

【技术实现步骤摘要】

本专利技术涉及高性能计算
,尤其涉及一种基于LSF平台的集群管理系统查错方法及装置
技术介绍
集群系统是一组通过高速网络互联的、相互独立的计算机,并且以单一系统的模式加以管理。集群系统正式通过充分利用集群中每一台计算机的资源,才使得复杂运算的并行处理得以实现。和传统高性能计算机技术相比,集群技术利用服务器作为节点,因此其造价低;在系统造价低廉的同时,又没有牺牲运算速度,能够完成大运算量的计算。除此之外,集群系统也具有较高的响应能力,能够满足当今日趋增加的信息服务的需求。随着并行计算技术的发展,集群系统的应用越来越广泛,集群系统在完成大规模的计算任务方面的优势越来越突出。集群是一种造价低廉、易于构筑,并具有较好可扩放性的体系结构,因此具有良好的应用前景。为了提高集群的利用率,各种集群管理系统相继产生。目前集群作业管理系统中作业调度常用的组织模式有3种,分别是集中式、分布式、层次式。目前被人们大量使用的集群管理系统有LSF(LoadSharingFacility)、PBS(便携式批处理系统,PortableBatchSystem)、SGE(Sun网格引擎,SunGrid)等。PBS、SGE、LSF是当今颇具代表性和影响力的几种集群作业管理系统。其中PBS、SGE是研究产品,LSF是商业软件。LSF是独立于平台,最终用户通过一组实用程序命令使用LSF的功能。LSF还提供一个API(ApplicationProgrammingInterface),该API是一个叫作负载共享库LSLIB(负载共享库,LoadSharingFacility)的运行时库,使用LSLIB明确要求用户修改应用程序代码,而使用实用程序命令则不必。在集群中的每一个服务器节点上必须启动两个LSFdaemon守护进程,一个是负载信息管理器LIMs,它定期收集和交换负载信息,另一个是远程执行服务器RES(远程执行服务器,RemoteExecutionServer),它为任何任务提供透明的远程执行。LSF管理系统实现了系统资源的整合、多用户的管理、用户权限的管理。其核心关键是对系统资源的整合,具体来说是针对资源组织管理与作业的调度,也是集群作业管理系统的关键技术。LSF相较于其他管理系统,有以下优势:(1)在作业调度的组织模式上,LSF支持层次式组织模式。(2)LSF的作业调度模式提供了可扩展的作业选取策略框架,支持多种作业选取策略,并允许用户自行确定策略,并提供了抢占式调度和关键资源保障,保证紧急作业的调度。LSF在资源分配上提供公平共享和独占式策略。(3)LSF支持核心级、用户级及应用程序级的进程迁移和检查点操作。但是,现有技术中,由于集群用户的使用都是独立的,用户使用集群没有和软件使用进行对接统一,故不同用户在集群进行高性能计算时,总会遇到各种出错,往往会遇到很多类似的错误。尤其使用同种软件的用户在做相关计算时,总有诸多类似的问题,致使用户为了解决同类问题时耗费大量的精力与时间。
技术实现思路
本专利技术要解决的技术问题在于,针对上述现有技术中在集群进行高性能计算时会遇到各种出错而导致为了解决同类问题时耗费大量的精力与时间的问题,提供一种基于LSF平台的集群管理系统查错方法及装置。本专利技术解决其技术问题所采用的技术方案是:一方面,构造一种基于LSF平台的集群管理系统查错方法,包括:获取计算任务管理主机中的计算任务;从所述计算任务中实时查找错误提示信息;藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;藉由所述RSLIB系统修改并反馈所述错误内容。在本专利技术所述的集群管理系统查错方法中,所述获取计算任务管理主机中的计算任务的步骤包括以下子步骤:收集所述计算任务管理主机所分解的计算任务;收集所述计算任务管理主机向多个计算节点所分发的计算任务。在本专利技术所述的集群管理系统查错方法中,所述从所述计算任务中实时查找错误提示信息的步骤包括以下子步骤:监测所述计算任务管理主机中的用户进程;若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。在本专利技术所述的集群管理系统查错方法中,所述藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置的步骤包括以下子步骤:藉由所述RSLIB系统分解所述错误提示信息;于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;查找所述错误提示信息中相应的命令段。在本专利技术所述的集群管理系统查错方法中,所述藉由所述RSLIB系统修改并反馈所述错误内容的步骤包括以下子步骤:对所述命令段进行修改并重新提交对应的计算任务;收集所述计算任务的运行结果;分类记录所述运行结果并将所述运行结果反馈至预设的供应端;其中,所述运行结果包括:所述计算任务运行成功;或者所述计算任务运行失败,经一至多次修改之后运行成功;或者所述计算任务运行失败,经多次修改之后仍运行失败。另一方面,提供一种基于LSF平台的集群管理系统查错装置,包括:任务获取模块,用于获取计算任务管理主机中的计算任务;错误查找模块,用于从所述计算任务中实时查找错误提示信息;位置查找模块,用于藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;修改反馈模块,用于藉由所述RSLIB系统修改并反馈所述错误内容。在本专利技术所述的集群管理系统查错装置中,所述任务获取模块包括:计算任务收集子模块,用户收集所述计算任务管理主机从用户端所接收的计算任务;分发任务收集子模块,用于收集所述计算任务管理主机向多个计算节点所分发的计算任务。在本专利技术所述的集群管理系统查错装置中,所述错误查找模块包括:进程检测子模块,用于监测所述计算任务管理主机中的用户进程;错误反馈子模块,用于若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。在本专利技术所述的集群管理系统查错装置中,所述位置查找模块包括:信息分解子模块,用于藉由所述RSLIB系统分解所述错误提示信息;相似度匹配子模块,用于于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;结果处理子模块,用于将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;命令段查找子模块,用于查找所述错误提示信息中相应的命令段。在本专利技术所述的集群管理系统查错装置中,所述修改反馈模块包括:任务修改子模块,用于对所述命令段进行修改并重新提交对应的计算任务;结果收集子模块,用于收集所述计算任务的运行结果;结果反馈子模块,用于分类记录所述运行结果并将所述运行结果反馈至预设的供应端;其中,所述运行结果包括:所述计算任务运行成功;或者所述计算任务运行失败,经一至多次修改之后运行成功;或者所述计算任务运行失败,经多次修改之后仍运行失败。上述公开的一种基于LSF平台的集群管理系统查错方法及装置具有以下有益效果:可与现有负载均衡软件LSF进行兼容,使集群计算与商用软件对接,实现用户在实际应用时的实时快速反馈,并具有可以对用户的计算情况实现快速反馈的优点,能够解决用户使用时的错误修正问题,提高集群用户本文档来自技高网
...
一种基于LSF平台的集群管理系统查错方法及装置

【技术保护点】
一种基于LSF平台的集群管理系统查错方法,其特征在于,包括:获取计算任务管理主机中的计算任务;从所述计算任务中实时查找错误提示信息;藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;藉由所述RSLIB系统修改并反馈所述错误内容。

【技术特征摘要】
1.一种基于LSF平台的集群管理系统查错方法,其特征在于,包括:获取计算任务管理主机中的计算任务;从所述计算任务中实时查找错误提示信息;藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置;藉由所述RSLIB系统修改并反馈所述错误内容。2.根据权利要求1所述的集群管理系统查错方法,其特征在于,所述获取计算任务管理主机中的计算任务的步骤包括以下子步骤:收集所述计算任务管理主机所分解的计算任务;收集所述计算任务管理主机向多个计算节点所分发的计算任务。3.根据权利要求1所述的集群管理系统查错方法,其特征在于,所述从所述计算任务中实时查找错误提示信息的步骤包括以下子步骤:监测所述计算任务管理主机中的用户进程;若于所述用户进程的生命周期内存在所述计算任务对应的错误提示信息,则实时向所述RSLIB系统反馈。4.根据权利要求1所述的集群管理系统查错方法,其特征在于,所述藉由RSLIB系统并依据所述错误提示信息查找错误内容的位置的步骤包括以下子步骤:藉由所述RSLIB系统分解所述错误提示信息;于所述RSLIB系统中预设的共享库中对所分解的错误提示信息进行相似度匹配;将相似度匹配的结果按照预设的优先级排序并反馈至用户端并接收所述用户端的确认信息以确认所述错误提示信息需更改;查找所述错误提示信息中相应的命令段。5.根据权利要求4所述的集群管理系统查错方法,其特征在于,所述藉由所述RSLIB系统修改并反馈所述错误内容的步骤包括以下子步骤:对所述命令段进行修改并重新提交对应的计算任务;收集所述计算任务的运行结果;分类记录所述运行结果并将所述运行结果反馈至预设的供应端;其中,所述运行结果包括:所述计算任务运行成功;或者所述计算任务运行失败,经一至多次修改之后运行成功;或者所述计算任务运行失败,经多次修改之后仍运行失败。6.一种基于LSF平台的集群管理系统查错装置,其特征在于,包括:任务获取模块,用于获取计算任务管...

【专利技术属性】
技术研发人员:都政李志伟刘建文陈远磊秦莉兰饶青雷
申请(专利权)人:国家超级计算深圳中心深圳云计算中心深圳云计算中心有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1