用于辅助超级计算机的维护和优化的方法和系统技术方案

技术编号:19396786 阅读:50 留言:0更新日期:2018-11-10 05:03
本发明专利技术涉及一种用于辅助超级计算机的维护和优化的方法,所述方法包括由至少一个传感器将代表超级计算机的至少一个计算节点的统计数据的信号发送给用于辅助维护的系统,根据由传感器发送的代表统计数据的信号,按规律的间隔来预测统计数据的未来变化,检测由传感器发送的代表统计数据的信号的变化相对于在预测步骤中预测的未来变化的异常。本发明专利技术还涉及用于辅助维护和优化的系统。

【技术实现步骤摘要】
【国外来华专利技术】用于辅助超级计算机的维护和优化的方法和系统
本专利技术涉及超级计算机的领域。更特别地,本专利技术提出一种用于辅助超级计算机的维护和优化的方法和系统,以便实时检测异常从而优化超级计算机的运行。
技术介绍
公司经常借助于超级计算机来解决复杂问题。他们实际上是在寻找有效地进行计算,以满足他们的需求的可能性。这需要大型的基础设施。超级计算机有时包含数千台机器,以提供更佳的计算能力。例如,超级计算机TERA100具有超过3000个计算节点。另外,所有这些机器都是相互连接的,使基础设施更加复杂。由于这是在高性能计算(HPC)中特别使用的高速率网络,因此这些链接就更大了。除了这些超级计算机处理复杂问题的事实之外,它通常涉及关键性任务。这就是为什么除了考虑超级计算机的性能之外,提高后者的可靠性也很重要。事实上,现在可以说每隔半小时,通过这种基础设施就会出现一个关键性错误。除了这些潜在故障之外,还必须不断更新作为把网络分组从一台机器发送给另一台机器的路径的路由。事实上,按照超级计算机启动的应用,会出现拥塞现象。归因于如上所述的这种复杂性,人类分析是不可能的或者至少高度受限。事实上,在这种类型的关键系统中,发生错误后的反应时间通常太长,并且因此导致服务中断。因此,想法是提供一种工具来实时辅助网络的维护,以改善这种反应度,从而使服务中断降至最少。目的是提高超级计算机的可靠性。提高超级计算机的可靠性还意味着优化其使用,并且因此优化进行的计算的性能。文献US2014/0358833A1公开了一种处理环境的维护方法,更准确地说,公开了一种预测所述环境在未来某个时刻的异常状态的预测方法,所述方法包括获得处理系统的一个或多个参数的一个或多个值,以对于一个或多个指标测量(measure),确定为未来的一个或多个时间点预测的一个或多个值,从而根据所述预测值来确定一个或多个时间点的变化值,并根据一个或多个变化值来判定在处理系统中是否存在异常状态。但是,要处理的大量参数或数据可能会对异常的检测过程带来负担。另外,在US2014/0358833A1中公开的方法考虑会导致异常的错误预测或检测的一些任意参数。
技术实现思路
因此,本专利技术的目的是通过提出一种辅助超级计算机的维护和优化方法和系统,来消除现有技术的一个或多个缺点。所述方法和系统提高超级计算机的可靠性。提高超级计算机的可靠性也意味着优化其使用,从而优化进行的计算的性能。因此,一种用于辅助超级计算机的维护和优化的方法,所述方法包括:-由至少一个传感器将代表超级计算机的至少一个计算节点的统计数据的信号发送给用于辅助维护的系统的发送步骤;-通过由用于辅助维护的系统的处理器管理的预测算法,根据由一个或多个传感器发送并存储在用于辅助维护的系统的存储装置中的代表统计数据的信号,按规律的间隔预测所述统计数据的未来变化的预测步骤;-通过由处理器管理的检测算法,实时检测由一个或多个传感器发送的代表统计数据的信号的变化相对于在预测步骤中预测的未来变化的异常的检测步骤;所述方法的特征在于,对未来变化的预测步骤和对异常的检测步骤分别至少包括根据发送了实现维护和优化所述超级计算机所需的所述信号的所述一个或多个传感器,来对代表统计数据的所述信号进行的第一过滤和第二过滤。按照另一个特征,预测步骤包括以下步骤:-将由一个或多个传感器以代表统计数据的信号的形式发送的这些统计数据存储在存储装置中;-通过由处理器管理的建模算法,根据统计数据来构建预测数学模型,该模型存储在存储装置中;-通过由处理器管理的计算算法,根据所述预测数学模型来计算统计数据的未来变化以及为统计数据的未来变化定界的置信区间;-将所述未来变化和置信区间存储在存储装置中。按照另一个特定特征,预测数学模型的构建是通过由处理器管理的建模算法,根据来自于由一个或多个传感器从最后两个小时发送的代表统计数据的信号的这些统计数据而计算的。按照另一个特定特征,按六十分钟的规律间隔来实现预测步骤。按照另一个特定特征,检测步骤包括以下步骤:-通过由处理器管理的检测算法,将代表统计数据的信号与最后存储在存储装置中的未来变化和置信区间进行比较;-以异常表的形式,将由检测算法检测到的异常存储在存储装置中,异常是在代表统计数据的信号脱离置信区间和/或偏离未来变化时检测到的。按照另一个特定特征,预测步骤还包括在设定的时间间隔期间,通过由处理器管理的聚合算法对存储在存储装置中的统计数据进行的第一聚合步骤,检测步骤还包括在相同的时间间隔期间,通过处理器对由一个或多个传感器实时发送的代表统计数据的信号进行的第二聚合步骤。按照另一个特定特征,在预测步骤期间的、通过由所述处理器管理的过滤算法根据发送了代表统计数据的所述信号的所述一个或多个传感器来对这些统计数据进行的第一过滤步骤在构建步骤之前,在检测步骤中的、通过由所述处理器管理的过滤算法根据发送了代表统计数据的信号的所述一个或多个传感器来对这些代表性信号进行的第二过滤在比较步骤之前。按照另一个特定特征,过滤步骤允许过滤传感器,以只保留发送预测和/或检测异常所需的信号的传感器。按照另一个特定特征,预测步骤包括第一显示步骤,在第一显示步骤中,用于辅助维护的系统的处理器将代表未来变化的值的信号以及置信区间发送给显示装置,以由显示装置显示。按照另一个特定特征,检测步骤包括第二显示步骤,在第二显示步骤中,当检测算法检测到异常时,用于辅助维护的系统的处理器将代表由检测算法检测到的异常的信号发送给显示装置。按照另一个特定特征,还根据与超级计算机相关的信息来进行预测步骤,存储在超级计算机的存储区域中并且包含所述信息的数据被发送给用于辅助维护的系统。本专利技术还涉及一种用于辅助超级计算机的维护和优化的系统,所述系统包括计算机基础设施,所述计算机基础设施包括至少一个处理器和代表由位于所述超级计算机的至少一个计算节点中的至少一个传感器发送的统计数据的信号的存储装置,所述存储装置还至少包含:-预测算法,所述预测算法在所述处理器上的执行允许根据来自所述传感器的代表统计数据的信号,按规律的间隔来预测所述统计数据的未来变化,-检测算法,所述检测算法在所述处理器上的执行允许实时检测来自所述传感器的代表统计数据的信号的变化相对于由预测算法预测的变化的异常,所述系统的特征在于,所述系统还包括至少一个算法,所述至少一个算法在所述处理器上的执行允许根据发送了代表实现按照维护和优化方法所需的统计数据的所述信号的所述一个或多个传感器,来过滤代表这些统计数据的所述信号。按照另一个特定特征,所述计算机基础设施还包括:-存储在存储装置中的建模算法,所述建模算法能够根据存储在存储装置中的统计数据来构建预测数学模型,-存储在存储装置中的计算算法,所述计算算法能够根据所述预测数学模型来计算统计数据的未来变化以及为统计数据的未来变化定界的置信区间。按照另一个特定特征,检测算法能够将代表统计数据的信号与最后存储在存储装置中的未来变化和置信区间进行比较。按照另一个特定特征,所述计算机基础设施包括存储在存储装置中的至少一个聚合算法,所述聚合算法能够聚合存储在存储装置中的每分钟的统计数据,以及聚合由一个或多个传感器实时发送的代表统计数据的每分钟的信号。按照另一个特定特征,所述计算机基础设施还包括存储在存储装置中本文档来自技高网
...

【技术保护点】
1.一种用于辅助超级计算机(1)的维护和优化的方法,所述方法包括:‑由至少一个传感器(C1,C2,...,Cn)将代表超级计算机(1)的至少一个计算节点(N1,N2,...,Nn)的统计数据的信号发送给用于辅助维护的系统的发送步骤(100);‑通过由用于辅助维护的系统的处理器(4)管理的预测算法(10),根据由一个或多个传感器(C1,C2,...,Cn)发送并存储在用于辅助维护的系统的存储装置(3)中的代表统计数据的信号,按规律的间隔预测所述统计数据的未来变化的预测步骤(102);‑通过由处理器(4)管理的检测算法(9),实时检测由一个或多个传感器(C1,C2,...,Cn)发送的代表统计数据的信号的变化相对于在预测步骤(102)中预测的未来变化的异常的检测步骤(101);所述方法的特征在于,对未来变化的预测步骤(102)和对异常的检测步骤(101)分别至少包括根据发送了实现维护和优化所述超级计算机(1)所需的所述信号的所述一个或多个传感器,来对代表统计数据的所述信号进行的第一过滤(106b)和第二过滤(105b)。

【技术特征摘要】
【国外来华专利技术】2015.11.27 FR 15614651.一种用于辅助超级计算机(1)的维护和优化的方法,所述方法包括:-由至少一个传感器(C1,C2,...,Cn)将代表超级计算机(1)的至少一个计算节点(N1,N2,...,Nn)的统计数据的信号发送给用于辅助维护的系统的发送步骤(100);-通过由用于辅助维护的系统的处理器(4)管理的预测算法(10),根据由一个或多个传感器(C1,C2,...,Cn)发送并存储在用于辅助维护的系统的存储装置(3)中的代表统计数据的信号,按规律的间隔预测所述统计数据的未来变化的预测步骤(102);-通过由处理器(4)管理的检测算法(9),实时检测由一个或多个传感器(C1,C2,...,Cn)发送的代表统计数据的信号的变化相对于在预测步骤(102)中预测的未来变化的异常的检测步骤(101);所述方法的特征在于,对未来变化的预测步骤(102)和对异常的检测步骤(101)分别至少包括根据发送了实现维护和优化所述超级计算机(1)所需的所述信号的所述一个或多个传感器,来对代表统计数据的所述信号进行的第一过滤(106b)和第二过滤(105b)。2.按照权利要求1所述的方法,其特征在于,预测步骤(102)包括以下步骤:-将由一个或多个传感器(C1,C2,...,Cn)以代表统计数据的信号的形式发送的这些统计数据存储(102a)在存储装置(3)中;-通过由处理器(4)管理的建模算法(10a),根据统计数据来构建(102b)预测数学模型,该模型存储在存储装置(3)中;-通过由处理器(4)管理的计算算法(10b),根据所述预测数学模型来计算(102c)统计数据的未来变化以及为统计数据的未来变化定界的置信区间;-将所述未来变化和置信区间存储(102d)在存储装置(3)中。3.按照权利要求1和2所述的方法,其特征在于,预测数学模型的构建(102b)是通过由处理器(4)管理的建模算法(10a),根据来自于由一个或多个传感器(C1,C2,...,Cn)从最后两个小时发送的代表统计数据的信号的这些统计数据而计算的。4.按照权利要求1和2所述的方法,其特征在于,按六十分钟的规律间隔来实现预测步骤(102)。5.按照权利要求1-4之一所述的方法,其特征在于,检测步骤(101)包括以下步骤:-通过由处理器(4)管理的检测算法(9),将代表统计数据的信号与最后存储在存储装置(3)中的未来变化和置信区间进行比较(101a);-以异常表的形式,将由检测算法(9)检测到的异常存储在存储装置(3)中,异常是在代表统计数据的信号脱离置信区间和/或偏离未来变化时检测到的。6.按照权利要求1-5所述的方法,其特征在于,预测步骤(102)还包括在设定的时间间隔期间,通过由处理器(4)管理的聚合算法(7)对存储在存储装置(3)中的统计数据进行的第一聚合步骤(106a),检测步骤还包括在相同的时间间隔期间,通过处理器(4)对由一个或多个传感器(C1,C2,...,Cn)实时发送的代表统计数据的信号进行的第二聚合步骤(105a)。7.按照权利要求1-5所述的方法,其特征在于,在预测步骤(102)期间的、通过由所述处理器(4)管理的过滤算法(6)根据发送了代表统计数据的所述信号的所述一个或多个传感器(C1,C2,...,Cn)来对这些统计数据进行的第一过滤(106b)步骤在构建步骤(102a)之前,在检测步骤中的、通过由所述处理器(4)管理的过滤算法(6)根据发送了代表统计数据的信号的所述一个或多个传感器(C1,C2,...,Cn)来对这些代表性信号进行的第二过滤(105b)在比较步骤(101a)之前。8.按照权利要求1或7所述的方法,其特征在于,过滤步骤(106b、105b)允许过滤传感器(C1,C2,...,Cn)...

【专利技术属性】
技术研发人员:B·佩尔蒂埃J·贝利诺
申请(专利权)人:布尔简易股份公司
类型:发明
国别省市:法国,FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1