一种基于LSTM的高性能计算集群应用监控方法及系统技术方案

技术编号:19933910 阅读:19 留言:0更新日期:2018-12-29 04:26
本发明专利技术提供一种基于LSTM的高性能计算集群应用监控方法及系统,所述方法包括:采集各计算节点的数据;将所述数据进行阈值预处理和归一化处理;将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM;将经阈值预处理和归一化处理后的数据输入深度网络LSTM内进行高性能计算集群应用异常预测。本发明专利技术能够对当前高性能计算集群应用程序进行辅助监控,有效提升判断高性能计算集群应用运行状态的准确率,明显提高高性能集群应用程序运行可控性和稳定性。

【技术实现步骤摘要】
一种基于LSTM的高性能计算集群应用监控方法及系统
本专利技术涉及高性能计算
,尤其涉及一种基于LSTM的高性能计算集群应用监控方法及系统。
技术介绍
高性能计算是计算机科学的一个分支,涉及到并行算法的研究、相关软件的开发以及高性能计算机的研制。随着科学技术的发展,高性能计算已深入到科学研究和国民生活的不同领域,其作用和重要性越来越明显。高性能计算集群通过各种互联技术将多个计算机系统连接在一起,提高整体系统的运算速度,可以达到每秒万亿次甚至更高的浮点计算能力,高性能计算集群对系统的处理器、内存带宽、存储、系统I/O等方面有非常高的要求,在气象预报、分子模拟、流体仿真、基因测序、生物制药和深度学习等领域有着广泛的应用。高性能计算的应用软件众多,但是大多数的高性能计算应用都有对计算系统性能要求高和运算时间长等特点,例如气象数值预报业务主要还是依托于高性能计算机完成,需要强大的计算性能,运行时间短则几十分钟,长则数小时甚至更长时间。再例如分子动力学模拟,除了对高性能计算机网络有很高要求外,一次作业任务运行时间甚至长达数天。然而在高性能计算应用长时间的运行过程中,有时会由于某些原因造成程序的异常运行,例如异常退出和运行变慢等,在运行初始阶段,用户很容易就可以根据自己的经验判断程序是否运行正常,而当程序正常启动运行之后,通常用户不会一直关注应用的运行状态,当程序在运行期间出现问题时就很难及时发现,只有当用户临时查看运行进度或者根据以往程序运行时间的经验值去获取结果数据时,才可能发现异常,然而这距离应用出现问题可能已经过去了很长一段时间,极大影响业务的进度,所以有效的监控高性能计算应用运行过程中的问题、及时发现异常状况,能够有效的避免因未及时发现问题而导致的影响。目前,现有技术对于程序运行中的异常退出,相对容易监控,可以通过接收程序的异常退出码实现对程序的异常退出监控,同时程序异常退出后,承载该程序的作业也将退出,用户可以及时获取到作业日志发现异常信息,作业的退出也意味着该作业使用计算资源的释放,对计算资源不会有产生浪费的情况。同时对于程序运行中的异常变慢,可能有很多种不同因素导致,例如常见的网络拥塞造成的网络延时增加、其他程序对内存带宽的抢占导致应用可占用的内存带宽变小和CPU温度过高造成的计算能力下降等。对于这些常见的因素,通常的处理办法是设置阈值,在阈值之内的认为当前程序在正常运行,而阈值之外认为当前程序运行异常,在设置阈值时,通常可设置多种不同类型的指标阈值。然而,对于设置阈值判断程序是否异常的机制存在如下问题:(1)在设置阈值时需要非常专业的行业领域经验,阈值范围设置的过大,容易遗漏异常运行的程序,阈值范围设置的过小,可能会误判正常运行的程序。(2)由于在不同时间段,应用程序指标可能会出现不同范围的值,而阈值一般情况下是不变的,很难适应于程序运行时的整个过程。(3)应用程序的指标参数众多,每个指标都设置阈值工作量非常大,多个指标的内在联系和相互影响也无法简单的通过阈值进行设置。(4)对于程序运行异常的判断不仅仅来自当前时刻的信息,之前一段时间的信息也可能会对程序运行产生影响,这个通过当前时刻的阈值判断是无法满足的。
技术实现思路
本专利技术提供的基于LSTM的高性能计算集群应用监控方法及系统,能够对当前高性能计算集群应用程序进行辅助监控,有效提升判断高性能计算集群应用运行状态的准确率,明显提高高性能集群应用程序运行可控性和稳定性。第一方面,本专利技术提供一种基于LSTM的高性能计算集群应用监控方法,包括:采集各计算节点的数据;将所述数据进行阈值预处理和归一化处理;将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM;将经阈值预处理和归一化处理后的数据输入深度网络LSTM内进行高性能计算集群应用异常预测。可选地,所述采集各计算节点的数据包括:采集各计算节点的数据;将所采集的数据通过套接字汇总到管理节点,并由管理节点进行数据的存储。可选地,所述将所述数据进行阈值预处理和归一化处理包括:判断按时间序列采集并处理的数据是否在第一阈值范围内,将在第一阈值范围内的数据执行归一化处理;或将超出第一阈值范围的数据作为异常数据;判断获取的单一数据是否在第二阈值范围内,将在第二阈值范围内的数据执行归一化处理;或将超出第一阈值范围的数据执行应用报警。可选地,所述将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM包括:将经阈值预处理和归一化处理后并在第一阈值范围内的数据作为正样本;增加预先制造程序异常运行情况所形成的负样本建立正负样本集;将正负样本集训练形成深度网络LSTM。可选地,在所述将经阈值预处理和归一化处理后的单一数据输入深度网络LSTM内进行高性能计算集群应用异常预测之后,所述方法还包括:当预测到所述高性能计算集群应用异常时,执行应用报警。第二方面,本专利技术提供一种基于LSTM的高性能计算集群应用监控系统,包括:采集模块,用于采集各计算节点的数据;数据处理模块,用于将所述数据进行阈值预处理和归一化处理;训练模块,用于将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM;异常预测模块,用于将经阈值预处理和归一化处理后的单一数据输入深度网络LSTM内进行高性能计算集群应用异常预测。可选地,所述采集模块包括:数据采集单元,用于采集各计算节点的数据;数据存储单元,用于将所采集的数据通过套接字汇总到管理节点,并由管理节点进行数据的存储。可选地,所述数据处理模块包括:阈值预处理单元,用于判断按时间序列采集并处理的数据是否在第一阈值范围内,以及判断获取的单一数据是否在第二阈值范围内;归一化处理单元,用于将在第一阈值范围内的数据执行归一化处理,以及将在第二阈值范围内的数据执行归一化处理;数据异常单元,用于将超出第一阈值范围的数据作为异常数据。可选地,所述训练模块包括:正样本形成单元,用于将经阈值预处理和归一化处理后并在第一阈值范围内的数据进行整理与标注,形成正样本;增加单元,用于增加预先制造程序异常运行情况所形成的负样本建立正负样本集;训练单元,用于将正负样本集训练形成深度网络LSTM。可选地,所述系统还包括:应用报警模块,用于执行应用报警。本专利技术实施例提供的基于LSTM的高性能计算集群应用监控方法及系统,所述方法通过将各计算节点的数据进行采集和汇总,不仅可以通过阈值预处理发现较为明显的异常值,同时还可以经过归一化处理,并利用LSTM对经阈值预处理和归一化处理后的数据进行学习训练形成深度网络LSTM,充分挖掘所采集的数据与应用运行状态之间的关系;进而挖掘出一段时间序列内的样本特征,对当前高性能计算集群应用程序进行辅助监控,有效提升判断高性能计算集群应用运行状态的准确率,明显提高高性能集群应用程序运行可控性和稳定性。附图说明图1为本专利技术一实施例基于LSTM的高性能计算集群应用监控方法的流程图;图2为本专利技术另一实施例数据采集的架构图;图3为本专利技术另一实施例深度网络LSTM数据训练的流程图;图4为本专利技术另一实施例基于LSTM的高性能计算集群应用监控方法的流程图;图5为本专利技术一实施例基于LSTM的高性能计算集群应用监控系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中本文档来自技高网
...

【技术保护点】
1.一种基于LSTM的高性能计算集群应用监控方法,其特征在于,包括:采集各计算节点的数据;将所述数据进行阈值预处理和归一化处理;将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM;将经阈值预处理和归一化处理后的数据输入深度网络LSTM内进行高性能计算集群应用异常预测。

【技术特征摘要】
1.一种基于LSTM的高性能计算集群应用监控方法,其特征在于,包括:采集各计算节点的数据;将所述数据进行阈值预处理和归一化处理;将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM;将经阈值预处理和归一化处理后的数据输入深度网络LSTM内进行高性能计算集群应用异常预测。2.根据权利要求1所述的方法,其特征在于,所述采集各计算节点的数据包括:采集各计算节点的数据;将所采集的数据通过套接字汇总到管理节点,并由管理节点进行数据的存储。3.根据权利要求1或2所述的方法,其特征在于,所述将所述数据进行阈值预处理和归一化处理包括:判断按时间序列采集并处理的数据是否在第一阈值范围内,将在第一阈值范围内的数据执行归一化处理;或将超出第一阈值范围的数据作为异常数据;判断获取的单一数据是否在第二阈值范围内,将在第二阈值范围内的数据执行归一化处理;或将超出第一阈值范围的数据执行应用报警。4.根据权利要求1或2所述的方法,其特征在于,所述将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM包括:将经阈值预处理和归一化处理后并在第一阈值范围内的数据进行整理与标注,形成正样本;增加预先制造程序异常运行情况所形成的负样本建立正负样本集;将正负样本集训练形成深度网络LSTM。5.根据权利要求1或2所述的方法,其特征在于,在所述将经阈值预处理和归一化处理后的单一数据输入深度网络LSTM内进行高性能计算集群应用异常预测之后,所述方法还包括:当预测到所述高性能计算集群应用异常时...

【专利技术属性】
技术研发人员:胡辰
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1