全栈式高性能计算集群监控系统技术方案

技术编号:35864054 阅读:21 留言:0更新日期:2022-12-07 10:55
本发明专利技术公开了全栈式高性能计算集群监控系统,包括监控模块、性能测试模块、挖矿程序清理模块和数据信息安全防御模块;所述监控模块用于对各计算节点的数据进行采集和汇总,再经过归一化处理,对当前高性能计算集群应用程序进行辅助监控,提升判断高性能计算集群应用运行状态的准确率;所述性能测试模块用于通过确定测试平台、进行系统部署、进行系统性能测试、进行应用部署、进行应用测试以及对数据进行分析。本发明专利技术通过设置监控模块能够对各计算节点的数据进行采集和汇总,再经过归一化处理,对当前高性能计算集群应用程序进行辅助监控,提升判断高性能计算集群应用运行状态的准确率,明显提高高性能集群应用程序运行可控性和稳定性。定性。定性。

【技术实现步骤摘要】
全栈式高性能计算集群监控系统


[0001]本专利技术属于监控系统
,具体涉及全栈式高性能计算集群监控系统。

技术介绍

[0002]很多现代项目开发,需要掌握多种技术,以减少沟通成本、解决人手不够资源紧张、问题闭环的问题。全栈对业务的价值很大,如对于整个业务的统筹、技术方案的判断选型、问题的定位解决等,全栈技术能力有重要影响。另外对于各种人才配套不是很齐全的创业公司,全栈能解决各种问题,独挡多面,节省成本,能在早期促进业务快速发展。
[0003]传统的高性能集群的采购成本高,交付周期长,全栈式高性能计算优点:即时获取HPC资源;支持机时、按月、按季、按年等多种计费模式,节约客户成本;海量弹性的计算和存储满足业务的谷峰,快速完成计算任务;采用最新的Intel和AMD平台CPU,以及最新的V100/P100 GPU和FPGA等多种计算资源轻松应对最新的应用需求;行业解决方案提供便捷的SaaS应用集成;通过图形化的交互方式完成对应的作业流程,使用户可以专注应用创新。
[0004]目前现有的全栈式高性能计算集群监控系统还存在一些问题:传统的高性能计算集群应用程序的运行状态不方便进行判断,判断的准确率降低,导致高性能集群应用程序运行可控性和稳定性降低,另外如何发现系统隐藏的挖矿程序并且进行删除和清理,为高新能计算集群提供系统安全保障,是现在监控系统需要解决的问题。

技术实现思路

[0005]本专利技术的目的在于提供全栈式高性能计算集群监控系统,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:全栈式高性能计算集群监控系统,包括监控模块、性能测试模块、挖矿程序清理模块和数据信息安全防御模块;
[0007]所述监控模块用于对各计算节点的数据进行采集和汇总,再经过归一化处理,对当前高性能计算集群应用程序进行辅助监控,提升判断高性能计算集群应用运行状态的准确率;
[0008]所述性能测试模块用于通过确定测试平台、进行系统部署、进行系统性能测试、进行应用部署、进行应用测试以及对数据进行分析,能够测试系统性能状态,并快速获取应用软件特征;
[0009]所述挖矿程序清理模块用于通过对常规挖矿程序清理过程进行改进,利用开源工具并编写自己的监控脚本,使其能快速找到高性能计算集群系统下的隐藏挖矿程序及其网络转发方式并清理;
[0010]所述数据信息安全防御模块用于通过防火墙实现内部网络与外部网络通讯的安全性,并对内容进行过滤和入侵防护,采用纵深化、层次化和主动式的安全防御防御的原则,实现对信息的主动防御的功能,在防御的同时,还能够对各个节点的监控,防止入侵检测和病毒的蔓延,提高信息的安全性能。
[0011]优选的,所述监控系统还包括基础层、中间层和应用层,所述基础层包括监控主机和底层资源,所述底层资源包括cpu、内存、网络吞吐、硬盘I/O和硬盘使用,所述中间层包括nginx、Redis、MQ、MySQL和Tomcat,所述应用层包括HTTP访问的吞吐量、响应时间、返回码、调用链路分析、性能瓶颈和用户端的监控。
[0012]优选的,所述监控系统还包括日志系统,所述日志系统用于存放所述基础层、中间层和应用层的数据,所述日志系统用于对日志数据进行格式化、对监控数据格式进行标准化以及进行统一的日志分析。
[0013]优选的,所述监控模块包括采集单元、数据处理单元、训练单元和异常预测单元,所述采集单元用于采集各计算节点的数据,所述数据处理单元用于将数据进行阈值预处理和归一化处理,所述训练单元用于将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM,所述异常预测单元用于将经阈值预处理和归一化处理后的单一数据输入深度网络LSTM内进行高性能计算集群应用异常预测。
[0014]优选的,所述挖矿程序清理模块中清理挖矿程序的方法具体为:
[0015]S1.判断计算节点集群中是否存在挖矿程序;
[0016]S2.获取挖矿程序进程号:所述获取挖矿程序进程号的方法是:判断挖矿程序是否隐藏进程号,如果没有隐藏,则直接获取进程号,如果隐藏,则利用开源工具进行查找隐藏挖矿程序进程号;
[0017]S3.根据进程号查询与其交互的可上互联网的通信节点,查看该通信节点并关闭挖矿程序的数据流。
[0018]优选的,所述数据信息安全防御模块包括主动防御单元、协议分析单元、防火墙单元和监控单元,所述主动防御单元用于采用纵深化、层次化和主动式的安全防御防御的原则,实现对信息的主动防御的功能,所述协议分析单元用于实现对所述监控单元、防火墙单元起到支撑的作用,所述防火墙单元用于实现内部网络与外部网络通讯的安全性,所述监控单元用于实现内容过滤和入侵防护。
[0019]优选的,所述主动防御单元包括安全预警单元、安全保护单元、安全监测单元、安全响应单元、系统恢复单元和安全反击单元,所述安全预警单元包括漏洞预警单元、行为预警单元和攻击趋势预警单元,所述漏洞预警单元用于为用户提供打补丁的机会,所述行为预警单元和攻击趋势预警单元用于通过观察网络不正常流量,来预测网络中存在的攻击行为,所述安全保护单元用于实现网络病毒防护和木马查杀,防止网络木马和病毒的蔓延,所述安全监测单元用于采用软件或硬件关联规则分析技术进行挖掘,所述安全响应单元用于阻断防御系统的安全威胁,所述系统恢复单元采用在线增量备份模式,实现对资源信息的备份,所述安全反击单元用于实现对攻击源的破坏。
[0020]优选的,所述监控系统中通过决策因子的实时数据,计算HTTP访问的吞吐量,公式计算如下:
[0021][0022]其中,P为决策系数,Ei为决策因子i的实时数据,Eimax为决策因子i当前的上限值,Wi为决策因子i的权重。
[0023]优选的,所述性能测试模块中根据以下公式确定线程并行数:
[0024][0025]其中,P为线程并行数;X为输入数据量;S为单线程的预设数据处理速度。
[0026]优选的,所述数据信息安全防御模块还用于通过贝叶斯网络机器学习算法,基于已有的数据集和建立的风险评估模型,根据所采集的信息,对网络安全进行评估打分,具体包括以下步骤:
[0027]步骤一、分类级别的定义:包含A,B,C,D,E五种等级,其中A等级所代表的安全防护程度最高,E等级所代表的安全防护程度最低,根据贝叶斯定理可知,所采集的数据信息属于某一等级的概率为:
[0028][0029]其中,向量X为所采集的事件集合,变量c以及k为某一特定风险等级,具体而言,P(C=c|X=x)为所采集事件集合的风险等级的条件概率,P(C=c)为风险等级的先验概率,P(X=x|C=c)为根据所采集事件计算的不同等级的概率,分母为所采集事件本身的先验概率;
[0030]步骤二、借助朴素贝叶斯的思想,对特征向量X进行假设:即假设X中每一维的特征都是相互独立的,特征与特征之间不存在任何联系,得到公式:
[0031][0032]其中,向量X为所采集所有事件的集合,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.全栈式高性能计算集群监控系统,其特征在于:包括监控模块、性能测试模块、挖矿程序清理模块和数据信息安全防御模块;所述监控模块用于对各计算节点的数据进行采集和汇总,再经过归一化处理,对当前高性能计算集群应用程序进行辅助监控,提升判断高性能计算集群应用运行状态的准确率;所述性能测试模块用于通过确定测试平台、进行系统部署、进行系统性能测试、进行应用部署、进行应用测试以及对数据进行分析,能够测试系统性能状态,并快速获取应用软件特征;所述挖矿程序清理模块用于通过对常规挖矿程序清理过程进行改进,利用开源工具并编写自己的监控脚本,使其能快速找到高性能计算集群系统下的隐藏挖矿程序及其网络转发方式并清理;所述数据信息安全防御模块用于通过防火墙实现内部网络与外部网络通讯的安全性,并对内容进行过滤和入侵防护,采用纵深化、层次化和主动式的安全防御防御的原则,实现对信息的主动防御的功能,在防御的同时,还能够对各个节点的监控,防止入侵检测和病毒的蔓延,提高信息的安全性能。2.根据权利要求1所述的全栈式高性能计算集群监控系统,其特征在于:所述监控系统还包括基础层、中间层和应用层,所述基础层包括监控主机和底层资源,所述底层资源包括cpu、内存、网络吞吐、硬盘I/O和硬盘使用,所述中间层包括nginx、Redis、MQ、MySQL和Tomcat,所述应用层包括HTTP访问的吞吐量、响应时间、返回码、调用链路分析、性能瓶颈和用户端的监控。3.根据权利要求2所述的全栈式高性能计算集群监控系统,其特征在于:所述监控系统还包括日志系统,所述日志系统用于存放所述基础层、中间层和应用层的数据,所述日志系统用于对日志数据进行格式化、对监控数据格式进行标准化以及进行统一的日志分析。4.根据权利要求1所述的全栈式高性能计算集群监控系统,其特征在于:所述监控模块包括采集单元、数据处理单元、训练单元和异常预测单元,所述采集单元用于采集各计算节点的数据,所述数据处理单元用于将数据进行阈值预处理和归一化处理,所述训练单元用于将经阈值预处理和归一化处理后的数据训练形成深度网络LSTM,所述异常预测单元用于将经阈值预处理和归一化处理后的单一数据输入深度网络LSTM内进行高性能计算集群应用异常预测。5.根据权利要求1所述的全栈式高性能计算集群监控系统,其特征在于:所述挖矿程序清理模块中清理挖矿程序的方法具体为:S1.判断计算节点集群中是否存在挖矿程序;S2.获取挖矿程序进程号:所述获取挖矿程序进程号的方法是:判断挖矿程序是否隐藏进程号,如果没有隐藏,则直接获取进程号,如果隐藏,则利用开源工具进行查找隐藏挖矿程序进程号;S3.根据进程号查询与其交互的可上互联网的通信节点,查看该通信节点并关闭挖矿程序的数据流。6.根据权利要求1所述的全栈式高性能计算集群监控系统,其特征在于:所述数据信息安全防御模块包括主动防御单元、协议分析单元、防火墙单元和监控单元,所述主动防御...

【专利技术属性】
技术研发人员:王玲
申请(专利权)人:南京信易达计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1