一种集群系统的负荷处理监控方法及装置制造方法及图纸

技术编号:15334300 阅读:77 留言:0更新日期:2017-05-16 21:35
本发明专利技术公开了一种集群系统的负荷处理监控方法及装置,用以实时准确地监控集群中服务器的负载状况,从而提高集群系统性能。本发明专利技术提供的一种集群系统的负荷处理监控方法,包括:获取集群系统中的多个主用服务器的负载信息;根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。

【技术实现步骤摘要】
一种集群系统的负荷处理监控方法及装置
本专利技术涉及通信
,尤其涉及一种集群系统的负荷处理监控方法及装置。
技术介绍
网元适配(NetworkElementAdapter,NEA)系统属于网元适配层,位于网元设备与网管系统的中间位置,起到一个中介的作用,它负责上级网管系统与网元设备之间的网络协议转换工作。由此可见,NEA系统在整个网管体系中起着重要的作用,如果NEA系统一旦出现故障将会造成整个网管系统的瘫痪和网元设备处于脱管状态的风险,这样就会给网元设备运营企业带来无可估量的经济损失。为提高NEA系统运行的可靠性,我们将两台或多台NEA服务器组成一个高可用(HighAvailability,HA)集群,这样当一台主用服务器出现极端故障时,通过将主用服务器上的资源全部切换到备用服务器上,使得备用服务器可以接替主用服务器进行工作。在传统的HA集群系统中,一般只简单检测服务器的“可用”与“不可用”两种极端状态。也就是,只检测服务器是否出现故障,包括硬件故障和软件进程是否存在两种情况。在硬件检测方面,主要通过简单网络管理协议(SimpleNetworkManagementProtocol,SNMP)监控NEA服务器各类硬件资源的运行状态,主要的监控对象包括网络适配器的工作状态、CPU、物理内存以及服务器电源的告警信息等,如果这些硬件资源任意一项出现严重故障,则认为NEA服务器已经处于故障态;在软件检测方面,仅仅局限在进程是否存在的层面上,它采用“Socket端口探测”机制探测进程,如果端口不可达则认为NEA服务器已经处于故障态。显然,仅对上述极端故障状态进行监控,无法对NEA系统起到全面的保护作用,只是片面的保护。在实际的运行过程中发现,发生极端故障的情况并不是很多,大多数的故障是NEA进程超负载后停止对外提供服务,比如内存溢出、系统间调用响应慢的问题等。而传统的HA集群系统对这些故障的监测是无能为力的,当然也就不会自动进行主备服务器的切换,但事实是NEA系统已无法使用,从而导致了上级网管系统对网元设备的脱管。综上所述,现有技术中对集群系统的监控,仅是对服务器的极端故障进行监控,并没有考虑到系统中服务器的负载状况对系统的影响,无法最大限度地降低系统的故障率,降低了系统的性能。
技术实现思路
本专利技术实施例提供了一种集群系统的负荷处理监控方法及装置,用以实时准确地监控集群中服务器的负载状况,提高集群系统的性能。本专利技术实施例提供的一种集群系统的负荷处理监控方法,包括:获取集群系统中的多个主用服务器的负载信息;根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。本专利技术实施例,通过获取集群系统中的多个主用服务器的负载信息,并根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。从而,可以实时准确地对集群中多个服务器的负载状况进行监控,以便根据需要对服务器的负荷进行及时处理,最大限度地降低了系统的故障率,有效提升了集群系统的性能。较佳地,根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理,具体包括:针对每一所述主用服务器:根据该主用服务器的负载信息,计算该主用服务器的负载权重值;根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理。较佳地,所述根据该主用服务器的负载信息,计算该主用服务器的负载权重值,具体包括:根据该主用服务器的负载信息,计算该主用服务器的综合负载值;将该主用服务器的综合负载值与预设的多个阈值范围进行对照,得出每一主用服务器对应的负载权重值,其中,每一阈值范围对应一个负载权重值。较佳地,所述该主用服务器的负载信息,具体包括:该主用服务器运行的每一进程对应的CPU占用率、内存占用率和响应时间。较佳地,所述根据该主用服务器的负载信息,计算该主用服务器的综合负载值,具体包括:根据该主用服务器运行的每一进程对应的CPU占用率计算该主用服务器的总CPU占用率;根据该主用服务器运行的每一进程对应的内存占用率,计算该主用服务器的总内存占用率;根据该主用服务器运行的每一进程对应的响应时间,计算该主用服务器的综合响应时间;将该主用服务器的总CPU占用率乘以预设的第一微调系数,得到第一乘积项;将所述该主用服务器的总内存占用率乘以预设的第二微调系数,得到第二乘积项;将所述该主用服务器的综合响应时间乘以预设的第三微调系数,得到第三乘积项;其中,所述第一微调系数、第二微调系数、第三微调系数的和为1;将所述第一乘积项、第二乘积项和第三乘积项求和,得到该主用服务器的综合负载值。较佳地,根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理,具体包括:当该主用服务器的负载权重值W小于3时,确定需要对该主用服务器进行负荷处理,其中W为0、1、2中的任意一个。较佳地,上述集群系统的负荷处理监控方法还包括:当确定需要对所述主用服务器进行负荷处理时,采用如下方式进行处理:将该主用服务器的3-W个资源组分配给备用服务器;其中,所述资源组包括该主用服务器运行的一个进程和该进程对应的一个浮动IP。本专利技术实施例,只要主用服务器的负载权重值W小于3,就对该主用服务器的负荷进行处理,不仅可以保证该主用服务器在发生极端故障(即W=0)时可以将该主用服务器的资源全部切换到备用服务器,还可以在该主用服务器的负载较重(即W=1或W=2)时,分配一部分该主用服务器的资源给备用服务器,从而,有效提高了系统中备用服务器的利用率,同时也使得系统中主用服务器时刻处于较佳的工作状态,最大限度地降低了系统的故障率,提升了系统的性能。较佳地,所述将该主用服务器的3-W个资源组分配给备用服务器之后,该方法还包括:当最新统计的该主用服务器的负载权重值在上一次统计得到的负载权重值的基础上增加n时,将所述备用服务器中对应该主用服务器的资源组分配n个给该主用服务器,其中n小于或等于3,且负载权重值增加后的该主用服务器的总负载权重值不大于3。本专利技术实施例提供的一种集群系统的负荷处理监控装置,包括:获取单元,用于获取集群系统中的多个主用服务器的负载信息;判断单元,用于根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。从而,可以实时准确地对集群中多个服务器的负载状况进行监控,以便根据需要对服务器的负荷进行及时处理,最大限度地降低了系统的故障率,有效提升了集群系统的性能。较佳地,所述判断单元具体用于:针对每一所述主用服务器:根据该主用服务器的负载信息,计算该主用服务器的负载权重值;根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理。较佳地,所述判断单元根据该主用服务器的负载信息,计算该主用服务器的负载权重值时,具体用于:根据该主用服务器的负载信息,计算该主用服务器的综合负载值;将该主用服务器的综合负载值与预设的多个阈值范围进行对照,得出每一主用服务器对应的负载权重值,其中,每一阈值范围对应一个负载权重值。较佳地,所述该主用服务器的负载信息,具体包括:该主用服务器运行的每一进程对应的CPU占用率、内存占用率和响应时间。较佳地,所述判断单元根据该主用服务器的负载信息,计算该主用服务器的综合负载值时,具体用于:根据该主用服务器运行的每本文档来自技高网
...
一种集群系统的负荷处理监控方法及装置

【技术保护点】
一种集群系统的负荷处理监控方法,其特征在于,该方法包括:获取集群系统中的多个主用服务器的负载信息;根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。

【技术特征摘要】
1.一种集群系统的负荷处理监控方法,其特征在于,该方法包括:获取集群系统中的多个主用服务器的负载信息;根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理。2.根据权利要求1所述的方法,其特征在于,根据所述多个主用服务器的负载信息,判断是否需要对所述多个主用服务器进行负荷处理,具体包括:针对每一所述主用服务器:根据该主用服务器的负载信息,计算该主用服务器的负载权重值;根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理。3.根据权利要求2所述的方法,其特征在于,所述根据该主用服务器的负载信息,计算该主用服务器的负载权重值,具体包括:根据该主用服务器的负载信息,计算该主用服务器的综合负载值;将该主用服务器的综合负载值与预设的多个阈值范围进行对照,得出每一主用服务器对应的负载权重值,其中,每一阈值范围对应一个负载权重值。4.根据权利要求3所述的方法,其特征在于,所述该主用服务器的负载信息,具体包括:该主用服务器运行的每一进程对应的CPU占用率、内存占用率和响应时间。5.根据权利要求4所述的方法,其特征在于,所述根据该主用服务器的负载信息,计算该主用服务器的综合负载值,具体包括:根据该主用服务器运行的每一进程对应的CPU占用率计算该主用服务器的总CPU占用率;根据该主用服务器运行的每一进程对应的内存占用率,计算该主用服务器的总内存占用率;根据该主用服务器运行的每一进程对应的响应时间,计算该主用服务器的综合响应时间;将该主用服务器的总CPU占用率乘以预设的第一微调系数,得到第一乘积项;将所述该主用服务器的总内存占用率乘以预设的第二微调系数,得到第二乘积项;将所述该主用服务器的综合响应时间乘以预设的第三微调系数,得到第三乘积项;其中,所述第一微调系数、第二微调系数、第三微调系数的和为1;将所述第一乘积项、第二乘积项和第三乘积项求和,得到该主用服务器的综合负载值。6.根据权利要求2-5任一权项所述的方法,其特征在于,根据该主用服务器的负载权重值,判断是否需要对该主用服务器进行负荷处理,具体包括:当该主用服务器的负载权重值W小于3时,确定需要对该主用服务器进行负荷处理,其中W为0、1、2中的任意一个。7.根据权利要求6所述的方法,其特征在于,该方法还包括:当确定需要对所述主用服务器进行负荷处理时,采用如下方式进行处理:将该主用服务器的3-W个资源组分配给备用服务器;其中,所述资源组包括该主用服务器运行的一个进程和该进程对应的一个浮动IP。8.根据权利要求7所述的方法,其特征在于,所述将该主用服务器的3-W个资源组分配给备用服务器之后,该方法还包括:当最新统计的该主用服务器的负载权重值在上一次统计得到的负载权重值的基础上增加n时,将所述备用服务器中对应该主用服务器的资源组分配n个给该主用服务器,其中n小于或等于3,且负载权重值增加后的该主用服务器的总负载权重值不大于3。9.一种集...

【专利技术属性】
技术研发人员:贺治国
申请(专利权)人:大唐移动通信设备有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1