一种分析系统稳定性的方法及装置制造方法及图纸

技术编号:18662430 阅读:38 留言:0更新日期:2018-08-11 16:21
本发明专利技术实施例公开了一种分析系统稳定性的方法及装置,涉及计算机技术领域,能够提高监控系统稳定性的智能化程度和准确度。本发明专利技术包括:采集与监控指标关联的运行数据;利用不同的监控指标之间的相关性,从所采集的运行数据中选择待处理的运行数据,并确定波动范围;根据所述波动范围,获取系统当前的运行数据的异常情况。用于分析系统的稳定性。

A method and device for analyzing system stability

The embodiment of the invention discloses a method and device for analyzing the stability of the system, which relates to the field of computer technology and can improve the intelligence degree and accuracy of the stability of the monitoring system. The invention comprises: collecting the operation data associated with the monitoring index, selecting the operation data to be processed from the collected operation data by utilizing the correlation between different monitoring indexes, and determining the fluctuation range, and obtaining the abnormal situation of the current operation data of the system according to the fluctuation range. It is used to analyze the stability of the system.

【技术实现步骤摘要】
一种分析系统稳定性的方法及装置
本专利技术涉及计算机
,尤其涉及一种分析系统稳定性的方法及装置。
技术介绍
随着计算机技术和互联网技术的发展,中国的互联网产业的规模不断膨胀,大量的在线业务被不断地设计出来,为了保证这些在线业务正常运行,需要实时这些业务所在系统的运行状况目前,绝大多数系统监控采用针对某项系统运行指标设定阀值,通过比较运行值与阀值的大小来判断系统运行状态是否正常,但是这种静态的设置监控指标的监控方式,只能够解决一些较粗粒度的指标监控,比如监控CPU的负载情况、网络端口的阻塞情况等指标的监控,仅能够判定系统是否超载。并且在实际应用中,监控的效果不够智能、灵活,目前的监控策略往往都存在监控场景单一、判定方式僵化的问题,尤其是对于很多复杂情景下的系统运行状况,难以做出正确的判定。而为了提高系统的稳定性,最常见的方式是为系统进行扩容。在新系统申请或扩容时,也会参考指标监控评估出所需机器配置与数量。但是由于这些指标监控的阀值,往往又是根据人的经验确定,受个人经验影响,很不准确。
技术实现思路
本专利技术的实施例提供一种分析系统稳定性的方法及装置,能够提高监控系统稳定性的智能化程度和准确度。在目前已有的技术中通常是通过一些人为直接设定的指标来监控系统异常,往往受个人经验影响,较粗粒度的指标监控也已经难以保障系统监控的准确度。监控的准确度较低直接导致了系统扩容后往往都还需要调试系统,前后调试系统也需要很多时间。监控的准确度较低,也导致了在系统调试后,在线业务都很容易出现一些运行故障、事故,这就有需要分配相应的人力进行故障排查,从而增加了运营商的经营成本,占用了大量的人力资源。针对传统的系统监控手段中通过阀值来判断系统运行状况时暴露的缺陷:如监控场景单一、判定方式僵化,判定结果与事实不符等问题,在本实施例中,通过采集多项关联系统监控项数据并对数据进行整合分析、建立数学模型,通过判断采集到的系统监控数据是否符合数学模型来判断系统运行状况,摒弃了以往对于单一监控项设定阀值的来判断系统运行状况的方式,使的系统监控更加准确,全面。例如:从而使得将订单量这种静态的业务数据的监控指标和系统运行的其他动态数据的监控指标结合起来成为可能,使得多个维度的监控指标融合,量化为相关系数,再通过相关系数分析系统的运行状态。由于是基于系统的历史性能表现综合多指标统计分析,技术人员不需要再进行针对不同业务场景手动去调整各系统监控项阀值的繁琐操作,避免了不同业务场景下出现监控报警不准确的情况,提高了现有监控手段的智能化程度和准确度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例提供的系统架构示意图;图2a为本专利技术实施例提供的方法流程示意图;图2b为本专利技术实施例提供的具体实例的示意图;图3、图4为本专利技术实施例提供的装置结构示意图。具体实施方式为使本领域技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术作进一步详细描述。下文中将详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。本实施例中的方法流程,具体可以在一种如图1所示的系统上通过计算机软件执行,具体来说,涉及计算机软件系统性能监控,软件算法编程,监控数据整合分析,数学模型建立。该系统包括:业务系统、分析服务器和后台数据库,系统的各端设备相互之间可以通过互联网建立信道,并通过各自的数据传输端口进行数据交互。本实施例中所揭示的分析服务器,在硬件层面上具体可以是工作站、超级计算机等设备,或者是由多台服务器组成的一种用于数据处理的服务器集群,或者分析服务器的功能也可以集成在后台数据库、业务系统或者其他的硬件系统中,即后台数据库、业务系统或者其他的硬件系统通过分配出一定数量的硬件资源,实现分析服务器的功能,具体可以通过目前的虚拟机技术或者分布式计算技术实现不同的计算功能在硬件系统上的集成。其中,分析服务器,可以从监控平台上实时采集监控数据,监控平台用于监控业务系统的运行状态,并记录有关业务系统运行数据的日志、或者业务系统在运行过程中的系统快照等监控数据,监控数据可以依据各监控平台上具体设定的监控指标进行区分。举例来说,本实施例中可能涉及到的监控平台包括但不限于:Zabbix(一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案)、跨系统同步通信框架(RSF)、跨系统异步通信框架(ESB)等。后台数据库中,存储了业务系统运行时的运行数据,比如:价格数据、物流数据、订单数据等等。后台数据库具体可以采用目前常见的数据库架构、类型。业务系统,在硬件层面上具体可以是由多台服务器、超算等具备计算功能的硬件设备组成的,一种用于运营在线业务的系统,比如在线购物平台上运营的促销系统、订单系统、通知系统等。本专利技术实施例提供一种分析系统稳定性的方法,如图2a所示,包括:S1、采集与监控指标关联的运行数据。具体的,所述监控指标至少包括:运行业务系统的硬件设备的处理器的空闲时间百分比、所述处理器的写入/读出等待时间百分比、所述处理器的用户程序占用时间百分比、内存使用百分比、磁盘读写端口的使用率等有关硬件设备的计算资源的指标,网卡发送的数据流量和所述网卡接受数据流量等有关硬件设备的通信资源的指标中的至少一项。以及业务系统在运行过程中生成并大多数会被记录为可调取日志的数据,比如包括了:所述系统的异常数量、所述系统的服务调用量、所述系统的响应时间、所述系统的业务异常量和所述系统的订单量等多组数据中的至少一项。监控指标具体可以作为与之相关联的运行数据的标签。例如,如图2b所示,分析服务器通过设置定时任务的方式访问zabbix等监控系统,接口调用量数据采集系统,各类监控平台等,来获取一段时间的多项数据并落地存储,比如:采集一段时间内的zabbix系统监控指标(如1本文档来自技高网
...

【技术保护点】
1.一种分析系统稳定性的方法,其特征在于,包括:采集与监控指标关联的运行数据;利用不同的监控指标之间的相关性,从所采集的运行数据中选择待处理的运行数据,并确定波动范围,其中,待处理的运行数据包括:N组运行数据,且在所述N组运行数据中至少存在一对具有相关性的监控指标,即第i组运行数据关联的监控指标与第j组运行数据关联的监控指标存在相关性,N≥2,1≤i≤N、1≤j≤N且i≠j;根据所述波动范围,获取系统当前的运行数据的异常情况。

【技术特征摘要】
1.一种分析系统稳定性的方法,其特征在于,包括:采集与监控指标关联的运行数据;利用不同的监控指标之间的相关性,从所采集的运行数据中选择待处理的运行数据,并确定波动范围,其中,待处理的运行数据包括:N组运行数据,且在所述N组运行数据中至少存在一对具有相关性的监控指标,即第i组运行数据关联的监控指标与第j组运行数据关联的监控指标存在相关性,N≥2,1≤i≤N、1≤j≤N且i≠j;根据所述波动范围,获取系统当前的运行数据的异常情况。2.根据权利要求1所述的方法,其特征在于,所述监控指标至少包括:处理器的空闲时间百分比、所述处理器的写入/读出等待时间百分比、所述处理器的用户程序占用时间百分比、内存使用百分比、磁盘读写端口的使用率、网卡发送的数据流量和所述网卡接受数据流量、所述系统的服务调用量、所述系统的响应时间、所述系统的业务异常量和所述系统的订单量中的至少一项。3.根据权利要求1或2所述的方法,其特征在于,所述利用不同的监控指标之间的相关性,从所采集的运行数据中选择待处理的运行数据,并确定波动范围,包括:建立所述待处理的运行数据的数据模型;通过所述数据模型确定相关系数的值,并设定所述相关系数的波动范围。4.根据权利要求3所述的方法,其特征在于,所述建立所述待处理的运行数据的数据模型,包括:采集至少两组不同的运行数据,并获取每两组不同的运行数据之间相关系数;若其中两组数据的相关系数大于预设值,则建立相关系数大于预设值的两组运行数据的数据模型。5.根据权利要求1所述的方法,其特征在于,所述根据所述波动范围,获取系统当前的运行数据的异常情况,包括:采集所述系统当前的运行数据,并通过所建立的数据模型输出所述系统当前的运行数据的计算结果;当所述计算结果不符合所述波动范围时,判定所述系统当前的运行数据的异常。6.根据权利要求1或5所述的方法,其特征在于,还包括:当判定所述系统当前的运行数据的异常时,提取异常信息,所述异常信息至少包括所述系统的主机ip地址、所述监控指标和对应发生异常的运行数据的接口信息;根据所述异常信息发出预警。7.根据权利要求6所述的方法,其特征在于...

【专利技术属性】
技术研发人员:孙迁叶国华刘发亮马翔杜中原
申请(专利权)人:苏宁云商集团股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1