当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于关联分析的监控数据智能采样方法技术

技术编号:16152750 阅读:60 留言:0更新日期:2017-09-06 18:13
本发明专利技术公开了一种基于关联分析的监控数据智能采样方法,包括四个关键步骤:时序数据编码、关联关系挖掘、计算状态转移矩阵、状态预测。本发明专利技术方法可以根据对未来主机资源利用率的预测,动态地调整监控周期,达到在资源利用率变化平稳时减小采样频率,在资源利用率变化剧烈时增大采样频率以节约计算及存储资源的目的。与现有技术相比,本发明专利技术方法可以在机器平稳运行,增大监控周期,减小采样率;机器运行出现波动时,需要减小监控周期,增大采样率;这样获得的更多是有意义的监控数据,有效地减少无用数据的采集,防止浪费大部分计算资源在无用数据的采集和计算等处理上,提高效率,并在减少无用数据采集的同时,保持高准确率。

【技术实现步骤摘要】
一种基于关联分析的监控数据智能采样方法
本专利技术属于智能采样
,具体涉及一种基于关联分析的监控数据智能采样方法。
技术介绍
随着云计算和移动互联网的进一步普及和深入应用,各类网络应用和服务正在各行各业中扮演着更为重要的角色。有些网络服务对于负载的波动有着敏感的变化,合理设计的采样率算法可以保障宿主机中网络等资源利用的低开销,同时使得监控系统后端的计算资源尤其是存储资源的压力减小,以及对于关键信息不丢失,因此是系统性能优化方向的一个关键的问题,其效率的好坏直接影响着系统优化的效率。目前采样的方式大致分为三类,即固定周期采样、可变周期采样和动态周期采样。固定周期采样最好理解,即采样的频率是一个固定的周期,一般写在配置文件中。传统的Nagios和Ganglia以及GoogleDapper就是如此。这类采样率策略优点就是实现简单,易于操作,但是如果需要修改监控周期,往往需要更改配置文件后重启系统。可变周期采样在固定周期采样的基础上实现了系统采样周期的热更新,即修改采样周期可以在系统运行时进行热更新,而不需要重启系统,往往通过向系统发送外部命令的方式实现。优点自然是可以在系统运行时修改采样周期,缺点是采样周期的设置和修改往往需要系统管理员判断,准确率和效率都不高。动态周期采样相比于可变周期采样再次发展而来,使得系统自身根据监控对象的运行状态自动调整采样周期,达到解决系统计算及存储资源的目的。而动态调整采样周期的算法往往基于预测,在系统运行状态平稳时,增大采样周期,减小采样率;系统运行波动时,减小采样周期,增大采样率。从而实现采集更多的有效数据,摒弃更多的无用数据的目的。在对大规模分布式集群的性能监控中,考虑到节约计算及存储资源的目的,往往只获取监控对象的部分而非全部数据,相邻采样点的时间间隔便是监控周期,一般是通过静态或动态设定监控周期进行采样。在动态采样过程中,准确率与效率是一个相互制约的因素,通常提高准确度的同时意味着效率的下降。极端的情况便是全采样的方法,因为未作筛选所以无用数据的占比是很客观的,效率很低。一般情况下,减小监控周期、增加采样的频率可以提高采样的准确度,但会降低采样的效率,增加无用数据的采样比率。因此在动态采样中,需要根据一定的策略在合适的时机调整监控周期,避免盲目采样。
技术实现思路
鉴于上述情况,本专利技术提出了一种基于关联分析的监控数据智能采样方法,能够在性能监控过程中动态调整监控周期。一种基于关联分析的监控数据智能采样方法,包括如下步骤:(1)对节点的监控数据进行归一化,并对归一化后的监控数据进行波动率标记,得到节点的波动率字符流;(2)对同一数据中心内任一对节点组合的波动率字符流进行错位拟合标记,得到该对节点组合的错位拟合码;(3)统计所述错位拟合码中每一模式的支持度,取支持度大于设定阈值的模式作为频繁模式,进而利用Apriori算法计算每一频繁模式的置信度;所述模式为错位拟合码中两个及两个以上连续的编码;(4)根据步骤(2)和(3)遍历所有节点组合;对于任一节点,根据其波动率字符流并综合马尔科夫链和频繁模式置信度,预测其下一时刻的波动状态,进而动态调整该节点的监控采样周期。所述步骤(1)中根据以下关系式对归一化后的监控数据进行波动率标记:其中:Vi和Vi-1分别为归一化后监控数据中当前时刻和前一时刻的采样值,Si为归一化后监控数据中当前时刻采样点的波动率字符,Threshold为设定的阈值,R、L、F对应表示高、中、低三种波动状态。所述步骤(2)中的错位拟合标记方法为:使两个节点的波动率字符流错开一位形成对应关系,对于前后两个单独错位的波动率字符标记为X,对于中间两两对应的波动率字符根据以下标准进行标记,从而得到错位拟合码;波动率字符R与R,则标记为0;波动率字符R与L,则标记为1;波动率字符R与F,则标记为2;波动率字符L与R,则标记为3;波动率字符L与L,则标记为4;波动率字符L与F,则标记为5;波动率字符F与R,则标记为6;波动率字符F与L,则标记为7;波动率字符F与F,则标记为8。所述步骤(3)中模式的支持度为该模式在错位拟合码中的出现次数占错位拟合码总编码数量的比值。所述步骤(4)中预测节点下一时刻的波动状态,具体过程如下:4.1根据该节点最近三个时刻的波动率字符标记,建立这三个时刻的波动状态概率向量,进而根据以下公式计算下一时刻的波动状态概率向量:其中:P(Si)~P(Si-2)分别为该节点对应i时刻、i-1时刻、i-2时刻的波动状态概率向量,i表示当前时刻,P(Si+1)为该节点下一时刻的波动状态概率向量,Q为马尔科夫链状态转移矩阵(其与历史时间长度相关);4.2统计与该节点相关的所有频繁模式,提取这些频繁模式中对应该节点的波动率字符串;4.3使该节点波动率字符流中的末尾字符串与步骤4.2提取得到的波动率字符串逐一进行匹配:若查找到相匹配的波动率字符串,则执行步骤4.4;若未找到相匹配的波动率字符串,则使波动状态概率向量P(Si+1)中最大概率值所对应的波动状态作为该节点下一时刻的波动状态;4.4使波动状态概率向量P(Si+1)中的最大概率值与相匹配的波动率字符串所在频繁模式的置信度进行比较:若最大概率值大,则使该最大概率值所对应的波动状态作为该节点下一时刻的波动状态;若置信度大,则使该相匹配的波动率字符串中最末位字符所对应的波动状态作为该节点下一时刻的波动状态。与现有技术相比,本专利技术方法可以在机器平稳运行,增大监控周期,减小采样率;机器运行出现波动时,需要减小监控周期,增大采样率;这样获得的更多是有意义的监控数据,有效地减少无用数据的采集,防止浪费大部分计算资源在无用数据的采集和计算等处理上,提高效率,并在减少无用数据采集的同时,保持高准确率。本专利技术方法可以根据对未来主机资源利用率的预测,动态地调整监控周期,达到在资源利用率变化平稳时减小采样频率,在资源利用率变化剧烈时增大采样频率以节约计算及存储资源的目的。附图说明图1为本专利技术方法的步骤流程示意图。图2为本专利技术中关联关系挖掘的流程示意图。图3为马尔科夫链结合关联关系的决策流程示意图。具体实施方式为了更为具体地描述本专利技术,下面结合附图及具体实施方式对本专利技术的技术方案进行详细说明。如图1所示,本专利技术基于关联分析的监控数据智能采样方法包括如下步骤:(1)时序数据编码。时序数据编码是将连续的、原始的数据经过指定规则的编码后可以由Apriori算法挖掘的字符流结构,具体如图2所示。1.1数据归一化:利用如下公式对数据进行正规化,保留数据的相对大小及趋势,去除数据绝对大小对算法的影响。其中:Vmin为V的最小值,Vmax为V的最大值,计算后RVi的范围为[0,1];这样做的主要原因是数据的相对大小是关键数据,而具体大小不需关心。1.2粒度选择:对于数据点Vi,Si为其符号表示,通过计算Vi相对于Vi-1的变化率并设置Threshold,将Vi作三值映射。1.3错位拟合:对于数据流A,B,Ternary函数将符号R、L、F映射成三进制数值0、1、2,R(A~B)表示A对B错位拟合后的数据流,Decimal(X)表示数值X的十进制表示。Ri(A~B)=Decimal(Ternaryi(Si(Ai))+Ternaryi(本文档来自技高网
...
一种基于关联分析的监控数据智能采样方法

【技术保护点】
一种基于关联分析的监控数据智能采样方法,包括如下步骤:(1)对节点的监控数据进行归一化,并对归一化后的监控数据进行波动率标记,得到节点的波动率字符流;(2)对同一数据中心内任一对节点组合的波动率字符流进行错位拟合标记,得到该对节点组合的错位拟合码;(3)统计所述错位拟合码中每一模式的支持度,取支持度大于设定阈值的模式作为频繁模式,进而利用Apriori算法计算每一频繁模式的置信度;所述模式为错位拟合码中两个及两个以上连续的编码;(4)根据步骤(2)和(3)遍历所有节点组合;对于任一节点,根据其波动率字符流并综合马尔科夫链和频繁模式置信度,预测其下一时刻的波动状态,进而动态调整该节点的监控采样周期。

【技术特征摘要】
1.一种基于关联分析的监控数据智能采样方法,包括如下步骤:(1)对节点的监控数据进行归一化,并对归一化后的监控数据进行波动率标记,得到节点的波动率字符流;(2)对同一数据中心内任一对节点组合的波动率字符流进行错位拟合标记,得到该对节点组合的错位拟合码;(3)统计所述错位拟合码中每一模式的支持度,取支持度大于设定阈值的模式作为频繁模式,进而利用Apriori算法计算每一频繁模式的置信度;所述模式为错位拟合码中两个及两个以上连续的编码;(4)根据步骤(2)和(3)遍历所有节点组合;对于任一节点,根据其波动率字符流并综合马尔科夫链和频繁模式置信度,预测其下一时刻的波动状态,进而动态调整该节点的监控采样周期。2.根据权利要求1所述的监控数据智能采样方法,其特征在于:所述步骤(1)中根据以下关系式对归一化后的监控数据进行波动率标记:其中:Vi和Vi-1分别为归一化后监控数据中当前时刻和前一时刻的采样值,Si为归一化后监控数据中当前时刻采样点的波动率字符,Threshold为设定的阈值,R、L、F对应表示高、中、低三种波动状态。3.根据权利要求2所述的监控数据智能采样方法,其特征在于:所述步骤(2)中的错位拟合标记方法为:使两个节点的波动率字符流错开一位形成对应关系,对于前后两个单独错位的波动率字符标记为X,对于中间两两对应的波动率字符根据以下标准进行标记,从而得到错位拟合码;波动率字符R与R,则标记为0;波动率字符R与L,则标记为1;波动率字符R与F,则标记为2...

【专利技术属性】
技术研发人员:尹建伟吴昊邓水光李莹吴健吴朝晖易峥
申请(专利权)人:浙江大学浙江核新同花顺网络信息股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1