一种基于时序数据的告警自愈方法及系统技术方案

技术编号:37842613 阅读:12 留言:0更新日期:2023-06-14 09:47
本发明专利技术公开了一种基于时序数据的告警自愈方法及系统,该系统主要应用于数据库领域。在该领域中,为了监测数据库运行的关键性能状态,需要定时采集数据库性能指标的数值,从而为每个关键性能指标形成一列时序数据。对各列时序数据进行分析,当某一项或多项指标发生异常时,及时从时序数据中发现,并发出告警。此后,仍然不断监测该指标值,并及时更新告警状态。态。态。

【技术实现步骤摘要】
一种基于时序数据的告警自愈方法及系统


[0001]本专利技术涉及数据库领域,尤其涉及一种基于时序数据的告警自愈方法及系统。

技术介绍

[0002]时序数据是同一指标按时间顺序记录的数据列。目前,时序数据在经济、生物、信息等领域中极为常见。时序数据中往往隐藏着数据随时间的变化规律,如果能够发现规律并善加利用,将有效促进社会各领域的发展。如经济学中常见的上证指数,即上海证券交易所股票价格综合指数,就是一个时序数据,该指标反映了上海证券交易所挂牌股票总体走势。
[0003]在数据库领域,能够反映数据库性能状态的指标为数众多,如果可以按时对一些关键性能指标的数值进行采集,就可以得到多列能够反映各指标变化趋势的时序数据。基于采集到的数据库性能指标数值,可以及时发现数据库状态的异常情况,一旦发生异常,及时发出告警。目前,这样的数据库性能状态异常告警方法及系统较多。但是,当发生异常并产生告警之后,缺乏对这些告警进行管理。

技术实现思路

[0004]为解决现有技术中存在的技术问题,本专利技术公开一种基于时序数据的告警自愈方法,该方法包括以下步骤:
[0005](1)数据采集:采集关键指标数值,并存储到本地数据库中;
[0006]具体地,目标数据库系统中有K项指标需要监测,可得到K个时间序列,表示为S1,S2,

,S
K
,每个时间序列在1,2,

,t时刻的值分别表示为s
i1
,s
i2
,
r/>,s
it
,其中1≤i≤K,每次采集间隔一定时间,采集时间间隔由用户指定;
[0007](2)异常检测:分析各时间序列,并采用机器学习或人工智能对时间序列进行分析,及时发现序列中的异常;
[0008](3)告警:当发现时间序列存在异常时,在系统中及时发出告警,并以邮件或手机短信方式通知用户;
[0009](4)自愈:系统发出告警后,对相应的性能指标按照制定的策略继续监测,若发现该指标值恢复正常,则取消告警;否则继续告警,并修改策略,按照改后的策略继续对告警的指标进行监测。
[0010]具体地,对第i个指标在t时刻产生异常并触发告警后,在第t+n时刻进行了第m次自愈检测,通过第m次自愈检测发现第i个指标值并未恢复正常,则下一次进行自愈检测的时刻t
new
=t+n+f(m,l
i
),其中,f(m,l
i
)为一个计算时刻的函数,l
i
为第i个指标对应的告警等级,其中告警等级分为严重、一般和轻微,分别对应的值为3、2和1;f(m,l
i
)=roundup(min(2
m
,1000)/l
i
),其中,roundup()表示向上取整函数,min表示取最小值函数。
[0011]为实现上述方法,本专利技术又公开了一种基于时序数据的告警自愈系统,该系统包含异常数据采集模块、检测模块、告警模块和自愈模块,具体地,
[0012](1)数据采集模块,用于采集关键指标数值,并存储到本地数据库中;
[0013](2)异常检测模块,用于分析各时间序列,并采用机器学习或人工智能对时间序列进行分析,及时发现序列中的异常;
[0014](3)告警模块,用于当发现时间序列存在异常时,在系统中及时发出告警,并以邮件或手机短信方式通知用户;
[0015](4)自愈模块,用于系统发出告警后,对相应的性能指标按照制定的策略继续监测,若发现该指标值恢复正常,则取消告警;否则继续告警,并修改策略,按照改后的策略继续对告警的指标进行监测。
[0016]本专利技术公开了一种基于时序数据的告警自愈方法及系统,该系统主要应用于数据库领域。在该领域中,为了监测数据库运行的关键性能状态,需要定时采集数据库性能指标的数值,从而为每个关键性能指标形成一列时序数据。对各列时序数据进行分析,当某一项或多项指标发生异常时,及时从时序数据中发现,并发出告警。此后,仍然不断监测该指标值,并及时更新告警状态。
附图说明
[0017]图1为本专利技术的具体流程步骤。
[0018]图2为本专利技术的系统示意图。
具体实施方式
[0019]本专利技术中,假定目标数据库系统中有K项指标需要监测(K通常为不小于1的正整数),相应可得到K个时间序列,表示为S1,S2,

,S
K
,每个时间序列在1,2,

,t时刻的值分别表示为s
i1
,s
i2
,

,s
it
,其中1≤i≤K,t表示时刻值,指的是第t次采集性能指标,每次采集按照一定的时间间隔,采集时间间隔可由用户进行指定。
[0020]在数据采集的过程中,每个时间序列随时间推移不断有新的采集数据加入。在时间序列更新过程中,异常检测模块会采用LSTM(长短期记忆网络,Long Short

Term Memory)方法针对时间序列进行异常检测。若发现在某时刻(假定t时刻)第i个指标发生异常,则立即转入告警模块发出告警,并以邮件、手机短信等方式通知用户。
[0021]在告警模块发出告警后,数据采集的过程仍然继续。相应的,时间序列开始记录t时刻以后的指标数据。此时,自愈模块开始工作,对产生告警的指标进行自愈监测。为保证系统的效率,制定了自愈策略,避免“采集一次数据,判断一次异常”的情况出现。
[0022]对第i个指标在t时刻产生异常并触发告警后,后续仍需要采集该指标的数值,并判断新采集的指标值是否正常。如果正常,则该告警取消,自愈过程结束;如果异常,则需要计算对后续采集的指标数值进行判断的时刻,并按时重新检测。
[0023]假设对第i个指标在t时刻产生异常并触发告警后,在第t+n时刻进行了第m次自愈检测,通过第m次自愈检测发现第i个指标值并未恢复正常。下一次进行自愈检测的时刻计算方法为:
[0024]t
new
=t+n+f(m,l
i
),
[0025]其中,f(m,l
i
)为一个计算时刻的函数,l
i
为第i个指标对应的告警等级,严重、一般和轻微分别对应的值为3、2和1。f(m,l
i
)的计算方式为:
[0026]f(m,l
i
)=roumdup(min(2
m
,1000)/l
i
),
[0027]其中,roundup()表示向上取整函数,min表示取最小值函数。
[0028]假设数据库连接数性能指标1,2,3,4,5个时刻对应的值分别为100,98,96,102,300,经过异常检测模块检测后,发现时刻5对应的数据库连接数存在异常,则告警模块触发告警,该告警为严重告警,对应的l
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于时序数据的告警自愈方法,其特征在于,该方法包括以下步骤:(1)数据采集:采集关键指标数值,并存储到本地数据库中;目标数据库系统中有K项指标需要监测,可得到K个时间序列,表示为S1,S2,

,S
K
,每个时间序列在1,2,

,t时刻的值分别表示为s
i1
,s
i2
,

,s
it
,其中1≤i≤K,每次采集间隔一定时间,采集时间间隔由用户指定;(2)异常检测:分析各时间序列,并采用机器学习或人工智能对时间序列进行分析,及时发现序列中的异常;(3)告警:当发现时间序列存在异常时,在系统中及时发出告警,并以邮件或手机短信方式通知用户;(4)自愈:系统发出告警后,对相应的性能指标按照制定的策略继续监测,若发现该指标值恢复正常,则取消告警;否则继续告警,并修改策略,按照改后的策略继续对告警的指标进行监测。2.如权利要求1所述的一种基于时序数据的告警自愈方法,其特征在于,步骤(4)中,对第i个指标在t时刻产生异常并触发告警后,在第...

【专利技术属性】
技术研发人员:王伟斌李超德刘宁陈传凯杨小华
申请(专利权)人:北京新数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1