一种基于隐马尔可夫模型的数据采集运行异常检测方法技术

技术编号:27480799 阅读:16 留言:0更新日期:2021-03-02 17:51
一种基于隐马尔可夫模型的数据采集运行异常检测方法,包括数据采集运行日志历史数据获取与数据清洗;采集流程模板建立;对每一类采集流程进行序列特征提取;根据提取的序列特征,对每一类采集流程进行隐马尔可夫模型HMM的训练;根据训练得到的HMM模型,对数据采集运行日志数据进行异常检测。数据采集运行日志数据是非结构化数据,通过简单的采集流程模板设置,可以实现对日志数据的有效信息提取,方便对日志数据的利用。采集过程中的异常种类繁多,难以进行标注,采用隐马尔可夫模型将异常检测问题转化为对日志序列特征的路径异常概率判断问题,无需标注数据便可进行训练,只需要简单设置概率阈值便可实现异常判断,实现成本大大降低。本大大降低。本大大降低。

【技术实现步骤摘要】
一种基于隐马尔可夫模型的数据采集运行异常检测方法


[0001]本专利技术属于数据采集运行智能分析领域,涉及一种基于隐马尔可夫模型的数据采集运行异常检测方法。

技术介绍

[0002]数据采集系统帮助企业更好更快更精准地采集多源异构数据信息,并且进行数据整合。这类系统大多设计为全天候运行,所以高可用性和可靠性成为必须。这类系统的任何事件,包括服务中断和服务质量下降,都会导致应用程序崩溃、数据获取不准确不及时,将严重影响数据质量、数据价值发掘等,为企业生产运营决策会带来重大失误,造成企业的经济损失,甚至引起生产事故的发生。
[0003]数据采集运行异常检测旨在及时发现异常系统行为,在采集事件管理中发挥着重要作用。及时的异常检测允许数据采集系统运维人员(或开发人员)及时发现问题并立即解决,从而减少数据采集系统停机时间。数据采集系统通常会生成日志,记录系统运行期间的详细运行时信息。这种广泛可用的日志被用作系统异常检测的主要数据源。基于日志的异常检测已经成为学术界和工业界具有实际重要性的研究课题。对于传统的数据采集系统,开发人员或运维人员根据他们的领域知识手动检查系统日志或编写规则来检测异常,并额外使用关键字搜索(例如,失败、异常)或正则表达式匹配。然而,这种严重依赖人工检查日志的异常检测对于大规模采集系统来说已经变得不充分。因此,针对数据采集运行的异常检测自动分析研究是很有必要的。

技术实现思路

[0004]本专利技术的一种基于隐马尔可夫模型的数据采集运行异常检测方法,通过简单的采集流程模板设置,可以实现对日志数据的有效信息提取,方便对日志数据的利用。采集过程中的异常种类繁多,难以进行标注,采用隐马尔可夫模型将异常检测问题转化为对日志序列特征的路径异常概率判断问题,无需标注数据便可进行训练,只需要简单设置概率阈值便可实现异常判断,实现成本大大降低。
[0005]为了实现上述目标,本专利技术具体采用如下技术方案:一种基于隐马尔可夫模型的数据采集运行异常检测方法,其特征在于,所述方法包括以下步骤:步骤1:采集数据采集运行日志的历史数据,所述数据采集运行日志包括生产数据采集运行日志以及经营数据采集日志;步骤2:对所述历史数据进行清洗,即剔除所述历史数据中标注有异常和/或错误的关键词的数据,表示异常和/或错误的关键词包括exception、error、fatal;步骤3:建立采集流程模型,所述采集流程模型包括被采集设备的监测点关键词列表、采集流程状态关键词列表以及数据库关键词列表,通过所述采集流程模型能够从所述数据采集运行日志中提取采集流程从采集开始到采集结束的完整采集流程的日志;
步骤4:将所述步骤2中进行清洗处理的历史数据输入到所述步骤3中建立的采集流程模型提取从开始到结束的完整采集流程日志;步骤5:根据步骤4中提取的完整采集流程日志,提取特征,所述特征包括日志的文字记录状态特征、时间记录状态特征以及参数数字状态特征;步骤6:根据所述步骤5提取的文字记录状态特征、时间记录状态特征以及参数数字状态特征,分别进行训练获得文字记录状态隐马尔可夫模型、时间记录状态隐马尔可夫模型以及参数数字状态隐马尔可夫模型;步骤7:采集数据采集运行日志的实时数据,并根据步骤6得到的文字记录状态隐马尔可夫模型、时间记录状态隐马尔可夫模型以及参数数字状态隐马尔可夫模型,判断数据采集运行日志的实时数据是否异常。
[0006]本专利技术还进一步采用以下优选技术方案:在所述步骤3中,根据被采集设备的监测点关键词,采集流程状态关键词以及数据库关键词建立采集模型,所述采集流程模型格式为:[监测点关键词列表,状态关键词列表,数据关键词]其中,第一部分是被采集设备的监测点关键词列表,对监测点关键词按照出现顺序排列,关键词长度为n
i
,即监测点关键词列表所包含的关键词数量为n
i
个;第二部分为采集过程的状态关键词列表,按照每个状态里的子步骤定义的关键词顺序进行排列,关键词长度为m
i ,
即状态关键词列表所包含的关键词数量为m
i
个;第三部分为涉及的数据库关键词。
[0007]所述采集流程模型包括采集开始模式P1、采集数据转化模式P2以及采集结束模式P3;所述采集开始模式P1的被采集设备的监测点关键词包括包括监测点a1、监测点a2、...、监测点a
q
;采集流程状态关键词包括init_success, start,分别表示初始成功、开始采集;数据库关键词包括VeStore、mysql、oracle,表示采用VeStore、mysql、oracle数据库进行采集;其中,下标
q
是指在采集开始模式中监测点关键词数量;所述采集数据转化模式P2的被采集设备的监测点关键词包括监测点b1、监测点b2、...、监测点b
s
;采集流程状态关键词包括arrive, trans, success,分别表示数据到达、开始转换、转换成功;数据库关键词处为空白,表示该模式涉及的流程不涉及数据库操作;其中,下标
s
是指在采集数据转化模式中监测点关键词数量;所述采集结束模式P3的被采集设备的监测点关键词包括监测点c1、监测点c2、...、监测点c
y
;采集流程状态关键词包括write, over,表示数据开始写入、采集结束;数据库关键词包括VeStore,表示在该模式中将数据写入VeStore数据库;其中,下标
y
是指在采集结束模式中监测点关键词数量。
[0008]所述步骤4包括以下步骤:步骤401:将历史数据中的关键词与采集开始模式P1进行匹配,筛选出属于符合该采集开始模式P1的日志;步骤402:将历史数据中的关键词与采集数据转化模式P2进行匹配,筛选出属于符合该采集数据转化模式P2的日志;步骤403:将历史数据中的关键词与采集结束模式P3进行匹配,筛选出属于符合该采集结束模式P3的日志;
步骤404:选取按顺序连续匹配上所述采集开始模式P1、采集数据转化模式P2以及采集结束模式P3的日志,该日志为采集流程的从开始到结束的一次完整采集流程日志。
[0009]对于采集流程模型中的关键词列表中只有一个关键词的情况,直接进行匹配;对于采集流程模型中有多个关键词的列表,需要按照关键词出现顺序依次进行匹配。
[0010]步骤5中,提取文字记录状态特征包括以下步骤:步骤501:将一次完整采集流程的每条日志的内容分为文字记录、时间记录以及参数数字记录部分;步骤502:设置停用词,并在所述文字记录部分中去除停用词后,获得第一词库,所述停用词包括and、or、to、for、is、from;步骤503:计算第一词库中的每个词的词频,取词频最多的前N1个词作为该采集流程的第二词库,第一词库中其余词使用unknown代替,将步骤501中的文字记录转化为由所述第二词库中的词和unknown构成的词串;步骤504:根据步骤501-503得到所述完整采集流程日志的所有词串后,进行统计排序,选取出现次数前N2的词串作为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于隐马尔可夫模型的数据采集运行异常检测方法,其特征在于,所述方法包括以下步骤:步骤1:采集数据采集运行日志的历史数据,所述数据采集运行日志包括生产数据采集运行日志以及经营数据采集日志;步骤2:对所述历史数据进行清洗,即剔除所述历史数据中标注有异常和/或错误的关键词的数据,表示异常和/或错误的关键词包括exception、error、fatal;步骤3:建立采集流程模型,所述采集流程模型包括被采集设备的监测点关键词列表、采集流程状态关键词列表以及数据库关键词列表,通过所述采集流程模型能够从所述数据采集运行日志中提取采集流程从采集开始到采集结束的完整采集流程的日志;步骤4:将所述步骤2中进行清洗处理的历史数据输入到所述步骤3中建立的采集流程模型提取从开始到结束的完整采集流程日志;步骤5:根据步骤4中提取的完整采集流程日志,提取特征,所述特征包括日志的文字记录状态特征、时间记录状态特征以及参数数字状态特征;步骤6:根据所述步骤5提取的文字记录状态特征、时间记录状态特征以及参数数字状态特征,分别进行训练获得文字记录状态隐马尔可夫模型、时间记录状态隐马尔可夫模型以及参数数字状态隐马尔可夫模型;步骤7:采集数据采集运行日志的实时数据,并根据步骤6得到的文字记录状态隐马尔可夫模型、时间记录状态隐马尔可夫模型以及参数数字状态隐马尔可夫模型,判断数据采集运行日志的实时数据是否异常。2.根据权利要求1所述的基于隐马尔可夫模型的数据采集运行异常检测方法,其特征在于:在所述步骤3中,根据被采集设备的监测点关键词,采集流程状态关键词以及数据库关键词建立采集模型,所述采集流程模型格式为:[监测点关键词列表,状态关键词列表,数据关键词];其中,第一部分是被采集设备的监测点关键词列表,对监测点关键词按照出现顺序排列,其长度为n
i
,即监测点关键词列表所包含的关键词数量为n
i
个;第二部分为采集过程的状态关键词列表,按照每个状态里的子步骤定义的关键词顺序进行排列,关键词长度为m
i
,即状态关键词列表所包含的关键词数量为m
i
个;第三部分为涉及的数据库关键词。3.根据权利要求2所述的基于隐马尔可夫模型的数据采集运行异常检测方法,其特征在于:所述采集流程模型包括采集开始模式P1、采集数据转化模式P2以及采集结束模式P3;所述采集开始模式P1的被采集设备的监测点关键词包括监测点a1、监测点a2、...、监测点a
q
;采集流程状态关键词包括init_success, start,分别表示初始成功、开始采集;数据库关键词包括VeStore、mysql、oracle,表示采用VeStore、mysql、oracle数据库进行采集;其中,下标
q
是指在采集开始模式中监测点关键词数量;所述采集数据转化模式P2的被采集设备的监测点关键词包括监测点b1、监测点b2、...、监测点b
s
;采集流程状态关键词包括arrive, trans, success,分别表示数据到达、开始转换、转换成功;数据库关键词处为空白,表示该模式涉及的流程不涉及数据库操作;其中,下标
s
是指在采集数据转化模式中监测点关键词数量;
所述采集结束模式P3的被采集设备的监测点关键词包括监测点c1、监测点c2、...、监测点c
y
;采集流程状态关键词包括write, over,表示数据开始写入、采集结束;数据库关键词包括VeStore,表示在该模式中将数据写入VeStore数据库;其中,下标
y
是指在采集结束模式中监测点关键词数量。4.根据权利要求3所述的基于隐马尔可夫模型的数据采集运行异常检测方法,其特征在于:所述步骤4包括以下步骤:步骤401:将历史数据中的关键词与采集开始模式P1进行匹配,筛选出属于符合该采集开始模式P1的日志;步骤402:将历史数据中的关键词与采集数据转化模式P2进行匹配,筛选出属于符合该采集数据转化模式P2的日志;步骤403:将历史数据中的关键词与采集结束模式P3进行匹配,筛选出属于符合该采集结束模式P3的日志;步骤404:选取按顺序连续匹配上所述采集开始模式P1、采集数据转化模式P2以及采集结束模式P3的日志,该日志为采集流程的从开始到结束的一次完整采集流程日志。5.根据权利要求4所述的基于隐马尔可夫模型的数据采集运行异常检测方法,其特征在于:对于采集流程模型中的关键词列表中只有一个关键词的情况,直接进行匹配;对于采集流程模型中有多个关键词的列表,需要按照关键词出现顺序依次进行匹配。6.根据权利要求1-4任意一项所述的基于隐马尔可夫模型的数据采集运行异常检测方法,其特征在于:步骤5中,提取文字记录状态特征包括以下步骤:步骤501:将一次完整采集流程的每条日志的内容分为文字记录、时间记录以及参数数字记录部分;步骤502:设置停用词,并在所述文字记录部分中去除停用词后,获得第一词库,所述停用词包括and、or、to、for、is、from;步骤503:计算第一词库中的...

【专利技术属性】
技术研发人员:吴菲李志强康芳叶君健胡开斌陈静
申请(专利权)人:国能信控互联技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1