一种异常检测模型训练方法、异常检测方法、装置及介质制造方法及图纸

技术编号:32491790 阅读:10 留言:0更新日期:2022-03-02 09:58
本发明专利技术提供一种异常检测模型训练方法、异常检测方法、装置及介质。异常检测模型训练方法,包括:获取用于训练的日志数据,在日志数据中提取非结构数据,非结构数据包括文本数据和数值型数据。将文本数据转化为词向量,把数据型数据转化为向量。将词向量和向量输入随机森林模型进行训练,调整随机森林模型的参数,得到异常检测模型。通过上述方法,将用于训练的日志数据中属于服务器系统运行信息的非结构数据进行提取训练随机森林模型,使得到的异常检测模型,能够快速区分正常数据和异常数据,减少无效信息的干扰,从而提高训练效率。从而提高训练效率。从而提高训练效率。

【技术实现步骤摘要】
一种异常检测模型训练方法、异常检测方法、装置及介质


[0001]本专利技术涉及网络安全
,具体涉及一种异常检测模型训练方法、异常检测方法、装置及介质。

技术介绍

[0002]异常检测是一个发现“少数派”的过程,由于异常数据与大多数数据不一样而引起我们的注意。通过获取异常数据,有助于发现与服务器系统有关的结构缺陷、设备故障等潜在的问题。及时的异常检测帮助系统开发人员(或操作人员)及时定位问题并立即解决它们,从而减少系统停机时间。
[0003]在系统运行过程中,通常采用生成日志的方式,记录系统在运行期间的详细运行信息,因此,日志可以作为用于对系统进行异常检测的主要数据源。
[0004]相关技术中,针对系统的日志数据进行异常检测时,主要包括两类检测方式。一类是监督类异常检测,主要以支持向量机、Logistic回归为主进行检测。其中,支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器。回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济检测等领域。但采用该类方式进行检测时,Logistic回归不能解决线性不可分离的问题,但支持向量机虽然可以解决该问题,但自身参数难以调整,导致建模的时需要消耗大量的人工成本。
[0005]另一类是非监督类的异常检测,主要以主成分分析(Principal Component Analysis,PCA)、不变量挖掘和一些聚类方法为主。但采用该种方式进行检测,耗时长,且容易发生误检测的情况,导致检测准确度低。

技术实现思路

[0006]因此,本专利技术要解决的技术问题在于克服现有技术中针对系统日志进行异常检测效率低且准确度低的缺陷,从而提供一种异常检测模型训练方法、异常检测方法、装置及介质。
[0007]根据第一方面,本专利技术提供一种异常检测模型训练方法,所述方法包括:
[0008]获取用于训练的日志数据,在所述日志数据中提取非结构数据,所述非结构数据包括文本数据和数值型数据;
[0009]将所述文本数据转化为词向量,把所述数据型数据转化为向量;
[0010]将所述词向量和所述向量输入随机森林模型进行训练,调整所述随机森林模型的参数,得到异常检测模型。
[0011]在该方式中,将用于训练的日志数据中属于服务器系统运行信息的非结构数据进行提取训练随机森林模型,使得到的异常检测模型,能够快速区分正常数据和异常数据,减少无效信息的干扰,从而提高训练效率。
[0012]结合第一方面,在第一方面的第一实施例中,所述在所述日志数据中提取非结构
数据,包括:
[0013]将所述日志数据通过Drain算法进行结构解析,提取所述日志数据中的非结构数据。
[0014]结合第一方面或者第一方面的第一实施例,在第一方面的第二实施例中,所述将所述文本数据转化为词向量,包括:
[0015]通过Word2vec算法,将所述文本数据转化为词向量。
[0016]在该方式中,能够将自然语言处理的技术应用于日志数据的检测,使得到的异常检测模型能够识别日志数据内容或者日志数据的编写规则,从而进行针对性的检测。
[0017]根据第二方面,本专利技术还提供一种异常检测方法,所述方法包括:
[0018]获取服务器系统的待测日志数据;
[0019]对所述待测日志数据进行预处理,得到待进行检测的待测词向量和待测向量;
[0020]将所述待测词向量和所述待测向量输入至异常检测模型,得到所述日志数据的异常检测结果,所述异常检测模型采用上述第一方面及其可选实施方式中任一项的所述的异常检测模型训练方法训练得到。
[0021]在该方式中,能够基于训练好的异常检测模型对获取到的待测日志数据进行自动检测,无需通过人为监测确定需要待进行检测的日志数据领域,从而当服务器系统存在异常时,可以快速定位问题,以便能够及时解决。
[0022]结合第二方面,在第二方面的第一实施例中,所述对所述日志数据进行预处理,得到待进行检测的待测词向量和待测向量,包括:
[0023]将所述待测日志数据通过Drain算法进行结构解析,提取所述待测日志数据中的非结构数据,所述非结构数据包括文本数据和数值型数据;
[0024]将所述文本数据通过Word2vec算法转化为待测词向量;
[0025]将所述数值型数据转化为待测向量。
[0026]在该方式中,能够基于训练好的异常检测模型对获取到的待测日志数据进行自动检测,无需通过人为监测确定需要待进行检测的日志数据领域,从而当服务器系统存在异常时,可以快速定位问题,以便能够及时解决。
[0027]结合第二方面或者第二方面的第一实施例,在第二方面的第二实施例中,若所述待测日志数据包括多条日志数据,则所述方法还包括:
[0028]若出现异常检测结果为数据异常的日志数据,则向用户发送告警信息,所述告警信息包括所述待测日志数据中异常检测结果为异常数据的日志数据。
[0029]在该方式中,使用户能够根据接收到的告警信息,明确待测日志数据中异常检测结果为数据异常的日志数据,进而快速定位故障,及时解决问题,从而减少服务器系统停机时间。
[0030]根据第三方面,本专利技术提供一种异常检测模型训练装置,所述装置包括:
[0031]获取单元,用于获取训练用日志数据,在所述日志数据中提取非结构数据,所述非结构数据包括文本数据和数值型数据;
[0032]转换单元,用于将所述文本数据转化为词向量,把所述数据型数据转化为向量;
[0033]训练单元,用于将所述词向量和所述向量输入随机森林模型进行训练,调整所述随机森林模型的参数,得到异常检测模型。
[0034]结合第三方面,在第三方面的第一实施例中,所述获取单元,包括:
[0035]提取单元,用于将所述日志数据通过Drain算法进行结构解析,提取所述日志数据中的非结构数据。
[0036]结合第三方面或者第三方面的第一实施例,在第三方面的第二实施例中,所述转换单元,包括:
[0037]转换子单元,用于通过Word2vec算法,将所述文本数据转化为词向量。
[0038]根据第四方面,本专利技术还提供一种异常检测装置,其特征在于,所述装置包括:
[0039]日志获取单元,用于获取服务器系统的待测日志数据;
[0040]预处理单元,用于对所述待测日志数据进行预处理,得到待进行检测的待测词向量和待测向量;
[0041]检测单元,用于将所述待测词向量和所述待测向量输入至异常检测模型,得到所述日志数据的异常检测结果,所述异常检测模型采用上述第一方面及其可选实施方式中任一项的所述的异常检测模型训练方法训练得到。
[0042]结合第四方面,在第四方面的第一实施例中,所述预处理单元,包括:
[0043]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常检测模型训练方法,其特征在于,所述方法包括:获取用于训练的日志数据,在所述日志数据中提取非结构数据,所述非结构数据包括文本数据和数值型数据;将所述文本数据转化为词向量,把所述数据型数据转化为向量;将所述词向量和所述向量输入随机森林模型进行训练,调整所述随机森林模型的参数,得到异常检测模型。2.根据权利要求1所述的方法,其特征在于,所述在所述日志数据中提取非结构数据,包括:将所述日志数据通过Drain算法进行结构解析,提取所述日志数据中的非结构数据。3.根据权利要求1或2所述的方法,其特征在于,所述将所述文本数据转化为词向量,包括:通过Word2vec算法,将所述文本数据转化为词向量。4.一种异常检测方法,其特征在于,所述方法包括:获取服务器系统的待测日志数据;对所述待测日志数据进行预处理,得到待进行检测的待测词向量和待测向量;将所述待测词向量和所述待测向量输入至异常检测模型,得到所述日志数据的异常检测结果,所述异常检测模型采用上述权利要求1

3中任一项所述的异常检测模型训练方法训练得到。5.根据权利要求4所述的方法,其特征在于,所述对所述日志数据进行预处理,得到待进行检测的待测词向量和待测向量,包括:将所述待测日志数据通过Drain算法进行结构解析,提取所述待测日志数据中的非结构数据,所述非结构数据包括文本数据和数值型数据;将所述文本数据通过Word2vec算法转化为待测词向量;将所述数值型数据转化为待测向量。6.根据权利要求4或5所述的方法,其特征在于,若所述待测日志数据包括多条日志数据,则所述方法还包括:若出现异常检测结果为数据异常的日志数据...

【专利技术属性】
技术研发人员:赵静
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1